Tài liệu kỹ thuật

KẾT HỢP SỬ DỤNG GOOLE COLABORATORY VÀ HỌC MÁY TRONG PHÂN LOẠI ẢNH VIỄN THÁM

10/11/2021 GeoLink Thu Giang 0 Nhận xét

Khi mật độ dữ liệu và độ chính xác tăng theo thời gian thì khối lượng dữ liệu tăng theo cấp số nhân nên đó thực sự là nguồn dữ liệu vô cùng khổng lồ mà trong những năm gần đây có dùng thuật ngữ “Big data” để mô tả. Dữ liệu viễn thám là dữ liệu có cấu trúc phức tạp, nhiều định dạng do đó cần phải thiết kế hệ thống có kiến trúc lưu trữ loại big data viễn thám này. Bên cạnh đó, một môi trường có thể xử lý với tốc độ nhanh, khả năng ứng dụng được các phương pháp học máy để xử lý dữ liệu viễn thám cần được quan tâm nghiên cứu phát triển. Trong phạm vi bài báo này, tác giả đã thử nghiệm tính khả dụng của môi trường Google Colaboratory phục vụ phân loại ảnh viễn thám.

Giới thiệu chung: 

Sự phát triển công nghệ số trong những năm gần đây, đã khởi xướng việc phổ biến dữ liệu viễn thám rộng rãi tới người sử dụng. Hiện tại, đã có hơn 1000 vệ tinh viễn thám đã được phóng lên quỹ đạo [1] và dữ liệu thu được tại trạm thu ảnh vệ tinh được lưu trữ nhiềuTerabyte mỗi ngày [2]. Theo thống kê của Hệ thống thông tin và dữ liệu hệ thống quan sát trái đất (EOSDIS) năm 2014, EOSDIS quản lý hơn 9 Petabyte dữ liệu và hàng ngày nhận thêm 6.4 Terabyte vào kho lưu trữ (NASA 2016). Ở cơ quan vũ trụ châu Âu lượng dữ liệu ảnh viễn thám thu nhận được đã vượt quá 1.5 Petabyte [3], còn nếu xét tổng dung lượng dữ liệu viễn thám đã thu nhận được thì đã đạt tới đơn vị Zetabyte (10e9 Terabyte) [4].

Khi độ chính xác và mật độ dữ liệu tăng theo thời gian, khối lượng dữ liệu tăng theo cấp số nhân nên đó thực sự là nguồn dữ liệu vô cùng khổng lồ mà trong những năm gần đây có dùng thuật ngữ “Big data” để mô tả [5] mà giờ thực tế đã công nhận dữ liệu viễn thám là ‘big data’. Thêm vào đó, dữ liệu viễn thám có cấu trúc rất phức tạp, nhiều định dạng như Geotiff, ASCII, HDF,… và không có sự tương tác giữa các loại dữ liệu từ các vệ tinh viễn thám khác nhau do đó cần phải thiết kế hệ thống có kiến trúc lưu trữ loại big data viễn thám này. Một vấn đề nữa là xử lý dữ liệu viễn thám đặt ra yêu cầu cao về hiệu năng tính toán. Một mặt, với sự cải tiến liên tục về chất lượng và độ chính xác của dữ liệu, dữ liệu có độ phân giải cao hơn cần được xử lý; mặt khác, với sự phát triển của các thuật toán như machine learning và deep learning, các thuật toán xử lý dữ liệu viễn thám ngày càng trở nên phức tạp.

Để xử lý bài toán trên, các nhà khoa học đã nỗ lực tập trung vào tính khả dụng của dữ liệu viễn thám và khả năng xử lý. Để đảm bảo tính sẵn sàng ở mức độ cao của dữ liệu viễn thám, các hệ thống lưu trữ phân tán đã được áp dụng rộng rãi. Tiêu biểu như MongeDB, một cơ sở dữ liệu phân tán ban đầu hỗ trợ cả lưu trữ và lập chỉ mục dữ liệu viễn thám và dữ liệu vectơ [6,7]. Hệ thống tệp phân tán Hadoop (HDFS) được áp dụng để có thể lưu trữ tất cả các loại dữ liệu viễn thám, nó đã chứng tỏ là vượt trội so với hệ thống tệp cục bộ [8,9]. Với cơ sở dữ liệu NoQuery cũng có thể lưu trữ dữ liệu viễn thám như HBase [10]. Ngoài ra, các hệ thống lưới toàn cầu riêng biệt (DGGS) [11] và một số cách tiếp cận tổ chức dữ liệu khác [12,13] cũng giúp lập chỉ mục và xác định tổ chức dữ liệu hang. HPC dựa trên cluster và cloud là hai kiểu chiếm ưu thế nhất để xử lý viễn thám [14]. Cấu trúc của Master-Slave giúp lập kế hoạch và thực hiện xử lý viễn thám phức tạp, điều này chứng tỏ cải thiện đáng kể hiệu quả của tính toán trong xử lý dữ liệu viễn thám [15]. OpenMP cung cấp hiệu suất tính toán linh hoạt, có thể mở rộng và có khả năng tính toán [16].

Ngoài các giải pháp riêng lẻ này ra, một số nền tảng hợp nhất được đề xuất để cung cấp giải pháp xuyên suốt cho viễn thám dữ liệu lớn. Google Earth Engine (GEE) là một cái tên không còn xa lạ đặc biệt với người sử dụng cá nhân-còn nhiều hạn chế về hạ tầng lưu trữ và tính toán hiệu năng cao, GEE cung cấp quyền truy cập dễ dàng để sử dụng các tài nguyên tính toán dựa vào nền tảng cloud-computing cho các bộ dữ liệu viễn thám quy mô lớn [17]. Tuy nhiên, GEE không phải là nguồn mở và không thuận tiện khi xử lý các bộ dữ liệu riêng với tài nguyên máy tính riêng của người dung mặc dù đây là một nền tảng xử lý dữ liệu lớn rất thành công.

Do đó, Google Colaboratory (GC) ra đời để hoàn thành nốt sứ mạng trên, rất phù hợp để giải các bài toán đòi hỏi hiệu năng tính toán lớn, tích hợp sẵn các framework như Tensorflow, Keras và PyTorch để hỗ trợ cho deep learning và đặc biệt là hoàn toàn miễn phí cho người sử dụng, đáp ứng được nhu cầu trong lĩnh vực nghiên cứu và giáo dục mà không phải chọn giải pháp thuê dịch vụ của Amazon Web Services (AWS) như trước kia. Trong phạm vi bài báo này, nhóm nghiên cứu đã thử nghiệm tính khả dụng của ừn dụng môi trường GC kết hợp với phương pháp học máy trong phân loại ảnh viễn thám.

Xem bài báo đầy đủ: http://rsc.gov.vn/SitePages/BanTin.aspx?item=435

Geolink tổng hợp từ RSC

Bình luận

VIẾT BÌNH LUẬN CỦA BẠN:

popup

Số lượng:

Tổng tiền: