Kiến thức

Những thách thức khi sử dụng Máy học trên dữ liệu Quan trắc Trái đất - P1

05/08/2021 GeoLink Thu Giang 0 Nhận xét

(English below)
Đã có tiến bộ đáng kể trong việc xây dựng phương pháp học Máy học (ML) để phân tích dữ liệu Quan trắcTrái đất (EO); tuy nhiên, các chuyên gia trên toàn thế giới phải đối mặt với nhiều thách thức trong khi sử dụng các thuật toán ML trên dữ liệu EO.

Để các mô hình ML hoạt động, hai quy trình hoạt động đồng thời. Đầu tiên, hàng tấn dữ liệu được thu thập từ các vệ tinh EO, được xử lý để làm cho nó sẵn sàng ứng dụng. Dữ liệu này được gọi là dữ liệu sẵn sàng cho ứng dụng (ARD), được đưa vào Đám mây và được tổ chức thành các tập dữ liệu khác nhau được gọi là khối dữ liệu. Thứ hai, dữ liệu đào tạo được thu thập để đào tạo các mô hình. Khi cả hai tập dữ liệu được tổ chức, một mô hình ML thích hợp sẽ được chọn để phân loại, làm mịn và xử lý dữ liệu để có được những thông tin chi tiết có giá trị.
Sử dụng nhiều thuật toán ML trên khối lượng lớn dữ liệu EO đảm bảo kết quả đáng tin cậy và thuyết phục, do đó giúp giảm bớt quá trình chứng minh hoặc bác bỏ một giả thuyết nhất định. Mặc dù lợi ích là rất nhiều, nhưng tính khả dụng dồi dào của dữ liệu vệ tinh EO khiến việc chạy các mô hình và thuật toán ML một cách hiệu quả sẽ trở nên khó khăn. Hiện tại, chúng tôi có rất nhiều bộ dữ liệu như Sentinel 2, Sentinel 3, Landsat 8 và SkySat, có thể kể đến một số bộ dữ liệu cung cấp hơn 2 petabyte (PB) dữ liệu mỗi ngày. Do đó, trong khi nhiều mô hình ML hoạt động hiệu quả trên các mô hình mẫu, chúng không đại diện cho thực tế thực tế.

Một trong những thách thức quan trọng nhất phải đối mặt trong việc triển khai các mô hình ML một cách thích hợp là khối lượng dữ liệu khổng lồ được thu thập. GS.TS Gilberto Camara, Giám đốc Ban Thư ký, GEO, đã đề cập trong cuộc thảo luận rằng dữ liệu thu được từ các vệ tinh EO phải đủ để bao gồm tất cả các hạng mục và chi tiết mà một dự án yêu cầu một cách rõ ràng. Tuy nhiên, việc ghi nhãn dữ liệu cho số lượng danh mục là rất quan trọng, nó xác định hành vi của trình phân loại mô hình hóa dữ liệu.

Ghi nhãn dữ liệu
ML yêu cầu các nhãn để hiểu dữ liệu tốt hơn, nhưng tính đa dạng của bản chất hạn chế việc áp dụng các thuật toán ML. Phân loại hiện có sẵn thường không đủ để gắn nhãn dữ liệu. Để hiểu cơ bản, chúng tôi lấy ví dụ về việc sử dụng thuật toán ML cho dữ liệu EO của rừng -


Như được mô tả trong hình trên, cách người ta định nghĩa nhãn rừng ở những nơi khác nhau. Rừng chỉ là một nhãn đơn lẻ, nhưng nó có nhiều biến thể khác nhau, từ rừng Boreal đến rừng nhiệt đới. Người ta có thể nghĩ rằng vấn đề này có thể được giải quyết dễ dàng bằng cách chia nhỏ nhãn thành nhiều nhãn nhỏ. Giả sử, nếu người ta chia cụm từ thành tám nhãn khác nhau, thì vấn đề tìm kiếm các mẫu tốt để đào tạo thuật toán ML được nhân với tám. Do đó, nếu chúng tôi yêu cầu 1.000 mẫu rừng, trong tình huống trên, chúng tôi sẽ yêu cầu 8.000 mẫu cho cùng một mẫu, điều này làm phức tạp thêm vấn đề. Do đó, để mô tả bản chất một cách thích hợp, điều cần thiết là đảm bảo liệu các nhãn được sử dụng để xác định bản chất có phù hợp với các mô hình ML hay không.

Thời gian như một yếu tố
Trong trường hợp rừng, dữ liệu EO đang được sử dụng để theo dõi tình trạng rừng - đặc biệt là nạn phá rừng. Phá rừng không phải là quá trình một sớm một chiều mà là kết quả của một loạt các bước diễn ra theo thời gian. Trong bối cảnh ML, nó liên quan đến việc làm việc với cả Không gian và thời gian. Để hiểu rõ hơn, chúng ta có thể xem sơ đồ bên dưới, biểu đồ này giải thích cách một khu rừng phát triển. Rừng có thể phát triển theo bất kỳ cách nào được đề cập dưới đây; chẳng hạn, nó có thể được bảo tồn trong suốt thời gian, như trong Hình A (1). Có thể có phá rừng, hoặc có thể có trồng rừng trên đất bị phá rừng theo thời gian, như trong Hình A (3).


Tóm lại, người ta cần đo lường những gì tồn tại ở một địa điểm nhất định tại một thời điểm nhất định và xác định các sự kiện đã xảy ra ở địa điểm cụ thể đó theo thời gian. Do đó, để làm việc với Không gian và thời gian, chúng ta yêu cầu các mô hình không gian-thời gian. Mô hình hóa các sự kiện và thời gian là chìa khóa cho phân tích dữ liệu EO lớn, nhưng ML gặp khó khăn trong việc xử lý sự thay đổi.

Một giải pháp cho thách thức trên là sử dụng Ngữ nghĩa địa không gian để phân tích dữ liệu EO. Ở đây, dữ liệu EO được tổ chức bằng cách sử dụng chế độ xem logic, bao gồm lập chỉ mục và / hoặc nhập, thay vì sắp xếp dữ liệu theo ba chiều: thời gian, kinh độ và vĩ độ. Ý nghĩa của việc nhập dữ liệu là nó có thể được thu thập theo cách tối ưu hóa truy vấn. Các mẫu truy cập nhất định có thể đạt được hiệu quả hơn, chẳng hạn như phân tích không gian hoặc phân tích chuỗi thời gian.

----

Challenges of using Machine Learning on Earth Observation data
There has been substantial progress in building a Machine Learning (ML) methodology for Earth Observation (EO) data analysis; however, experts worldwide face many challenges while using ML algorithms on EO data.

For ML models to work, two processes work simultaneously. First, tons of data is captured from EO satellites, which is processed to make it application-ready. This data is called application-ready data (ARD), put in Cloud and organized into different datasets called data cubes. Secondly, the training data is collected to train models. Once both datasets are organized, an appropriate ML model is selected to classify, smoothen, and process the data to get valuable insights.  
Using multiple ML algorithms on large volumes of EO data ensures reliable and conclusive results, thereby easing the process to prove or disprove a given hypothesis. While the benefits are many, EO satellite data’s abundant availability makes it tricky to run ML models and algorithms efficiently. Currently, we have a ton of datasets like Sentinel 2, Sentinel 3, Landsat 8, and SkySat, to name a few, which provide more than 2 petabytes (PB) of data every day. Thus, while many ML models operate efficiently on sample models, they fail to represent actual reality.

One of the most critical challenges faced in deploying ML models appropriately is the massive volume of data collected. Prof. Dr. Gilberto Camara, Secretariat Director, GEO, mentioned during the discussion that the data derived from EO satellites should be enough to cover all the categories and details a project requires explicitly. However, data labeling of the number of categories is crucial, which defines the behavior of the classifier modeling the data. 

Data labeling
ML requires labels to understand data better, but natures’ diversity limits the application of ML algorithms. The currently available categorization is often found not enough to label data. For a basic understanding, we take the example of using ML algorithms for EO data of forests –
As depicted in the above image, how one defines a forest label is different for different places. Forest is a single label, but it has several variations, ranging from Boreal forest to Tropical forest. One may think this problem can be easily solved by breaking the label down into several small labels. Supposedly, if one were to break the term forest into eight different labels, the problem of finding good samples to train the ML algorithm is multiplied by eight. Hence, if we required 1,000 samples for the forest, in the above scenario, we would require 8,000 samples for the same, which complicates the matter. Thus, to describe nature appropriately, it is essential to ensure whether the labels used to define nature are consistent with the ML models.

Time as an element
In the case of forests, EO data is being used to monitor a forest’s condition – particularly deforestation. Deforestation is not a one-time process but is the result of a series of steps happening over time. In the ML context, it involves working with both Space and time. To understand it better, we can look at the diagram below, which explains how a forest evolves. A forest can grow in any of the ways mentioned below; for instance, it can be conserved throughout time, as in Fig A (1). There can be deforestation, or there can be afforestation in deforested land with time, as in Fig A (3).
To sum it up, one needs to measure what exists in a certain place at a certain point in time and determine the events that have happened in that particular location over time. Hence, to work with Space and time, we require spatial-temporal models. Modeling events and time is key for big EO data analysis, but ML has a hard time dealing with the change.

A solution to the above challenge is to use Geospatial Semantics for EO data analysis. Herein, EO data is organized using a logical view, including indexing and/or ingestion, rather than arranging it in three dimensions: time, longitude, and latitude. The significance of ingesting data is that it can be collected in a query-optimized way. Certain access patterns can be achieved more efficiently, such as spatial analysis or time series analysis.

Geolink tổng hợp từ Geospatialworld

popup

Số lượng:

Tổng tiền: