-
-
-
Tổng cộng:
-
SỬ DỤNG CÔNG NGHỆ HỌC MÁY ĐỂ LẬP BẢN ĐỒ MÔI TRƯỜNG SỐNG CÓ ĐÁY - P1
(English below)
Hội đồng Khoa học Địa lý Nam Phi gần đây đã đưa ra một sáng kiến nhằm tối ưu hóa việc thu thập dữ liệu địa vật lý biển ở vùng biển Nam Phi. Mục tiêu chính của sáng kiến là tạo ra các bản đồ biển ngoài khơi với độ phủ 100% đáy biển ở độ phân giải cao nhất hiện nay, theo tiêu chuẩn của Tổ chức Thủy văn Quốc tế (IHO). Các nhà khoa học bắt tay vào làm việc và phát triển một công cụ để phân loại độ sâu đáy biển và một công cụ dự đoán phân loại dữ liệu địa chất thành các bản đồ chất nền bằng cách sử dụng các kỹ thuật máy học.
Trong lịch sử gần đây của miền nam châu Phi, chưa có một dự án lập bản đồ địa vật lý biển ngoài khơi có hệ thống quy mô lớn nào. Việc thiếu dữ liệu này dẫn đến việc Hội đồng Khoa học Địa chất bắt đầu chương trình lập bản đồ ngoài khơi của riêng mình để tối ưu hóa việc thu thập dữ liệu địa vật lý biển. Mục tiêu chính của sáng kiến là tạo ra các bản đồ biển ngoài khơi với độ phủ 100% đáy biển ở độ phân giải cao nhất hiện nay, theo tiêu chuẩn của Tổ chức Thủy văn Quốc tế (IHO). Một trong những trọng tâm chính của chiến lược là công nghệ và đổi mới trong lập bản đồ, nhằm cung cấp thông tin tốt hơn cho các dự án nghiên cứu và xây dựng dựa trên kiến thức tập thể trong lĩnh vực biển. Chương trình cũng có kế hoạch nâng cao sự hiểu biết của công chúng về khoa học, bộc lộ tính chất của đáy biển, vốn vẫn chưa được trình bày đầy đủ cho đến nay.
Khi Nam Phi đối chiếu và thu thập dữ liệu không gian thủy văn mới, điều bắt buộc là các bộ dữ liệu này phải được sử dụng cho một loạt các ứng dụng. Lập bản đồ môi trường sống đáy xem xét sự phân bố của các môi trường sống sinh học, chủ yếu bị chi phối bởi hình thái học và chất nền địa chất, đồng thời dựa vào các ứng dụng của máy học, và đáy biển Nam Phi vừa rộng lớn vừa thay đổi về thành phần. Phương pháp lập bản đồ sử dụng máy học này kết hợp với dữ liệu địa vật lý và sinh học biển, được thử nghiệm ở nhiều địa điểm trên khắp đường bờ biển Nam Phi, sẽ giúp cải thiện hiểu biết hiện tại của chúng ta về mối quan hệ giữa quần thể sinh vật và môi trường sống.
Hình 1: Kết hợp máy học và dữ liệu địa vật lý biển theo cách sáng tạo để nâng cao kỹ thuật lập bản đồ môi trường sống của sinh vật đáy.
Đặc điểm kỹ thuật để thu thập dữ liệu
Dữ liệu đo độ tắm đa tia và dữ liệu tán xạ ngược thu được từ các cuộc điều tra đã thực hiện cho đến nay đã được thu thập bằng thiết bị siêu âm đa tia 400kHz R2Sonic 2024 gắn cực, với tính năng hiệu chỉnh chuyển động và định vị động cho hệ thống được cung cấp bởi thiết bị tham chiếu chuyển động quán tính Applanix POS M / V Oceanmaster (IMU ). Định vị được bắt nguồn từ việc hiệu chỉnh vi sai từ C-Nav 3050 DGPS. Quy hoạch tuyến khảo sát tạo điều kiện bao phủ toàn bộ đáy biển. Việc thu thập dữ liệu gần với đường bờ biển hoặc ở các khu vực bãi cạn không thể thực hiện được vì sự hiện diện của các lớp tảo bẹ dày và / hoặc các điều kiện lướt sóng nguy hiểm. Mất khoảng 70 ngày để xử lý và diễn giải ~ 5.000 km dữ liệu, với tất cả dữ liệu được thu thập và xử lý bằng phần mềm QPS Qinsy và Qimera. Dữ liệu độ sâu đã được san bằng mực nước biển trung bình bằng giải pháp SBET liên quan đến mô hình đối xứng SAGEOID2010. Lưới độ sâu cuối cùng được phân giải thành các thùng / gạch / pixel 1m (độ sâu nhất).
Dữ liệu tán xạ ngược quét bên thông thường được thu thập bằng cách sử dụng sonar quét bên tần số kép (500/100 kHz) Klein 3000, được kéo phía sau tàu khảo sát bằng tời CSW-9V. Các đường được thu thập bằng cách sử dụng phạm vi quét 75m với độ chồng chéo 15% của các đường liền kề và toàn bộ đáy biển. Vị trí của con cá lai được xác định bằng phương pháp bố trí tương hỗ, được truyền trong thời gian thực tới phần mềm thu nhận thông qua một modem vô tuyến. Dữ liệu này được xử lý bằng phần mềm độc quyền của NavLog để tạo ra ảnh ghép sonar quét bốn cạnh với độ phân giải pixel là 10cm. Dữ liệu tán xạ ngược xuất phát từ nhiều tia được xử lý bằng QPS FMGT để tạo ra bức tranh khảm cuối cùng với độ phân giải 0,5m.
Hình 2: Bản đồ địa phương của Koeberg, Clifton và Vịnh Table được tìm thấy dọc theo Western Cape, cũng như Cape St Francis được tìm thấy dọc theo Đông Cape của Nam Phi.
Sự khác biệt của các kỹ thuật học máy
Trong hai thập kỷ qua, học máy đã trở thành nền tảng trong công nghệ thông tin, vì ngày càng có nhiều dữ liệu được cung cấp cho các nhà khoa học trong nhiều lĩnh vực khác nhau. Sự tích lũy dữ liệu này cùng với nhu cầu phân tích dữ liệu hiệu quả sẽ trở thành một thành phần cần thiết cho tiến bộ công nghệ trong tương lai. Học máy dựa trên các quy trình mô hình hóa máy tính và nhiều biểu hiện của chúng; nó kết hợp các nghiên cứu định hướng nhiệm vụ, mô phỏng nhận thức và phân tích lý thuyết để giải thích và hiểu nhiều loại bộ dữ liệu.
Trong học máy, có hai loại phân loại dữ liệu chính: đó là có giám sát và không được giám sát. Phân loại có giám sát đề cập đến việc sử dụng phần mềm xử lý hình ảnh được hướng dẫn bởi người dùng để chỉ định các danh mục mà dữ liệu cần được phân loại. Trong quá trình phân loại có giám sát, dữ liệu dựa trên cơ sở được phân loại và sau đó được sử dụng để hạn chế việc giải thích dữ liệu âm thanh. Phân loại không giám sát đề cập đến một phương pháp trong đó kết quả (nhóm các pixel có đặc điểm chung) dựa trên phân tích hình ảnh của phần mềm mà không cần người dùng cung cấp các lớp mẫu. Sau đó, phần mềm xác định những pixel nào có liên quan và nhóm chúng thành các lớp.
--------
USING MACHINE LEARNING TO DERIVE BENTHIC HABITAT MAPS -P1
The South African Council for Geoscience recently launched an initiative to optimize marine geophysical data collection in South African waters. The main aim of the initiative is to produce marine offshore maps with 100% seafloor coverage in the highest resolution currently possible, according to International Hydrographic Organization (IHO) standards. Scientists set to work and developed a tool to classify seafloor bathymetry and a predictive tool that classifies geological data into substrate maps using machine learning techniques.
In the recent history of southern Africa, there has not been a large-scale systematic marine geophysical offshore mapping project. This lack of data resulted in the Council for Geoscience initiating its own offshore mapping programme to optimize marine geophysical data collection. The main aim of the initiative is to produce marine offshore maps with 100% seafloor coverage in the highest resolution currently possible, according to International Hydrographic Organization (IHO) standards. One of the main focuses of the strategy has been technology and innovation in mapping, to better inform research projects and build on the collective knowledge in the marine sphere. The programme also plans to advance the public understanding of science exposing the character of the seafloor, which has been underrepresented up to now.
As South Africa collates and acquires new hydrospatial data, it is imperative that these datasets are used for a range of applications. Benthic habitat mapping considers the distribution of biological habitats, as chiefly governed by morphology and geological substrate, and lends itself to applications of machine learning, and the South African seafloor is both vast and variable in composition. This method of mapping using machine learning in combination with marine geophysical and biological data, tested in multiple sites across the South African coastline, will aid in improving our current understanding of the relationships between biota and physical habitats.
Figure 1: Combining machine learning and marine geophysical data in an innovative way to enhance benthic habitat mapping techniques.
Technical Specifications for Data Collection
The multibeam bathymetry and backscatter data acquired from the investigations undertaken so far were collected using a pole-mounted 400kHz R2Sonic 2024 multibeam echosounder, with motion correction and dynamic positioning for the system provided by an Applanix POS M/V Oceanmaster inertial motion reference unit (IMU). Positioning was derived from a differential correction from a C-Nav 3050 DGPS. Survey line planning facilitated full seafloor coverage. The acquisition of data close to the coastline or in shoaling areas was not possible because of the presence of thick kelp beds and/or dangerous surf conditions. It took approximately 70 days to process and interpret ~5,000 kilometres of data, with all data acquired and processed using QPS Qinsy and Qimera software. The bathymetric data was levelled to Mean Sea Level using an SBET solution relative to the SAGEOID2010 orthometric model. The final bathymetric grid was resolved into 1m (shoalest depth) bins/tiles/pixels.
Conventional sidescan backscatter data was acquired using a dual-frequency (500/100 kHz) Klein 3000 sidescan sonar, which was towed behind the survey vessel using a CSW-9V winch. Lines were acquired using a scan range of 75m with 15% overlap of adjacent lines and full ensonification of the seafloor. The position of the towfish was determined using the reciprocal-layback method, transmitted in real time to the acquisition software via a radio modem. This data was processed using NavLog proprietary software to produce four sidescan sonar mosaics with a pixel resolution of 10cm. The multibeam derived backscatter data was processed using QPS FMGT to generate final mosaic with a 0.5m resolution.
Figure 2: Locality map of Koeberg, and Clifton and Table Bay found along the Western Cape, as well as Cape St Francis found along the Eastern Cape of South Africa.
Differentiation of Machine Learning Techniques
Over the past two decades, machine learning has become a cornerstone in information technology, as increasing amounts of data are now available to scientists in various fields. This accumulation of data along with the need for efficient data analysis will become a necessary component for technological advancement in the future. Machine learning is based on computer modelling processes and their multiple manifestations; it combines task-orientated studies, cognitive simulations and theoretical analysis to interpret and understand a wide variety of datasets.
In machine learning, there are two main categories of data classification: namely supervised and unsupervised. Supervised classification refers to the use of image processing software that is guided by the user to specify the categories into which the data should be classified. During supervised classification, ground-truthed data is classified and then used to constrain the interpretation of the acoustic data. Unsupervised classification refers to a method where the outcomes (groupings of pixels with common characteristics) are based on the software’s analysis of an image without the user providing sample classes. The software then determines which pixels are related and groups them into classes.
Geolink tổng hợp từ Hydro-international