Tài liệu kỹ thuật

TRỰC QUAN HÓA BỘ DỮ LIỆU DÂN SỐ TOÀN CẦU VỚI PYTHON

18/11/2021 GeoLink Thu Giang 0 Nhận xét

(English below)

Thống kê tóm tắt của tập dữ liệu vectơ và raster địa không gian được giới hạn bởi các tệp hình dạng đa giác

Lập bản đồ thông tin liên quan đến việc phân bổ người dân là rất quan trọng đối với một loạt các câu hỏi về chính sách công trên các bối cảnh quốc gia khác nhau trên hành tinh của chúng ta. Khả năng nắm bắt phân bố dân cư theo địa lý và các đặc điểm chính của họ là yếu tố không thể thiếu để đo lường mức độ phơi nhiễm với thiên tai và biến đổi khí hậu, tiếp cận sự khác biệt đối với các dịch vụ chính như y tế, áp lực môi trường và sử dụng đất. Cho dù cho mục đích lập kế hoạch, lập ngân sách hay quy định, dữ liệu dân số đủ chi tiết và kịp thời để đưa ra quyết định dựa trên bằng chứng là cần thiết.


Một thế hệ mới gồm các lớp ước tính dân số có độ phân giải cao ngày càng đóng góp mạnh mẽ vào quá trình ra quyết định của khu vực công, đặc biệt là ở các nước đang phát triển. Các lớp bản đồ dựa trên các phương pháp thu thập dữ liệu phi truyền thống, bao gồm cả việc sử dụng hình ảnh vệ tinh. Do đó, họ có thể cung cấp ước tính dân số cho bất kỳ ô lưới nào trên trái đất ở độ phân giải 30 mét. Các bản cập nhật mới nhất của họ có thể được truy cập trực tuyến thông qua Giao diện lập trình ứng dụng (API), khiến chúng có khả năng trở thành tài sản rất có giá trị cho những người ra quyết định theo hướng dữ liệu.


Một số hạn chế quan trọng của dữ liệu điều tra dân số thống kê hoặc hành chính truyền thống được giải quyết bằng các bản đồ dân số có độ phân giải cao này. Dữ liệu điều tra dân số thường không được cập nhật thường xuyên, hầu hết các quốc gia chỉ thực hiện khoảng mười năm một lần. Chúng thường được trình bày trong các phân loại quản trị dạng bảng, giới hạn các tùy chọn phân tích và hình ảnh hóa so với các lớp dựa trên lưới chi tiết hơn. Dữ liệu điều tra dân số cấp hộ gia đình hiếm khi được thu thập trên cơ sở tham chiếu địa lý hoặc được tiết lộ ở cấp đó. Sổ đăng ký hành chính về sinh và tử do các chính phủ quốc gia và địa phương duy trì cũng không phải lúc nào cũng đáng tin cậy hoặc được cập nhật, đặc biệt là ở các nước có thu nhập thấp và trung bình.
Các tập dữ liệu như Lớp giải quyết độ phân giải cao của Nghiên cứu Facebook (HRSL) và World Pop, sử dụng các kỹ thuật thế hệ mới để ước tính dân số có độ phân giải cao có thể được triển khai dễ dàng cho một loạt các phân tích mô tả và mô tả.
Dự án WorldPop được khởi xướng vào năm 2013 với mục tiêu cung cấp khả năng truy cập mở vào các bộ dữ liệu dân số và nhân khẩu học để hỗ trợ các ứng dụng phát triển, thiên tai và y tế. Nó tích hợp các cuộc điều tra tổng điều tra vi mô quy mô vùng lân cận được thực hiện trong các khu vực nhỏ và hình ảnh vệ tinh cấp quốc gia và bản đồ kỹ thuật số. Nói tóm lại, WorldPop đã tận dụng mô hình học máy (rừng ngẫu nhiên) để ngoại suy các ước tính dân số quốc gia có độ phân giải cao từ dữ liệu điều tra dân số vi mô tương đối thưa thớt (bao gồm cả dự đoán dân số ở các địa điểm chưa được di chuyển) và khả dụng hàng năm từ 2000-2020 (tính đến tháng 11 năm 2020). Dữ liệu dân số dạng lưới hoặc hình ảnh raster có sẵn ở độ phân giải không gian chi tiết đến 3 giây cung (khoảng 100m tại đường xích đạo). Sự sẵn có theo thời gian của các ước tính có độ phân giải cao về số lượng dân số giúp xác định sự tăng trưởng và động lực của dân số ở các cấp độ quốc gia và khu vực dễ dàng hơn.
Một sự hợp tác khác như vậy là của Facebook với Trung tâm Mạng Thông tin Khoa học Trái đất Quốc tế (CIESIN), nhằm sử dụng trí thông minh nhân tạo để xác định các tòa nhà từ hình ảnh vệ tinh và ước tính dân số ở độ phân giải 30 mét. Các điều chỉnh để phù hợp với dân số điều tra dân số với ước tính của Liên hợp quốc cũng được áp dụng ở cấp quốc gia. Các điều chỉnh được thực hiện để phù hợp với ước tính dân số của các quốc gia của Liên hợp quốc trong các năm 2015 và 2020.
Trên thực tế, các nhà hoạch định chính sách có thể chưa đủ quen thuộc với cách tiếp cận, phân tích, áp dụng và áp dụng cuối cùng những dữ liệu này cho mục đích ra quyết định của họ. Sự quen thuộc hơn cũng sẽ giúp hiểu được những lợi ích có thể có, các ứng dụng, nhưng cũng có thể hạn chế của các tài nguyên dữ liệu mới này cho mục đích ra quyết định của họ.
Để hỗ trợ việc ra quyết định dựa trên dữ liệu và dựa trên dữ liệu, Môi trường Python Jupyter Notebook (JPNEs) trực tuyến cho phép các cách thức có thể truy cập và có thể nhân rộng để thực hiện phân tích và trực quan hóa dữ liệu.
JNPEs tích hợp mã lập trình, mô tả trực quan và kết quả đầu ra số và trực quan (trích dẫn). Khi được triển khai trực tuyến, chúng không yêu cầu người dùng cài đặt hoặc tải xuống bất kỳ phần mềm cục bộ nào. JPNE không chỉ mạnh mẽ cho công việc phân phối, mà trên hết là để tạo điều kiện hợp tác chặt chẽ hơn với các chuyên gia trong lĩnh vực công và lĩnh vực công với các nhà khoa học dữ liệu.


Trong blog này, chúng tôi khám phá Số lượng dân số WorldPop (định dạng Raster ở độ phân giải 100m được tải xuống dưới dạng tệp tif) và Bản đồ mật độ dân số có độ phân giải cao từ Facebook (Định dạng vectơ ở độ phân giải 30m được tải xuống dưới dạng csv) bằng Python trong JPNE và trực quan hóa số lượng dân số tại các đơn vị hành chính khác nhau đối với Việt Nam.
Để trích xuất số lượng dân số ước tính cho các cơ quan hành chính khác nhau thể hiện các ranh giới kỹ thuật số của Việt Nam dưới dạng shapefile (một định dạng phi tôpô đơn giản để lưu trữ vị trí hình học và thông tin thuộc tính của các đối tượng địa lý được biểu thị dưới dạng đa giác hoặc diện tích). Do đó, phân tích này yêu cầu ba tập dữ liệu-Dữ liệu dân số từ WorldPop và Facebook, và dữ liệu Ranh giới hành chính từ GADM. Phân tích bao gồm 4 bước:

  • Tải và khám phá dữ liệu về Ranh giới hành chính từ GADM Tải,
  • Khám phá và Trực quan hóa dữ liệu Dân số từ WorldPop Tải,
  • Khám phá và Trực quan hóa dữ liệu Dân số từ Facebook
  • So sánh và tóm tắt kết quả

Xem thêm: https://towardsdatascience.com/visualising-global-population-datasets-with-python-c87bcfc8c6a6

------

VISUALISING GLOBAL POPULATION DATASETS WITH PYTHON 
Summary statistics of geospatial raster and vector datasets bounded by polygon shapefiles
Mapping information concerning distribution of people is vital to a host of public policy questions across our planet’s different country settings. The ability to capture geographic distribution of population and their key characteristics is integral to measuring exposure to disasters and climate change, access differentials to key services such as health, and environmental and land-use pressures. Whether for planning, budgeting, or regulatory purposes, sufficiently granular and timely population data for more evidence-based decision making is necessary.
A new generation of high-resolution population estimate count layers stand to increasingly make a powerful contribution to public sector decision making, particularly in developing countries. The mapping layers rely on non-traditional methodologies of data collection, including the use of satellite imagery. Consequently, they can provide population estimates for any grid cell on the earth down to 30 meters resolution. Their latest updates can be accessed on-line through Application Programming Interfaces (APIs), making them potentially a very valuable asset for data-driven decision makers.
Some critical limitations of the traditional administrative or statistical population census data are addressed by these high-resolution population maps. Population census data typically lack frequent updates, being undertaken only roughly every ten years by most of the countries. They are generally presented in tabular administrative classifications, which limits analytics and visualisation options compared to more granular grid-based layers. Household level population census data is rarely collected on geo-referenced basis, or disclosed at that level. The administrative registers of births and deaths maintained by national and subnational governments are also not always reliable or updated, especially in low and middle-income countries.
Datasets such as the Facebook Research High Resolution Settlement Layer (HRSL) and World Pop, employing new generation techniques for high-resolution population estimates can be readily deployed for a range of descriptive and prescriptive analytics.
WorldPop Project was initiated in 2013 with the goal to provide open access to population and demographic datasets to support development, disaster, and health applications. It integrates neighborhood-scale micro-census surveys undertaken in small areas and national-level satellite imagery and digital mapping. In short, WorldPop leveraged machine learning modeling (random forest) to extrapolate high-resolution national population estimates from the relatively sparse micro census data (including predicting populations in unsurveyed locations) and are available yearly from 2000-2020 (as of November 2020). The gridded population data or raster images are available at a spatial resolution as detailed as 3 arc seconds (approximately 100m at the equator). This temporal availability of high-resolution estimates of population count makes it easier to identify the growth and dynamics of the population across national and regional levels.
Another such collaboration is of Facebook with the Center for International Earth Science Information Network (CIESIN), to use artificial intelligence to identify buildings from satellite imagery and estimate population at a 30meter resolution. Adjustments to match the census population with the UN estimates are also applied at the national level. The adjustments are made to match the UN country population estimates for the years of 2015 and 2020.
In practice, policy makers may not yet be familiar enough with how to access, analyze, apply, and ultimate adopt these data for their decision-making purposes. Greater familiarity will also help understand the possible benefits, applications, but also limitations of these new data resources for their decision-making purposes.
To support data-informed and data-driven decision making, online Jupyter Notebook Python Environments (JPNEs) allows for accessible and replicable ways of realising data analytics and visualisation.
JNPEs integrate programming code, intuitive description, and numeric and visual outputs (cite). When implemented on-line, they do not require users to install or download any local software. JPNE are not just powerful for delivery work, but above all to facilitate closer collaboration with the domain and public sector experts with the data scientists.
In this blog, we explore the WorldPop Population Counts (Raster format at 100m resolution downloaded as tif file) and High Resolution Population Density Maps from Facebook (Vector format at 30m resolution downloaded as csv) with Python in a JPNE and visualise the population counts at different administrative units for Vietnam.
To extract the estimated population count for different administrative unepresenting the digital boundaries of Vietnam as shapefiles (a simple non-topological format for storing geometric location and attribute information of features represented as a polygon or area).
Thus, this analysis requires three datasets-Population data from WorldPop and Facebook, and Administrative Boundaries data from GADM. The analysis includes 4 steps: 

  • Load and Explore data on Administrative Boundaries from GADM
  • Load, Explore, and Visualize Population data from WorldPop
  • Load, Explore and Visualize Population data from Facebook
  • Compare and summarise results

Get more information at: https://towardsdatascience.com/visualising-global-population-datasets-with-python-c87bcfc8c6a6

Geolink tổng hợp từ Towardsdatascience 

Bình luận

VIẾT BÌNH LUẬN CỦA BẠN:

popup

Số lượng:

Tổng tiền: