HỘI THẢO ỨNG DỤNG GIS TOÀN QUỐC 2011
326
BÀN LUẬN VỀ VẤN ĐỀ DỮ LIỆU ĐA NGUỒN VÀ KINH NGHIỆM
TRONG TRIỂN KHAI THU THẬP DỮ LIỆU GIS – NHẬN ĐỊNH
TỪ MỘT NGUỒN DỮ LIỆU TẠI QUẬN 7, TP. HỒ CHÍ MINH
(MULTI ESTABLISHED GIS DATA SOURCES PROBLEMS AND SOME
EXPERIMENTS ON LOCATING ACQUISITION SPATIAL DATA - STUDY CASE ON
ONE DATA SOURCE OF DISTRICT 7
TH
IN HOCHIMINH CITY)
Khưu Minh Cảnh, Trần Quang Trường Hinh, Lâm Quang Hà, Trịnh Xuân Hoàng
Trung tâm Ứng dụng Hệ thống thông tin Địa lý, TPHCM
Abstract: Data are establish during data collecting processing. So, many sources may be
deviated in locating spatial objects. The causes could be the data getting time, the details of
data collection as well as the process. These differents will affects strongly to spatial locating
in the synthesis and unified process. We could use some experiment design factors to explore
the spatial rules and help matching spatial objects with their seperated information.
Keywords: GIS, geocoding, statistics, locating process.
1. MỞ ĐẦU
Hiện nay, dữ liệu bản đồ và GIS được trực tiếp thành lập từ các đơn vị có thẩm quyền về
Khoa học và Công nghệ; Tài nguyên và Môi trường hoặc các đơn vị trực thuộc. Dữ liệu (có yếu
tố không gian) thường được chuẩn hóa các trường dữ liệu và các thông tin mô tả (metadata).
Việc chuẩn hóa đem lại nhiều lợi ích trong các hệ thống cơ sở dữ liệu (CSDL). Tuy nhiên, trong
nhiều dự án GIS, để xây dữ liệu chuẩn hóa theo CSDL hiện hữu là điều khó vì lực lượng thu
thập dữ liệu chưa hẵn có hoặc trình độ hoặc ý thức hoặc chưa được tập huấn kỹ về vấn đề xây
dựng dữ liệu. Mặt khác, sự thay đổi trên thực tế theo thời gian hoặc phương pháp thu thập cũng
dựa trên khảo sát thực tế tại thời điểm thực hiện dự án. Trong khi đó, bản đồ nền
thường được thành lập trước đó và được tổng hợp cập nhật toàn bộ theo định kì. Do
đó, những khu vực có biến động nhiều sẽ gây ra khó khăn trong việc định vị không
gian dữ liệu chuyên đề dựa trên dữ liệu nền.
¾ Đối tượng thu thập: một số phương pháp thu thập thông qua việc phỏng vấn. Do đó,
cùng một căn hộ, đơn vị phân phối báo chí có thể sẽ thu thập người nhận báo (có thể
là người chồng) khác với đơn vị cung cấp gas gia đình (có thể là người vợ)… Sự
khác nhau về đối tượng sẽ dẫn đến sự khác nhau về dữ liệu và là điều cản trở cho
việ
c định vị không gian khi chúng ta không có thông tin chính xác.
¾ Ảnh hưởng bởi các qui trình khác: thực tế, dữ liệu có thể không được so khớp do các
qui trình thực tế không cùng lúc được cập nhật trên dữ liệu. Ví dụ: một thửa đất có
thể sở hữu bởi chủ sử dụng khác. Tuy nhiên, trong dữ liệu không ghi nhận thực tế
này do các quá trình thực hiện. Trong trường hợp trên có thể do những người chủ
giao dịch nhà đất thông qua các cam kết ch
ưa tuân theo qui trình mua bán hoặc
chuyển nhượng của cơ quan chức năng nhà nước.
¾ Vấn đề không gian 2 và 3 chiều: Hiện tại, các dữ liệu địa chính được xây dựng trên
2D. Do đó, việc tìm kiếm và định vị những dữ liệu thực tế như hộ trên tầng 2, 3, là
không thể. Do đó, việc quản lý sẽ gặp những bất cập nhất định trong các bước về
hiển thị hoặc những vấn đề liên quan đến, như: chữa cháy, cứu hộ…
¾ Chuẩn hóa về mô tả không gian: dữ liệu thành lập chung thường ít thông tin chi tiết
hơn dữ liệu của một đơn vị riêng. Thông thường các dữ liệu chuyên đề do người
HỘI THẢO ỨNG DỤNG GIS TOÀN QUỐC 2011
328
ngoài ngành tạo dựng, do đó, một số thông tin liên quan đến địa vật hay địa danh
thường gọi được đưa vào. Trong khi đó, dữ liệu trong hệ thống thường được chuẩn
hóa nên không bổ sung các địa danh riêng (các tên thường gọi).
chuyên đề thu gom rác sẽ mô tả tuần tự thứ tự nhà thu gom theo trật tự đầu hẻm đến cuối
hẻm, hoặc đầu đường đến cuối đường. Thứ tự sẽ là yếu tố giúp giải đoán tốt nhất địa chỉ kế
tiếp trong trường hợp chúng ta có cơ sở về các thông tin tìm thấy. Tuy nhiên, nhược điểm của
phương pháp này là các hệ thống như thu gom rác hiện tại đang có hiện tượng “da beo” đã
nêu trong mục 2.1).
b) Nhân tố về thông tin không gian và phi không gian của các nhà lân cận: dữ liệu có
thể được “giải đoán” nếu lân cận ít thay đổi. Điển hình là trong một dãy nhà, một hoặc vài căn
nhà được lấy làm “chuẩn” là điều hoàn toàn có thể. Những căn nhà đó sẽ tìm được một khi
các vector mô tả dữ liệu trùng nhau ở các nguồn dữ liệu khác nhau. Trong bài toán về định vị
nhà ở, ta có vector định vị tối thiểu bao gồm các thông số: (số nhà, tên đường, phường, quận);
và dễ thấy rằng dữ liệu về “tên chủ sở hữu” chỉ là tham số mang tính chất tham khảo vì tham
số này thay đổi thường xuyên hơn các tham số còn lại.
2.3. Phân tích và tìm kiếm những nhân tố hỗ trợ mang tính thống kê
Từ những phân tích bên trên, giả sử chúng ta cần xây dựng dữ liệu chuyên đề từ hai
nguồn dữ liệu được thu thập từ thực tế: dữ liệu nền và dữ liệu chuyên đề. Khi đó, việc định vị
dữ liệu chuyên đề từ hai nguồn dữ liệu sẽ thực hiện theo qui trình như sau:
- Bước 1: Định vị vị trí dữ liệu từ dữ liệu nền. Ví dụ: tìm địa chỉ nhà theo số nhà,
đường, phường.
- Bước 2: Thiết lập dữ liệu chuyên đề từ kết quả tìm kiếm trên.
Khi đó, với mỗi bước trên, các trường hợp sau đây sẽ xảy ra:
i. Định vị dữ liệu nền/chuyên đề tốt.
ii. Định vị dữ liệu nền/chuyên đề theo lân cận gần.
iii. Định vị dữ liệu nền/chuyên đề theo các lân cận xa.
iv. Không thể định vị hoặc tìm kiếm dữ liệu nền/chuyên đề.
Vì việc thực hiện tuần tự bước 1 Æ bước 2, và mặt khác, nếu giả
định việc thay đổi trên
thực tế dữ liệu nền (như thay đổi quyền sở hữu, xây nhà mới, tách thửa, hợp thửa,…) là những
thay đổi ngẫu nhiêu, thì chúng ta có mô tả xác xuất như sau:
Bảng 1: Mô tả trạng thái định vị đối tượng chuyên đề theo dữ liệu nền
Bước 1 \ Bước 2 Æ Dữ liệu chuyên đề
i
+s
i
= 1. Trong bảng trên, dễ dàng
ta có nếu việc định vị dữ liệu nền tốt thì xác suất định vị dữ liệu chuyên đề là 1 (ô [i,i] trong
bảng) và ngược lại, nếu chúng ta không thể định vị dữ liệu nền thì chúng ta sẽ không thể định
vị dữ liệu chuyên đề (trường hợp ô [iv,iv]). Với hai trường hợp [ii] và [iii], các xác suất p, q, r,
s thể hiện khả năng định vị dữ liệu theo các đối tượng ở xa hoặc gần so với vị trí của dữ liệu
chuyên đề. Do đó, chúng ta xác định các giá trị xác suất theo không gian: lân cận gần và lân
cận xa. Hai khái niệm trên được xây dựng dựa theo phương pháp thiết lập bản đồ nền. Ví dụ
trong bài toán định vị thông qua số nhà. Chúng ta có thể định nghĩa lân cận gần là việc xác
định nhà thông qua một số số lượng nhà lân cận xác định trong dãy nhà có số tăng hoặc giảm
liên tục; trong khi đó, xác định lân cận xa được định nghĩa là việc xác định nhà thông qua các
nhà đầu hẻm, các nhà tham chiếu hoặc thông qua các địa vật tham chiếu khác, như: nhà trong
một khu dân cư, nhà có bể nước có khả năng phục vụ việc phòng cháy chữa cháy… Việc xác
định lân cận gần hoặc xa hoàn toàn mang tính chất mờ trong đánh giá. Tuy nhiên, với các
nhân tố đề cập ở các mục trước, chúng ta thấy rằng các xác suất p, q, r, s sẽ bị tác động mạnh
m
ẽ trên chất lượng dữ liệu nền và các nhân tố hỗ trợ định vị (như tính liên tục và các dữ liệu
lân cận hỗ trợ định vị). Dễ dàng ta thấy rằng, p
i
>> q
i
>> r
i
>> s
i
nếu và chỉ nếu dữ liệu định vị
được ở một phạm vi không gian hẹp và ngược lại.
Các giá trị xác suất trên sẽ giúp người quản lý ước lượng được phương án triển khai
Minh. Điển hình: Quận 7 có trên 40000 hộ, nếu bình quân định vị bằng cách tìm kiếm nhà sẽ
mất ít nhất 01 phút/hộ thì chúng ta cần trên 40.000 phút, nghĩa là trên 666 giờ, hoặc trên 83
ngày làm việc. Điều đó có nghĩa là, chúng ta cần tối thiểu 04 tháng làm việc hoặc tối thiểu 04
người sẽ thực hiện trong 01 tháng cho dữ liệu của một chuyên đề của một Quận. Chúng ta sẽ
phân tích hướng cài đặt đối với từng nhân tố được mô tả trong mục 2.2:
- Với nhân tố a), chúng ta có thể quy định những khu vực gọi là liên tục đối với một số
ứng dụng nhất định. Ví dụ: trong ứng dụng thu gom rác, chúng ta có thể cần đến mô tả về
đường đi của người thu gom trong một tuyến. Và tuyến trong hẻm sẽ khác với tuyến ngoài mặt
phố. Trên thực tế, thông thường các vùng liên tục ngoài đường lớn sẽ có biên là tim đường giao
thông, nhưng các vùng hẻm ít khi sử dụng tim hẻm làm biên. Về điểm này, chúng ta có thể giải
quyết bằng phương pháp sử dụng GPS để theo dõi (tracking) đường đi tiêu biểu của xe lấy rác.
Và trong trường hợp cần thiết hơn, chúng ta có thể thêm một GPS tracking vị trí lấy rác (trong
trường hợp đường hẹp hoặc người lấy rác dừng xe để đi bộ vào khu dân cư lấy). Hình 5: Lỗi số nhà chưa quán (giữa số cũ và số mới)
trên một đoạn đường Huỳnh Tấn Phát gây khó khăn việc định vị
- Với nhân tố b), chúng ta dễ dàng thấy rằng nhân tố b) được hỗ trợ từ nhân tố a). Với
dữ liệu được xem như liên tục, chúng ta có để định vị chuẩn một số vị trí không gian và các vị
trí khác sẽ được kết hợp để suy luận. Cụ thể hơn, khi tìm thông tin các nhà lân cận, chúng ta
HỘI THẢO ỨNG DỤNG GIS TOÀN QUỐC 2011
332
phải tìm các đối tượng bằng phương pháp buffer và có loại trừ theo các ngữ nghĩa không gian
như: nhà đang xét trong hẻm thì chỉ cần tìm các nhà trong hẻm mà không cần sử dụng thông
tin về nhà phía mặt tiền và ngược lại.
- Trong chương trình tự động định vị, những số nhà không định vị được (do không tìm
thấy) sẽ được định vị lần nữa dựa trên những nhà định vị được. Ví dụ: nhà 257 Lê Văn Lương
không tìm thấy. Tuy nhiên, ta có thể nội suy được nếu chúng ta xác định được nhà số 255 và
thực là điều chính yếu. Do đó, chúng ta phải tìm kiếm những nhân tố tuân theo chất lượng dữ
liệu và các qui trình phục vụ thu thập dữ liệu chuyên đề cụ thể. Ngoài ra, từ những kết quả
nghiên cứu trên, một số kết luận được rút ra như sau:
- Cải tiến các tiến trình xây dựng một hệ thống GIS theo hướng phát triển các liên hệ với
nhau, đặc biệt là việc xây dựng và cập nhật dữ liệu trên từng chuyên đề và từng thời điểm.
- Đẩy mạnh việc đồng bộ dữ liệu là vấn đề cần thiết trong các hệ thống. Thời gian đồng bộ
nhanh chóng giữa các cấp phường (xã) ÅÆ quận (huyện) ÅÆ thành phố (tỉnh) cần thực
hiện nhanh chóng để dữ liệu không bị lạc hậu.
- Xây dựng qui trình nhập liệu chuyên đề dựa trên các bản đồ nền. Việc xây dựng Qua đó,
chúng ta sẽ có những phản hồi với cơ quan quản lý về những sự thay đổi trong thực tế mà
dữ liệu nền chưa cập nhật kịp thời. Trong qui trình đó, chúng ta xây dựng khung chuẩn
đào tạo GIS đối với các lực lượng tham gia xây dựng hệ thống GIS để giảm sự sai lệch
giữa các dữ liệu.
- Tạm thời ứng dụng các phương pháp định vị theo xác suất, tận dụng các phương pháp
toán học như thiết kế thực nghiệm để giảm các chi phí thực địa trong việc xây dựng các hệ
thống GIS, đặc biệt các hệ thống chuyên đề.
- Xây dựng các hệ thống 3D (không phải 2.5D) để quản lý các ứng dụng. Trên thực tế,
chúng ta cần đến các hệ thống 3D thực sự để giải quyết những căn hộ chung cư với hàng
nghìn căn hộ trên một thửa lớn.
Hình 7: Các mô tả chi tiết về dữ liệu 3D theo chuẩn CityGML. Quản lý các đối tượng
3D là hướng đến của các ứng dụng quản lý đô thị trong tương lai (a) LOD1 building
(c) LOD3 building
(d) LOD4 building
(b) LOD2 building
Geology & Physics Lock Haven University.