ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
NGUYỄN HÙNG CƯỜNG
ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU
TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG
GIAO THÔNG THEO LOẠI HÌNH PHƯƠNG TIỆN
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên – 5/2016
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
NGUYỄN HÙNG CƯỜNG
ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU
TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG
GIAO THÔNG THEO LOẠI HÌNH PHƯƠNG TIỆN
Chuyên ngành
: Khoa học máy tính
Mã số
: 60 48 01 01
1.1.1. Khái niệm về khai phá dữ liệu .......................................................... 1
1.1.2. Một số kỹ thuật khai phá dữ liệu ....................................................... 3
1.1.3. Một số phương pháp khai phá dữ liệu ............................................... 3
1.1.4. Một số công cụ hỗ trợ khai khá dữ liệu ............................................. 5
1.2. Ứng dụng khai phá dữ liệu trong dự báo giao thông ................................ 5
1.2.1. Khái niệm dự báo ............................................................................. 5
1.2.2. Ứng dụng khai phá dữ liệu trong dự báo giao thông ......................... 7
1.2.3. Mô hình dự báo giao thông phục vụ quy hoạch ................................ 7
1.2.4. Mô hình dự báo giao thông 4 bước: .................................................. 8
CHƯƠNG 2 XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG GIAO
THÔNG THEO LOẠI HÌNH PHƯƠNG TIỆN ĐỐI VỚI HÀ
NỘI............................................................................................ 16
2.1. Xây dựng mô hình dự báo ..................................................................... 16
2.1.1. Dữ liệu xây dựng mô hình .............................................................. 16
2.1.2. Lý thuyết về mô hình hồi quy tuyến tính ........................................ 16
2.2. Thông tin dữ liệu cần thu thập xây dựng mô hình .................................. 17
2.2.1. Thông tin số liệu thống kê .............................................................. 17
2.2.2. Thông tin dữ liệu từ điều tra hộ gia đình ......................................... 19
2.3. Trích chọn thông tin và xây dựng mô hình dự báo................................. 23
2.3.1. Xây dựng mô hình phát sinh, thu hút chuyến đi .............................. 23
2.3.1.1. Xây dựng mô hình phát sinh chuyến đi ........................................ 25
2.3.1.2. Xây dựng mô hình thu hút chuyến đi ........................................... 28
2.3.2. Xây dựng mô hình phân bổ chuyến đi............................................. 30
2.3.3. Xây dựng mô hình phân chia phương tiện ...................................... 34
ii
CHƯƠNG 3 KIỂM ĐỊNH TRÊN SỐ LIỆU HIỆN TRẠNG VÀ DỰ BÁO .. 40
3.1. Kiểm định trên số liệu hiện trạng ........................................................... 40
I
Item
J
KPDL
Moto
PCU
VOC
VOT
Tiếng Anh
Attraction
Bicycle
Bus
Database
Car
Generate
Origin (i)
Item
Destination (j)
Knowledge Discoversy
and Data Mining
Motobike
Passenger Car Unit
Value Of Cost
Value Of Time
Tiếng Việt
Thu hút chuyến đi
Xe đạp
Xe bus công cộng
v
DANH MỤC CÁC HÌNH VẼ
Hình 1. 1: Tiến trình phát hiện tri thức..................................................................... 1
Hình 1. 2: Phát sinh và thu hút chuyến đi................................................................. 9
Hình 1. 3: Phân bổ chuyến đi ................................................................................... 9
Hình 1. 4: Phân chia phương tiện ........................................................................... 10
Hình 1. 5: Mô phỏng chi phí tăng lên khi khối lượng được phân bổ....................... 11
Hình 1. 6: Vận tốc giảm dần khi khối lượng tăng dần ............................................ 11
Hình 1. 7: Mô hình dự báo 4 bước ......................................................................... 12
Hình 2. 1. Mô hình hồi quy tuyến tính ................................................................... 17
Hình 2. 2: Đánh giá độ tương quan của các chỉ tiêu đầu vào .................................. 24
Hình 2. 3: Thông số đánh kết quả phân tích mô hình phát sinh .............................. 26
Hình 2. 4: Thông số đánh giá kết quả phân tích mô hình phát sinh khi thêm HSDC..... 27
Hình 2. 5: So sánh mối tương quan của mô hình phát sinh trước và sau khi
thêm HSDC ........................................................................................ 27
Hình 2. 6: Thông số đánh giá kết quả phân tích mô hình thu hút............................ 28
Hình 2. 7: Thông số đánh giá kết quả phân tích mô hình thu hút khi thêm HSDC........ 29
Hình 2. 8: So sánh mối tương quan của mô hình thu hút trước và sau khi thêm
HSDC ................................................................................................ 30
Hình 2. 9: Mối tương quan số chuyến đi và cự ly vận chuyển ................................ 31
Hình 2. 10: Thông số đánh giá, phân tích mô hình phân bổ chuyến đi ................... 32
Hình 2. 11: Thông số đánh giá, phân tích mô hình phân bổ chuyến đi khi có
biến giả .............................................................................................. 33
Hình 2. 12: Số liệu thực tế với số liệu lý thuyết khi có và không có biến giả.......... 34
Hình 2. 13: Thông số đánh giá kết quả về độ thỏa dụng đối với xe đạp.................. 36
Hình 2. 14: Thông số đánh giá kết quả về độ thỏa dụng đối với xe máy................. 37
Hình 2. 15: Thông số đánh giá kết quả về độ thỏa dụng đối với xe con .................. 37
vii
Với ý nghĩa và tầm quan trọng đó, em lựa chọn đề tài “ Ứng dụng một
số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao
thông theo loại hình phương tiện” với mục đích tìm hiểu và ứng dụng được
một số kỹ thuật khai phá dữ liệu vào bài toán trên từ nguồn số liệu điều tra hộ
gia đình được thực hiện năm 2014 tại thành phố Hà Nội, Việt Nam.
Luận văn gồm 3 chương với các nội dung cơ bản sau
Chương 1: Trình bầy khái quát về dự báo và ứng dụng khai phá dữ liệu
trong xây dựng mô hình dự báo giao thông.
Chương 2: Trình bầy các kỹ thuật khai phá dữ liệu trong xây dựng mô
hình dự báo lưu lượng giao thông từ bước 1 đến bước 3 trong bài toán dự báo
4 bước để xác định loại hình phương tiện đối với thủ đô Hà Nội.
Chương 3: Thử nghiệm trên bộ dữ liệu thực nghiệm năm 2014 và đưa
ra kết quả dự báo cho năm 2020.
Qua luận văn này, em xin chân thành cảm ơn TS. Nguyễn Việt Anh –
Viện Công nghệ thông tin đã tận tình giúp đỡ, hướng dẫn em nghiên cứu và
hoàn thành luận văn này. Em cũng xin cảm ơn các thầy cô đã giảng dạy em
trong hai năm học vừa qua. Xin cảm ơn các đồng nghiệp đã giúp đỡ cung cấp
dữ liệu, tài liệu trong quá trình nghiên cứu luận văn.
Mặc dù đã hết sức cố gắng, song do thời gian và kinh nghiệm nghiên
cứu còn hạn chế nên không thể tránh khỏi những thiếu sót, em mong nhận
được sự góp ý của các thầy cô và bạn bè đồng nghiệp để nghiên cứu được
hoàn thiện hơn.
1
với mục đích ứng dụng và bản chất của dữ liệu.
Bước 3: Là thu thập và xử lý thô, (tiền xử lý dữ liệu) nhằm loại bỏ
nhiễu, xử lý việc dữ liệu bị thiếu, bị thừa hoặc không có thông tin.
Bước 4: Là quá trình lựa chọn các thuộc tính cần thiết phù hợp cho
việc phân tích lấy từ CSDL để sử dụng xây dựng mô hình, thuật toán. Sau đó
dữ liệu được chuyển đổi hoặc hợp nhất thành một thể thích hợp phù hợp cho
việc khai phá. Bước này thường chiếm nhiều thời gian nhất.
Bước 5: Đây là bước quan trọng nhất nhằm rút ra các tri thức. Quá
trình này thực hiện bằng các thuật toán để xây dựng mô hình đủ độ tin cậy
theo yêu cầu, mục đích đã đặt ra.
Bước 6: Bước này nhằm đánh giá lại kết quả tìm kiếm tri thức dựa
trên một số tiêu chí, chỉ tiêu đánh giá.
Bước 7: Hiểu tri thức đã tìm được, làm sáng tỏ các mô tả và dự đoán.
Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được
lấy trung bình trên tất cả các lần thực hiện.
Như vậy khai phá dữ liệu là một bước quan trọng nhất trong qui trình
phát hiện tri thức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới
một số qui định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc
các mô hình trong dữ liệu. Nói một cách khác, mục đích của phát hiện tri thức
và khai phá dữ liệu chính là tìm ra các mẫu và/hoặc các mô hình đang tồn tại
trong các cơ sở dữ liệu.
3
Để khai khá dữ liệu người ta cần sử dụng đến kỹ thuật, phương pháp
và công cụ trong khai phá dữ liệu.
1.1.2. Một số kỹ thuật khai phá dữ liệu
Theo nguyên lý chúng, khi sử dụng phương thức KPDL để giải quyết
một vấn đề cụ thể, cần phải hình dung ra loại vấn đề là gì. Có thể tổng kết
mô hình phân loại sẽ có một số thành phần cần được tính đến như: Khả năng dự
đoán, tốc độ, độ mạnh mẽ, độ mềm dẻo, tính diễn giải, độ đơn giản.
+ Phương pháp phân cụm (Clustering):
Là việc mô tả chung để chia một tập dữ liệu thành các cụm (nhóm),
loại mô tả dữ liệu. Các nhóm có thể tách nhau hoặc phân cấp hay gối lên
nhau. Có nghĩa là dữ liệu có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác
nhưng phải đảm bảo các đối tượng thuộc 1 cụm là tương tự nhau, đối tượng ở
cụm này sẽ ít tương tự với đối tượng ở cụm khác.
+ Phương pháp hồi quy (Regression) :
Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự
đoán có giá trị thực. Phân tích hồi quy sẽ xác định được định lượng quan hệ
giữa các biến và biến phụ thuộc vào giá trị của những biến khác.
Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác nhau chính
là ở chỗ thuộc tính để dự báo là liên tục còn phân lớp dữ liệu là dự đoán các
giá trị rời rạc.
+ Phương pháp phân tích luật kết hợp(Association Rule)
Là tiến trình xác định những luật phụ thuộc giữa những nhóm khác
nhau, là việc phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong
cơ sở dữ liệu. Là công việc khám phá các luật kết hợp từ những mẫu thường
xuyên hoặc dựa trên ràng buộc.
Mục đích của luật kết hợp là tìm ra sự kết hợp hay tương quan giữa
các items. Những luật kết hợp này có dạng XY.
+ Phương pháp mẫu tuần tự (Sequential Pattern mining)
5
Là việc xác định những mẫu mà sự xuất hiện của chúng trong CSDL
thỏa mãn ngưỡng tối thiểu. Luật tuần tự được sinh ra từ mẫu tuần tự, biểu
diễn mối quan hệ giữa hai loại sự kiện này sẽ xảy ra sau loạt sự kiện kia.
Xác định mục tiêu dự báo; Xác định loại dự báo; Lựa chọn mô hình
dự báo; Thu thập số liệu, tiến hành dự báo; Ứng dụng kết quả dự báo; Theo
dõi kết quả dự báo.
Để tiến hành dự báo nói chung, hiện nay trên thế giới và tại Việt Nam
người ta chia thành 2 nhóm dự báo là dự báo định tính và dự báo định lượng
+ Dự báo định tính: Dự báo thuộc nhóm này là những dự đoán chủ
quan hoặc trực giác về tương lai bằng cách dựa vào suy đoán, cảm nhận.
+ Dự báo định lượng: Dựa vào các số liệu thống kê và thông qua các
công thức toán học được thiết lập để dự báo nhu cầu cho tương lai. Khi dự
báo nhu cầu tương lai, nếu không xét đến các nhân tố ảnh hưởng khác có thể
dùng các phương pháp dự báo theo dãy số thời gian. Nếu cần ảnh hưởng của
các nhân tố khác đến nhu cầu có thể dùng các mô hình hồi quy tương quan.
Tuy nhiên trong thực tế trong một số trường hợp cụ thể người ta sẽ sử
dụng kết hợp cả hai phương pháp nói trên bằng phương pháp tổng hợp.
Bảng 1. 1: Một số phương pháp dự báo
Phương pháp dự báo định tính
Phương pháp dự báo định lượng
Tiên đoán (Genius forcasting)
Hệ số đàn hồi
Chuyên gia (Consensus methods)
Nội suy xu hướng (Trens interpolation)
Kịch bản (Scenario)
Ngoại suy xu hướng (Trens extrapolation)
bước để phục vụ cho mục tiêu quy hoạch.
1.2.3. Mô hình dự báo giao thông phục vụ quy hoạch
Quy hoạch mạng lưới giao thông là quy hoạch mạng giao thông đường
bộ trên phạm vi một vùng lãnh thổ địa lý của một quốc gia, một thành phố
hoặc một vùng, đối với mạng lưới giao thông nhằm mục tiêu chuẩn bị các
8
phương tiện và cung cấp dịch vụ cho nhu cầu giao thông để đảm bảo nhu cầu
đi lại được nhanh chóng, tiện lợi và an toàn.
Trong khuôn khổ nghiên cứu của luận văn em đi vào nghiên cứu xây
dựng mô hình dự báo giao thông phục vụ cho mục tiêu Quy hoạch mạng lưới
đường bộ trong thành phố Hà Nội.
1.2.4. Mô hình dự báo giao thông 4 bước:
Mô hình dự báo giao thông 4 bước đã được nghiên cứu và thử nghiệm
ở các nước Châu âu từ đầu những năm 1990, đến nay mô hình đã và đang
được nhiều nước tiên tiến trải qua nhiều thử nghiệm và ứng dụng thành công
với phương pháp xây dựng hoàn chỉnh gọi là mô hình 4 bước trong đó mỗi
bước được thực hiện dự báo bằng một mô hình riêng, đầu ra của bước dự báo
trước sẽ là đầu vào của bước dự báo tiếp theo.
Cơ sở của việc áp dụng mô hình là sự lựa chọn rời rạc các yếu tố về
hành vi thực hiện chuyến đi của các cá nhân trên cơ sở điều tra mẫu trong
vùng nghiên cứu với các thông tin về chuyến đi trong ngày như phương tiện
sử dụng, mục đích, thời gian, chi phí chuyến đi sẽ được kết hợp cùng các yếu
tố tự nhiên và xã hội như dân số, số lao động, số học sinh, sinh viên...
Dưới đây em xin trình bầy các công thức để xây dựng mô hình dự báo
4 bước trong giao thông vận tải đang áp dụng trong các nghiên cứu, tính toán
để dự báo lưu lượng giao thông.
Bước 1: Mô hình phát sinh, thu thút chuyến đi
Mô hình này nhằm xác định và trả lời cho câu hỏi có bao nhiêu chuyến
đi xuất phát từ vùng i để đi đến vùng j.
Tij
Trong đó:
Gi A j
(CT3)
D ij
Tij là tổng số chuyến đi từ i đến j
Dij là trở kháng từ trung tâm vùng i đến trung tâm vùng j
(Trở kháng có thể là thời gian hoặc khoảng cách từ vùng i đến vùng j)
Hình 1. 3: Phân bổ chuyến đi
10
Bước 3: Mô hình phân chia phương tiện sử dụng
Mô hình này nhằm trả lời câu hỏi với tổng số chuyến đi từ vùng i đến
vùng j người ta sử dụng phương tiện nào: Xe đạp, xe máy, xe con, xe bus.
Pk
Trong đó:
Pk
trong thực tế (xác định bởi 2 nút giao). Năng lực của một cung được tính toán
trên cơ sở các thông số đầu vào của mạng lưới đường bộ trong thực tế như:
chiều rộng, chiều dài, vận tốc theo đơn vị quy đổi gọi là PCU (Passenger Car - Unit)
Hình 1. 5: Mô phỏng chi phí tăng lên khi khối lượng được phân bổ
Nguyên tắc xác định chi phí của một cung phụ thuộc vào năng lực của
mỗi cung đã được sử dụng bao nhiêu, khi giá trị một cung (khối lượng) càng
tiến đến gần năng lực thì vận tốc giảm đi, dẫn đến chi phí tăng lên. Mối quan
hệ này được gọi là đường cong QV (Quantity- Velocity)
Hình 1. 6: Vận tốc giảm dần khi khối lượng tăng dần
Ví dụ trong hình 1.5 (bên trái), sau khi đã có khối lượng phân bổ chuyến
đi từ vùng số 1 đến vùng số 2 thì chi phí trên cung (1,2) tăng lên, khi phân bổ
khối lượng từ vùng số 1 đến vùng số 3 sẽ không lựa chọn cung (1,2) để đi mà
lựa chọn cung (1,5) và (5,3) với chi phí thấp hơn. Cứ như vậy, quá trình phân
12
bổ sẽ lựa chọn những cung có chi phí thấp nhất để phân bổ khối lượng từ
vùng 1 đến vùng 10. Hình 1.5 (bên trái) mô phỏng chi phí trong lần phân bổ
của vùng 1 cho tất cả các vùng khác, và bên phải mô phỏng chi phí trong lần
phân bổ của vùng số 2 đến các vùng khác.
Trong khuôn khổ nghiên cứu của luận văn này em sử dụng số liệu từ ma
trận đi lại của Hà nội năm 2014, ma trận này đã được nhân mẫu từ số liệu
điều tra của 18.000 hộ gia đình cũng như các bước xử lý khác
Kết quả nghiên cứu của luận văn đi sâu vào việc ứng dụng một số kỹ
thuật khai phá dữ liệu trong quá trình xây dựng mô hình dự báo giao thông từ
Citilabs của Hoa Kỳ nghiên cứu, phát triển và đang được sử dụng phổ biến tại
các nước Châu Âu, Châu Mỹ, Châu Úc, Châu Á, trong đó có Việt Nam.
+ Visum, Visim là phần mềm mô phỏng, dự báo giao thông vĩ mô và
vi mô do công ty PTV của CHLB Đức nghiên cứu,phát triển và cũng đang
được sử dụng phổ biến tại các nước Châu Âu, Châu Á, trong đó có Việt Nam.
+ Strada là phần mềm mô phỏng, dự báo giông thông do Công ty Jica
của Nhật Bản nghiên cứu, phát triển, hiện được sử dụng nhiều tại các nước
Châu Á, trong đó có Việt Nam.
Đối với Việt Nam, việc triển khai áp dụng theo mô hình dự báo này
đã và đang được các tổ chức, đơn vị tư vấn nước ngoài và trong nước nghiên
cứu áp dụng đối với dự báo giao thông phục vụ mục tiêu quy hoạch giao
thông mang tính chất trên phạm vi lớn của toàn quốc gia hay một vùng hoặc
một tuyến đường cụ thể.
Việc sử dụng phần mềm đã được xây dựng sẵn hiện nay chủ yếu được
các chuyên gia nước ngoài sử dụng và phân tích trong quá trình nghiên cứu
một dự án cụ thể. Tại Việt nam cũng đã có một số chương trình hợp tác đào
tạo, chuyển giao để ứng dụng, tuy nhiên việc khó khăn đối với người sử dụng
là hoàn toàn không chủ động được được trong việc lựa chọn các thông tin khi
xây dựng mô hình, một phần do chưa hiểu được bản chất các thuộc tính và
quy luật của dữ liệu nên khi sử dụng các phần mềm có sẵn thường gặp khó
khăn trong việc xử lý thuộc tính dữ liệu đầu vào để cho ra một kết quả hợp lý
và tốt nhất.
14
Trong quá trình tìm hiểu trước khi làm luận văn với đề tài này, em đã
tham khảo một số bài viết về mô hình tính toán dự báo trong giao thông vận
tải và nhận thấy rằng, đây thực chất là quá trình tìm kiếm và khai phá dữ liệu
để tìm ra những quy luật chung nhất về số lượng chuyến đi và lựa chọn loại
giao thông Châu Âu tổ chức tại Stransbourg, Pháp [11] cũng nghiên cứu và
đưa ra mô hình phân chia phương tiện là bước thứ 3 trong mô hình 4 bước.
Bài giới thiệu về mô hình nhu cầu vận tải của tổ chức Kittenson &
Associate, INC [12]. Bài viết giới thiệu về mô hình nhu cầu vận tải của Viện
nghiên cứu Công nghệ Massachusetts [14] đã giới thiệu về cơ sở dữ liệu từ
điều tra hộ gia đình, được phân tích theo mục đích chuyến đi và hành vi
chuyến đi để sử dụng làm cơ sở tính toán trong mô hình 4 bước.
Ngoài việc tìm hiểu từ những bài nghiên cứu, em đã tìm hiểu những
bài giảng về giao thông vận tải đặc biệt là những mô hình dự báo trong giao
thông vận tải như chương 9 trong giáo trình giới thiệu về giao thông vận tải
trong khóa học trực tuyến của tổ chức NPTEL tại Ấn độ [15]. Phương pháp
mô hình hóa vận tải của trường đại học Imperial, Anh [8].
Bài giảng giới thiệu về mô hình 4 bước với phần chương 3 của Sở
Xây dựng và Kỹ thuật môi trường kết hợp cùng Viện Giao thông Vận tải
nghiên cứu Đại học California [13] đã giới thiệu về khái niệm và các công
thức tính toán của từng bước cùng kết quả tính toán từ bước 1 đến bước 4.
Giáo trình về quy hoạch mạng lưới đường sử dụng trong trường đại
học bách khoa thành phố Hồ Chí Minh [3] của TS. Chu Công Minh đã giới
thiệu tổng quát về các mô hình tính toán dự báo trong giao thông vận tải và
giới thiệu khá sâu vào mô hình tính toán dự báo theo mô hình 4 bước.
Bài báo giới thiệu về quy trình dự báo nhu cầu đi lại phục vụ cho công
tác quy hoạch giao thông được áp dụng rộng rãi ở các nước phát triển [1] của
PGS.TS Bùi Xuân Cậy.