ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ THANH HƢƠNG
ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG TƢ VẤN HỌC TẬP
TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ THANH HƢƠNG
ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG TƢ VẤN HỌC TẬP
TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM
Hà Nội - 2015
Hà Nội, tháng 1 năm 2016
Họ và tên
Nguyễn Thị Thanh Hƣơng
2
MỤC LỤC
LỜI CẢM ƠN ...................................................................................................................... 1
LỜI CAM ĐOAN ................................................................................................................ 2
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ......................................................... 5
DANH MỤC CÁC BẢNG .................................................................................................. 6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ............................................................................. 6
Chƣơng 1. Giới thiệu tổng quan ........................................................................................ 8
1.1.Bài toán ứng dụng KPDL để xây dựng hệ thống tƣ vấn tại trƣờng ĐHCNHN ......... 8
1.2. Một số hƣớng nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục hiện nay
Error! Bookmark not defined.
1.3. Hƣớng tiếp cận của luận văn ................................... Error! Bookmark not defined.
1.4. Kết luận chƣơng 1 ................................................... Error! Bookmark not defined.
Chƣơng 2. Các kiến thức cơ sở liên quan ....................... Error! Bookmark not defined.
2.1. Khai phá dữ liệu ...................................................... Error! Bookmark not defined.
2.1.1. Khái niệm KPDL .............................................. Error! Bookmark not defined.
2.1.2. Những nhóm bài toán của KPDL ..................... Error! Bookmark not defined.
2.1.3. Các bƣớc xây dựng một giải pháp về KPDL .... Error! Bookmark not defined.
2.1.4. Ứng dụng KPDL trong giáo dục ....................... Error! Bookmark not defined.
2.2. Một số kỹ thuật KPDL trong phân lớp, dự báo....... Error! Bookmark not defined.
2.2.1 Cây quyết định ................................................... Error! Bookmark not defined.
2.2.2 Phân lớp Naïve Bayes ........................................ Error! Bookmark not defined.
2.2.3 Mạng nơ ron nhân tạo ........................................ Error! Bookmark not defined.
KẾT LUẬN ....................................................................... Error! Bookmark not defined.
HƢỚNG PHÁT TRIỂN .................................................... Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO ................................................................................................... 9
4
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Ý nghĩa
Chữ viết tắt
BIDS
Bussiness Intelligence Development Studio
CSDL
Cơ sở dữ liệu
DMX
Data Mining Extensions
DMM
Data Mining Model
KPDL
Hình 3. 4: Tạo 04 Mining Models cho một Mining Structure ......... Error! Bookmark not
defined.
Hình 3. 5: Kết quả tạo viewer cho mô hình Cây quyết định ............ Error! Bookmark not
defined.
Hình 3. 6: Kết quả tạo viewer cho mô hình Luật kết hợp . Error! Bookmark not defined.
Hình 3. 7: Kết quả tạo viewer cho mô hình Naïve Bayes . Error! Bookmark not defined.
Hình 3. 8: Kết quả tạo viewer cho mô hình mạng nơ ron nhân tạo . Error! Bookmark not
defined.
Hình 3. 9: Biểu đồ Lift Chart cho 04 mô hình .................. Error! Bookmark not defined.
Hình 3. 10: Kết quả của ma trận Classification Matrix của 04 mô hình Error! Bookmark
not defined.
Hình 3. 11: Thiết kế một truy vấn DMX với mô hình đƣợc chọn.... Error! Bookmark not
defined.
Hình 3. 12: Kết quả truy vấn với mô hình đƣợc chọn ....... Error! Bookmark not defined.
Hình 3. 13: Sự phụ thuộc của thuộc tính dự đoán vào các thuộc tính khác ............... Error!
Bookmark not defined.
Hình 3. 14: Lựa chọn Lift Chart với Predict Value=”K” .. Error! Bookmark not defined.
Hình 3. 15: Kết quả Lift Chart không xác định giá trị thuộc tính dự đoán ................ Error!
Bookmark not defined.
Hình 3. 16: Classification Matrix của 04 mô hình ............ Error! Bookmark not defined.
6
Hình 3. 17: Biểu đồ so sánh mức độ chính xác các mô hình ........... Error! Bookmark not
defined.
Hình 4. 1: Sơ đồ hoạt động của hệ thống .......................... Error! Bookmark not defined.
Hình 4. 2: Kết quả tƣ vấn học tập với mô hình Naïve Bayes ........... Error! Bookmark not
defined.
Hình 4. 3: Kết quả tƣ vấn học tập với mô hình Cây quyết định ....... Error! Bookmark not
7
Nghiên cứu các cơ sở lý thuyết KPDL, các vấn đề liên quan đến KPDL trong lĩnh
vực giáo dục. Tìm hiểu các kỹ thuật khai phá dữ liệu sử dụng trong bài toán phân lớp, dự
báo (cây quyết định, phân lớp Naïve Bayes, mạng nơ ron nhân tạo, luật kết hợp) và kỹ
thuật KPDL trên hệ quản trị CSDL MS SQL Server.
Chƣơng 3. Phƣơng pháp giải quyết bài toán
Mô tả ứng dụng, xây dựng bài toán liệt kê lộ trình học cho từng ngành học để tƣ
vấn cho sinh viên chọn lộ trình phù hợp với ngành mình đang theo học. Thu thập và xử lý
các dữ liệu liên quan để phát triển hệ thống. Xây dựng 4 mô hình: Cây quyết định, Naïve
Bayes, Neural Networks, Luật kết hợp và đƣa ra đánh giá các mô hình tƣơng ứng.
Chƣơng 4: Xây dựng hệ thống tƣ vấn học tập tại trƣờng ĐHCNHN
Dựa trên những đánh giá về mô hình, lựa chọn mô hình cho kết quả tốt nhất. Xây
dựng chƣơng trình thực nghiệm để tƣ vấn cho sinh viên.
Chƣơng 1.Giới thiệu tổng quan
1.1. Bài toán ứng dụng KPDL để xây dựng hệ thống tƣ vấn tại trƣờng ĐHCNHN
Trƣờng Đại học Công nghiệp Hà Nội cung cấp dịch vụ giáo dục - đào tạo nhiều
ngành, nhiều trình độ, chất lƣợng cao, đáp ứng nguồn nhân lực cho công nghiệp hóa, hiện
đại hóa đất nƣớc và xuất khẩu lao động, tạo cơ hội học tập thuận lợi cho mọi đối tƣợng.
Về ngành, nghề đào tạo: Trong những năm qua nhà trƣờng đã xây dựng đƣợc chƣơng
trình và triển khai đào tạo 21 chuyên ngành đại học chính quy, 18 chuyên ngành đào tạo
cao đẳng chính quy, 14 chuyên ngành Trung cấp chuyên nghiệp và nhiều chƣơng trình
đào tạo trình độ khác nhau.
Về qui mô đào tạo: Trên 50.000 học sinh, sinh viên.
Các lĩnh vực đào tạo: Công nghệ, kỹ thuật, Kinh tế, May, Thời trang, Sƣ phạm, Du lịch
Các loại hình đào tạo: Chính qui, Vừa làm vừa học, Liên thông, Liên kết nƣớc ngoài,
Nâng bậc thợ, Đào tạo lao động xuất khẩu, Bồi dƣỡng ngắn hạn và dài hạn theo nhu cầu
xã hội quan tâm.
Công nghệ, Đại học Quốc gia Hà Nội.
[3] Đỗ Phúc, Giáo trình khai thác dữ liệu, NXB Đại học Quốc gia TP HCM, 2005.
[4] Nguyễn Thái Nghe, Paul Janecek, Peter Haddawy, Một phân tích giữa các kỹ thuật
trong dự đoán kết quả học tập, Khoa Công nghệ thông tin và Truyền thông, Đại học
Cần Thơ.
Tiếng Anh
[5] JamieMacLennan, ZhaoHui Tang, Bogdan Crivat. Data Mining with Microsoft SQL
Server 2008. Published by Wiley Publishing, Inc., Indianapolis, Indiana. 2008.
[6] Jiawei Han and Micheline Kamber. Data Mining Concepts and Techniques, Second
Edition. Published by Elsevier Inc. 2006.
9
[7] Brian Knight, Devin Knight, Adam Jorgensen, Patrick LeBlanc, Mike Davis. Knight's
Microsoft Business Intelligence 24-Hour Trainer. Published by Wiley Publishing, Inc.
2010.
[8] Tang, Z. H., MacLennan, J.: “Data Mining with SQL Server 2005”, Indianapolis:
Wiley, 2005.
[9] Usama M.Fayyad, Gregory Piatesky-Shaporo, Padhraic Smyth and Ramasamy
Uthurusamy (1996), Advances in Knowledge Discovery and Data Mining, AAAI
Press.
10