Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012
1
ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG CÔNG CỤ
DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN
THE APPLICATION OF DATA MINING FOR BUILDING TOOL TO FORCAST
THE LEARNING RESULTS OF STUDENTS
SVTH: Nguyễn Thị Thanh Thủy
Lớp 34K14, Khoa Thống kê - Tin học, Trường Đại học Kinh tế, Đại học Đà Nẵng
GVHD: TS. Nguyễn Trần Quốc Vinh
Khoa Thống kê - Tin học, Trường Đại học Kinh tế, Đại học Đà Nẵng
TÓM TẮT
Trên cơ sở dữ liệu thông tin tuyển sinh đầu vào và kết quả học tập đã thu thập được của
sinh viên thuộc hệ đào tạo chính quy của một trường cao đẳng ở Miền Trung, đề tài tiến hành
nghiên cứu các kỹ thuật cho phép phân lớp trong khai phá dữ liệu, ứng dụng các kỹ thuật đó để
xây dựng mô hình dự đoán kết quả học tập của sinh viên. Đề tài tiến hành so sánh kết quả của các
kỹ thuật để lựa chọn kỹ thuật cho kết quả chính xác nhất. Từ đó, xây dựng chương trình dự báo kết
quả học tập cho mỗi sinh viên để tư vấn cho sinh viên chọn lộ trình học phù hợp nhất để đạt được
kết quả học tập cao nhất.
Từ khóa: Sinh viên; các kỹ thuật; kết quả; dự đoán kết quả học tập; dữ liệu
ABSTRACT
Basing on the university entrance examination enrollment and result data of students
studying at a Junior college in central Viet Nam, this studies different techniques for classification
tasks by exploiting the above data and applies these techniques to formulate a model for student’s
academic result prediction. This also compares the effectiveness of each technique to that of the
others to finally select the best one that will be used as the foundation for establishing a program of
student’s academic result prediction so as to advise students the most suitable way of study for the
best academic result.
dữ liệu để xây dựng mô hình và đánh giá kết quả thu được.
Nguồn dữ liệu cho việc khai phá nhằm dự đoán kết quả học tập sẽ được thu thập từ
nhiều nguồn dữ liệu khác nhau. Hồ sơ cá nhân của sinh viên đã nộp vào trường để dự tuyển
được phân công nhập vào các bảng tính excel, bao gồm các thông tin như họ tên, ngày sinh,
nơi sinh, phái, dân tộc, khu vực, điểm ưu tiên Ngoài hồ sơ mà thí sinh nộp vào trường
còn một nguồn dữ liệu quan trọng khác đó là dữ liệu từ kết quả thi tuyển hằng năm như số
báo danh, khối thi, ngành chọn thi, điểm thi các môn, điểm ưu tiên, kết quả (Đậu, Hỏng).
Nguồn dữ liệu quan trọng nữa, đó là thông tin kết quả học tập toàn khoá cũng như các môn
học mỗi sinh viên chọn học ở mỗi học kỳ như: mã sinh viên, ngành học, môn học, kết quả
Dữ liệu cần xử lý được thu thập từ các bộ phận quản lý. Vì vậy, dữ liệu có tính trung
thực cao, hầu hết đều phản ánh đúng ngữ nghĩa. Tuy nhiên, do bộ phận quản lý hay thay
đổi và hệ thống lưu trữ quản lý thông tin sinh viên chưa được nâng cao, nên dữ liệu thu
thập không được liên tục theo thời gian, một số trường dữ liệu bị thiếu do việc cập nhật ban
đầu không đầy đủ hoặc chưa được nhập liệu. Từ đó loại bỏ ra các bản ghi có trường dữ liệu
bị thiếu hoặc bị trùng lặp, các môn học, ngành học đều được quy ước mã. Kết quả, tác giả
thu được gần 70.000 bản ghi về điểm tổng kết học phần và dữ liệu cá nhân, tuyển sinh cho
hơn 2000 sinh viên thuộc hệ đào tạo chính quy bậc cao đẳng tại một trường cao đẳng ở
Miền Trung.
Dữ liệu trong các tệp excel đó được chuyển vào cơ sở dữ liệu trong hệ quản trị
Microsoft SQL Server 2008 R2 bằng chức năng Import. Sau đó, chúng được tổ chức dưới
dạng có thể sử dụng để khai phá bằng cách thiết kế và thực hiện các lệnh truy vấn SQL.
Đối với dữ liệu cần thiết để thực hiện nghiên cứu là lộ trình học, ta không thể liệt kê và gắn
với mỗi sinh viên bằng các truy vấn SQL đơn giản. Đề tài đề xuất xây dựng một công cụ
riêng để thực hiện việc này bằng ngôn ngữ lập trình C#.
2.1. Bài toán liệt kê lộ trình học của từng sinh viên
Lượng dữ liệu bao gồm thông tin cá nhân và tuyển sinh của hơn 2000 sinh viên thu
thập được tổ chức thành một bảng tương ứng với hơn 2000 bản ghi, cùng với thông tin của
12 ngành học và 330 môn học của tất cả các ngành, cũng như gần 70.000 bản ghi chứa kết
quả tổng kết học phần của số sinh viên đó. Để liệt kê tất cả các lộ trình học mà sinh viên đã
chọn và gắn với mỗi sinh viên, ta cần một cách thức biểu diễn lộ trình học nào đó. Tác giả
với khả năng đạt được mục tiêu là 96,15%, trong khi đó mô hình NaiveBayes là 93,59% và
mô hình luật kết hợp cho kết quả thấp hơn nhiều. Chính vì thế, mô hình DecisionTrees
được lựa chọn để xây dựng ứng dụng dự đoán kết quả học tập của sinh viên, qua đó, tư vấn
cho sinh viên lựa chọn lộ trình học phù hợp để cho kết quả học tập toàn khoá cao nhất.
2.3. Xây dựng ứng dụng dự đoán kết quả học tập
Với ý tưởng đã nêu, ứng dụng dự đoán kết quả học tập của sinh viên được xây dựng
theo sơ đồ (xem Hình 1): Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012
4
Hiển thị kết quả
truy vấn lên
DataGridView
Đóng kết nối
End
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012
5
Để trình diễn kết quả nghiên cứu, tác giả chỉ xây dựng giao diện dự đoán kết quả học
tập như trong hình vẽ bên dưới và chỉ cho phép tư vấn cho một sinh viên. Khi triển khai
ứng dụng, giao diện và chức năng sẽ được xây dựng tùy vào nhóm người dùng. Chẳng hạn,
với người dùng là giảng viên chủ nhiệm hoặc các cấp quản lý, ứng dụng có thể liệt kê thông
tin của tất cả các sinh viên theo từng lớp, kết hợp với các lộ trình có thể, thực hiện dự báo
và trên cơ sở đó cho phép tư vấn cho từng sinh viên trong lớp. Đối với sinh viên, giao diện
sẽ được thiết kế trong một trang web để sinh viên có thể truy cập từ xa.
Hình 2. Giao diện dự đoán kết quả học tập
Khi người dùng chọn một lộ trình học, ứng dụng sẽ hiển thị chi tiết các môn học
cùng với học kỳ của lộ trình học đó.
Hình 3. Chi tiết lộ trình học
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012
6
Ngoài ra, hệ thống cho phép xem các mô hình đã được xây dựng nhằm hỗ trợ cho
người dùng cuối là các nhà quản lý, không phải là các kỹ thuật viên xây dựng mô hình.
Ngoài ra, dữ liệu đào tạo trong cơ sở dữ liệu có thể được bổ sung theo thời gian, mô hình đề
xuất có thể sẽ không còn là tối ưu. Vì vậy, ứng dụng cung cấp chức năng cho phép người
dùng cuối – các nhà quản lý cập nhật mô hình.
Để xây dựng ứng dụng với các chức năng đã nêu, tác giả đã tiến hành nghiên cứu và
Với việc triển khai hệ thống thử nghiệm cho thấy khả năng ứng dụng kết quả này
trong việc dự đoán kết quả học tập của sinh viên. Hệ thống không chỉ hỗ trợ cho sinh viên
mà còn hỗ trợ cho giáo viên chủ nhiệm, các khoa chuyên ngành, phòng đào tạo và những ai
quan tâm.
+ Đối với sinh viên: giúp cho sinh viên lựa chọn cho mình một lộ trình học phù hợp
với điều kiện và năng lực của bản thân để đạt được kết quả học tập tối ưu.
+ Đối với giáo viên chủ nhiệm: hỗ trợ cho giáo viên chủ nhiệm có thể tư vấn cho
sinh viên trong việc chọn một lộ trình học phù hợp.
+ Đối với các khoa chuyên ngành và phòng đào tạo: hỗ trợ trong việc đánh giá chất
lượng cho từng lộ trình học nhằm nâng cao, cải thiện hơn nữa trong việc xây dựng các lộ
trình học để phù hợp với mọi điều kiện và năng lực của sinh viên.
TÀI LIỆU THAM KHẢO
[1] JamieMacLennan, ZhaoHui Tang, Bogdan Crivat. Data Mining with Microsoft SQL
Server 2008. Published by Wiley Publishing, Inc., Indianapolis, Indiana. 2008
[2] Jiawei Han and Micheline Kamber. Data Mining Concepts and Techniques, Second
Edition. Published by Elsevier Inc 2006
[3] Brian Knight, Devin Knight, Adam Jorgensen, Patrick LeBlanc, Mike Davis. Knight's
Microsoft Business Intelligence 24-Hour Trainer. Published by Wiley Publishing, Inc.
2010
[4] Khai phá dữ liệu (Data Mining). (truy
cập ngày 2/3/2012)
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012
8
[5] Developing Application that uses Analysis Services.
/>4460-8953-f566ca0a0cf3 (truy cập ngày 20/2/2012)
[6] SQL server Data Mining.
(truy cập ngày 10/3/2012)