BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM
TRẦN THỊ VÂN ANH
KHAI PHÁ DỮ LIỆU KẾT QUẢ HỌC TẬP
SINH VIÊN TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP
THỰC PHẨM TP. HCM
LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201
TP. HỒ CHÍ MINH, tháng 6 năm 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM
---------------------------
TRẦN THỊ VÂN ANH
KHAI PHÁ DỮ LIỆU KẾT QUẢ HỌC TẬP
SINH VIÊN TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP
THỰC PHẨM TP. HCM
LUẬN VĂN THẠC SĨ
Chuyên ngành : Công nghệ thông tin
Mã số ngành: 60480201
CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS. LƢ NHẬT VINH
TP. HỒ CHÍ MINH, tháng 6 năm 2016
thƣờng xuyên cho tập thể lớp Cao học 14SCT11.
Xin cảm ơn bạn bè và đồng nghiệp tại trƣờng Đại học Công nghiệp thực phẩm
TP.HCM, các anh chị, các bạn cùng lớp Cao học đã giúp đỡ và chia sẻ với tôi trong
quá trình học tập và thực hiện luận văn.
Trần Thị Vân Anh
iii
TÓM TẮT
Trong đào tạo tín chỉ, sinh viên đƣợc tự do đăng ký học phần. Trong số các
học phần phải đăng ký có các học phần có thuộc tính là bắt buộc và có học phần có
thuộc tính là tự chọn. Đối với những học phần bắt buộc, sinh viên đƣợc yêu cầu
phải hoàn thành. Đối với học phần tự chọn, sinh viên có quyền chọn học phần theo
ý riêng. Đối với những sinh viên khi chƣa tìm hiểu rõ mục tiêu, tính áp dụng của
các học phần tự chọn thì việc chọn lựa học phần là một điều mới mẽ và gây ra tâm
lý lúng túng. Ngay cả cố vấn học tập của lớp cũng khó có thể tƣ vấn chính xác cho
từng sinh viên do không tiếp cận đƣợc chi tiết dữ liệu điểm. Do đó, luận văn tiến
hành nghiên cứu một số giải thuật học có giám sát trong lĩnh vực máy học trên cơ
sở bộ số liệu thu thập đƣợc là kết quả học tập của sinh viên. Cụ thể, luận văn nghiên
cứu lý thuyết của 3 giải thuật: Mạng nơron nhân tạo – ANN (Artificial Neural
Networks), Máy vector hỗ trợ - SVM (Support Vector Machines) và cây quyết định
- DT (Decision Tree).Trên cơ sở phân tích các giải thuật này, luận văn đề xuất sử
dụng giải thuật ANN cho bài toán đặt ra.
Trƣớc hết, luận văn giới thiệu tổng quan về lĩnh vực khai thác dữ liệu giáo
dục (EDM) và các công trình nghiên cứu liên quan. Đặc biệt, luận văn tập trung vào
những nghiên cứu áp dụng giải thuật học có giám sát để khai thác dữ liệu học tập
của sinh viên. Nội dung chƣơng 2, luận văn giới thiệu về các giải thuật học có giám
sát và đi vào nghiên cứu chi tiết từng giải thuật ANN, SVM và DT. Dựa trên ngôn
ngữ C#, trong chƣơng 3 của luận văn sẽ trình bày phần cài đặt thực nghiệm trên giải
v
MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................ i
LỜI CÁM ƠN .............................................................................................................ii
TÓM TẮT ................................................................................................................. iii
ABSTRACT ............................................................................................................... iv
MỤC LỤC ................................................................................................................... v
DANH MỤC CÁC TỪ VIẾT TẮT ..........................................................................vii
DANH MỤC CÁC BẢNG...................................................................................... viii
DANH MỤC BIỂU ĐỒ, ĐỒ THỊ, HÌNH ẢNH ........................................................ ix
MỞ ĐẦU . ................................................................................................................. 10
CHƢƠNG 1.TỔNG QUAN ...................................................................................... 12
1.1. Giới thiệu ........................................................................................................12
1.2. Giới thiệu về khai thác dữ liệu giáo dục (EDM) ............................................14
1.2.1. EDM ứng dụng trong dự báo và đánh giá khả năng của ngƣời học. ....16
1.2.2. EDM ứng dụng trong phân tích hành vi ngƣời học. .............................17
1.3. Các vấn đề luận văn cần nghiên cứu ..............................................................18
1.4. Tổng kết chƣơng ............................................................................................20
CHƢƠNG 2.CƠ SỞ LÝ THUYẾT .......................................................................... 21
2.1. Tổng quan về học có giám sát (Supervised Learning) ...................................21
2.1.1. Giới thiệu ..............................................................................................21
2.1.2. Tổng quan về giải thuật học có giám sát ..............................................21
2.2. Giải thuật máy vector hỗ trợ - SVM ..............................................................24
2.2.1. Giới thiệu giải thuật SVM ....................................................................24
2.2.2. SVM tuyến tính .....................................................................................24
2.2.3. SVM đa lớp ...........................................................................................34
2.3. Cây quyết định ...............................................................................................35
2.3.1. Cấu trúc của cây quyết định ..................................................................35
DANH MỤC CÁC TỪ VIẾT TẮT
Chữ viết tắt
Thuật ngữ tiếng Anh
Diễn giải
ANN
Artificial Neural Networks
Mạng ANN
DM
Data Mining
Khai thác dữ liệu
DT
Decision tree
Cây quyết định
EDM
Education Data Mining
Mạng NB
SRM
Structural Risk Minimization
Cực tiểu hóa rủi ro có cấu trúc
viii
DANH MỤC CÁC BẢNG
Bảng 1.1. Kế hoạch đào tạo học kỳ 2 hệ Đại học ngành Công nghệ sinh học ........12
Bảng 2.1. Bảng dữ liệu chơi golf .............................................................................36
Bảng 3.1. Khung chƣơng trình đào tạo học kỳ 1 ngành Công nghệ sinh học .........63
Bảng 3.2. Khung chƣơng trình đào tạo học kỳ 2 ngành Công nghệ sinh học .........64
ix
DANH MỤC BIỂU ĐỒ, ĐỒ THỊ, HÌNH ẢNH
Hình 2.1. Minh họa SVM tuyến tính ....................................................................... 25
Hình 2.2. Minh họa tìm một siêu phẳng tối ƣu ........................................................ 26
Hình 2.3. Xác định siêu phẳng tối ƣu ...................................................................... 26
Hình 2.4. Minh họa trƣờng hợp dữ liệu nhiễu ......................................................... 30
Hình 2.5. Trƣờng hợp dữ liệu nhiễu ........................................................................ 31
Hình 2.6. Minh họa trƣờng hợp SVM đa lớp .......................................................... 34
Hình 2.7. Mô tả chung về cây quyết định ................................................................ 35
để từ đó xem xét đầu tƣ và cải tiến trong các mặt của giáo dục, đồng thời thông qua
đó nâng cao khả năng của những nhà nghiên cứu trong việc nghiên cứu và phát triển
các kỹ thuật khai thác dữ liệu.
Các giải thuật học có giám sát của ngành máy học là những giải thuật đƣợc
sử dụng rộng rãi trong các bài toán phân lớp và dự báo bởi kết quả chính xác mà nó
mang lại [11]. Các giải thuật đó là: giải thuật Mạng ANN, SVM và DT, NB (Naïve
Bayer) và giải thuật K láng giềng gần - KNN (K Nearest Neighbours). Trong số đó:
giải thuật Mạng ANN, Máy vector hỗ trợ SVM và Cây quyết định DT đƣợc sử dụng
rộng rãi trong các bài toán khai thác dữ liệu giáo dục[17]. Trên cơ sở đó, luận văn
thực hiện nghiên cứu chi tiết đối với ba giải thuật trên cho bài toán dự báo kết quả
học của các học phần tự chọn. Mục tiêu nghiên cứu chính của luận văn:
Đề xuất mô hình bài toán dự báo kết quả học tập của các học phần tự chọn để
từ đó làm cơ sở thực nghiệm đối với tập dữ liệu thu thập đƣợc.
Đề xuất giải thuật dự báo trên cơ sở nghiên cứu các giải thuật học có giám
sát.
11
Xây dựng thực nghiệm đã xác định đƣợc kết quả dự báo.
Đánh giá, so sánh kết quả thực nghiệm.
Trên cơ sở mục tiêu nghiên cứu, luận văn xác định các đối tƣợng cần phải
nghiên cứu nhƣ sau:
Nghiên cứu cấu trúc chung của giải thuật học có giám sát để làm cơ sở
nghiên cứu các giải thuật cụ thể.
Đi sâu nghiên cứu chi tiết từng giải thuật: giải thuật Mạng ANN, Máy vector
hỗ trợ SVM và cây quyết định DT.
Nghiên cứu dữ liệu đầu vào và cài đặt thực nghiệm.
Phạm vi nghiên cứu của luận văn giới hạn trong các giải thuật ANN, SVM
và DT. Ngôn ngữ sử dụng để cài đặt thực nghiệm là C#. Từ đó phân tích tính phù
sẽ tự chọn học phần để đăng ký học, ví dụ:
Bảng 1.1.
Kế hoạch đào tạo học kỳ 2 hệ Đại học ngành Công nghệ sinh học
Học kỳ 2: 22 Tín chỉ
Học phần bắt buộc
20
1
17201002
Giáo dục thể chất 2
2
19200001
Những nguyên lý cơ bản của
chủ nghĩa Mác – Lênin
5(5,0,10)
3
21200002
Anh văn 2
6
18200014
Vật lý đại cƣơng 2
2(2,0,4)
18200013 (a)
7
18202015
Thí nghiệm vật lý đại cƣơng
1(0,1,1)
18200014 (c)
8
04200005
Hóa hữu cơ
2(2,0,4)
9
1
Phƣơng pháp tính
2(2,0,4)
2
18200009
18200012
Quy hoạch thực nghiệm
2(2,0,4)
3
18200008
Quy hoạch tuyến tính
2(2,0,4)
Trong nhóm học phần tự chọn, sinh viên sẽ phải chọn học phần tự chọn nhƣ
bảng 1.1. Giai đoạn chọn lựa học phần là giai đoạn khó khăn đối với sinh viên vì
phải ra quyết định lựa chọn mà không rõ là học phần nào sẽ cho kết quả tốt hơn, có
nhiều tiêu chí để sinh viên lựa chọn môn học. Thông thƣờng, sinh viên sẽ chọn môn
học theo cảm tính, theo sở thích, theo kinh nghiệm của những sinh viên đi trƣớc mà
chƣa có một cơ sở nào chắc chắn để hỗ trợ sinh viên có thể dự đoán đƣợc điểm của
học phần đã chọn. Theo tình trạng hiện tại, sinh viên thiếu kênh thông tin dự báo để
EDM đƣợc coi là mỏ vàng của ngành khai thác dữ liệu[14], những dữ liệu
thuộc ngành này đã đƣợc tích lũy nhiều năm và vô cùng phong phú. EDM đóng góp
rất nhiều cho việc phát triển các kỹ thuật DM[7]. EDM không giới hạn các kỹ thuật
khai thác dữ liệu. Hầu nhƣ các kỹ thuật phân lớp (classification), gom cụm
(clustering), rút luật kết hợp (association rule) đều đƣợc áp dụng thành công trong
lĩnh vực giáo dục[14].
Hội thảo quốc tế về lĩnh vực EDM diễn ra tại các nƣớc vào tháng 7 hằng năm
(http://www.educationaldatamining.org) là cơ hội để những nhà nghiên cứu về lĩnh
vực này công bố những hƣớng nghiên cứu mới. Đồng thời tạp chí jounal of
education data mining cũng là một kênh chính cho những ai theo đuỗi lĩnh vực này
nắm bắt đƣợc tình hình nghiên cứu trên thế giới.
15
Những nghiên cứu của EDM xoay quang 4 đối tƣợng chính [14]:
Sinh viên: chủ yếu là khai thác những thông tin chi tiết của sinh viên, tính
cách cũng nhƣ khả năng kiến thức, các kỹ năng, động lực, sự hài lòng, thái độ mục
tiêu là phát hiện khả năng phát sinh những tác động tiêu cực làm ảnh hƣởng đến quá
trình học.
Ngƣời dạy: Khai thác dữ liệu để tìm ra những yếu tố ảnh hƣởng đến quá
trình dạy từ đó điều chỉnh, cải tiến phƣơng pháp giảng dạy cho phù hợp.
Ngƣời quản lý: Khai thác dữ liệu để tìm ra những nguy cơ, những rủi ro ảnh
hƣởng đến chiến lƣợc, mục tiêu của Trƣờng học, những lỗ hổng trong quản lý và để
cải thiện hơn trong quản lý nhân sự hoặc xem xét các yếu tố cải thiện cơ sở vật chất.
Nhà nghiên cứu: phát triển và so sánh các kỹ thuật khai thác dữ liệu ứng
dụng trong các vấn đề cụ thể từ đó đƣa ra những kiến nghị có lợi trong việc lựa
chọn kỹ thuật khai thác dữ liệu phù hợp.
Những nghiên cứu gần đây: trong bài báo về phân tích hiệu suất và dự báo
trong khai thác dữ liệu giáo dục[7] đã trình bày cuộc khảo sát toàn diện về EDM (từ
động. Kết quả đã giúp ích cho hoạt động dạy của giảng viên. Một nghiên cứu khác
của Falakmusic và jafar cũng cho thấy lợi ích của khai thác dữ liệu khi dùng cây
quyết định để khai thác hồ sơ truy cập Moodle của sinh viên[18]. Kết quả là có thể
xác định và xếp hạng chính xác kết quả thi cuối kỳ của sinh viên thông qua việc
tham gia các lớp trên Moodle. Romero và cộng sự cũng đã thực hiện nhiều thử
nghiệm khai thác dữ liệu của hệ thống e-learning để dự đoán điểm cuối khóa của
sinh viên, đồng thời cũng xác định đƣợc nhiều ứng dụng phân loại trong môi trƣờng
giáo dục nhƣ: phát hiện các nhóm sinh viên có cùng đặc trƣng, xác định nhóm
ngƣời học có động cơ thấp để đề xuất hƣớng khắc phục, dự đoán và phân loại nhóm
sinh viên có sử dụng hệ thống tài liệu thông minh. Song song với việc dự đoán kết
quả học của ngƣời học qua việc truy cập thƣờng xuyên trên hệ thống học Moodle
còn giúp ngƣời hƣớng dẫn phát hiện những truy cập không thƣờng xuyên của sinh
viên.
Các nghiên cứu của EDM đã sử dụng nhiều kỹ thuật (phân tích nhân tố và
hồi quy logictic, cây quyết định, máy hỗ trợ vector (SVM), mạng Bayes) để xây
17
dựng mô hình khai thác dữ liệu có thể giúp dự đoán kết quả sinh viên. Song song
với việc dự đoán là phân tích kết quả học tập để tìm ra những yếu tố ảnh hƣởng và
đƣa ra những hành động khắc phục trong các cơ sở giáo dục đại học.
Nghiên cứu về ITS, Dominguez và cộng sự đã tạo một hệ thống tiếp nhận
thông tin phản hồi của sinh viên và theo dõi việc sinh viên chia sẽ những tài liệu
học, họ phát hiện ra rằng những sinh viên tham gia vào hệ thống và thời gian lƣu lại
lâu hơn có kết quả tốt hơn đáng kễ so với những ngƣời không tham gia[2].
Gorissen và cộng sự đã phân tích tƣơng tác của sinh viên với các bài giảng
đƣợc ghi bằng các kỹ thuật khai thác dữ liệu giáo dục. Cho thấy sự khác biệt cũng
nhƣ sự tƣơng đồng giữa các báo cáo bằng lời nói của học sinh và thực tế cách sử
dụng nhƣ đăng nhập bằng các máy chủ bài giảng ghi lại. Dữ liệu cho thấy rằng
Công nghiệp Thực phẩm Tp. HCM, luận văn tiến hành tiếp cận nghiên cứu kỹ thuật
học có giám sát của ngành máy học. Cụ thể là SVM, DT và ANN từ đó lựa chọn
một kỹ thuật tối ƣu để áp dụng vào bài toán dự báo kết quả học tập. Do đó, luận văn
sẽ tập trung nghiên cứu những nội dung chính nhƣ sau:
Nghiên cứu giải thuật Máy vecto hỗ trợ (SVM) và các lĩnh vực ứng dụng.
Nghiên cứu giải thuật Cây quyết định (DT) và các lĩnh vực ứng dụng.
Nghiên cứu giải thuật Mạng nơ ron nhân tạo (ANN) và các lĩnh vực ứng
dụng.
Nghiên cứu bài toán khai thác dữ liệu trên kết quả học tập của ngƣời học
So sánh ƣu nhƣợc điểm của SVM, DT và ANN áp dụng cho bài toán dự đoán
kết quả học tập.
Đóng góp chính của luận văn gồm ba phần chính nhƣ sau:
Phân tích đánh giá và lựa chọn giải thuật phù hợp với bài toán đặt ra.
Đề xuất xây dựng mô hình cho bài toán khai thác dữ liệu trên kết quả học tập
của ngƣời học tại Trƣờng Đại học Công nghiệp Thực phẩm Tp. HCM.
19
Cài đặt chƣơng trình trực quan tƣ vấn cho sinh viên trong việc lựa chọn học
phần.
Nội dung của luận văn bao gồm 4 chƣơng:
Chƣơng 1- Tổng quan: trong chƣơng này luận văn khảo sát tổng quan về
khai thác dữ liệu trong giáo dục và các công trình liên quan. Dựa trên các nội dung
khảo sát, trong chƣơng này lần lƣợt phân tích các đặc điểm của các nghiên cứu đã
công bố từ đó đánh giá tính khả thi của đề tài luận văn cũng nhƣ định hƣớng nghiên
cứu cho luận văn. Trên cơ sở các định hƣớng nghiên cứu này, luận văn sẽ dần đi
vào cụ thể từng đối tƣợng dựa trên phƣơng pháp nghiên cứu lý thuyết.
Chƣơng 2- Cơ sở lý thuyết: Trong chƣơng này luận văn sẽ khảo sát tổng
quan về máy học, cụ thể là các thuật toán học có giám sát. Sau đó, phân tích các đặc
21
CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
2.1. Tổng quan về học có giám sát (Supervised Learning)
2.1.1. Giới thiệu
Giải thuật học có giám sát là một nhánh trong ngành máy học (machine
learning) [11]. Một số kỹ thuật của giải thuật học có giám sát đƣợc ứng dụng hiệu
quả nhƣ: ANN, SVM, DT, NB, KNN…[21]. Các ứng dụng phổ biến của giải thuật
học có giám sát bao gồm các bài toán phân lớp hay dự báo nhƣ: bài toán dự báo giá
cổ phiếu trong lĩnh vực chứng khoán, bài toán dự báo rủi ro thƣơng mại, bài toán
phát hiện gian lận tín dụng, thực phẩm, y khoa, sinh học …[11]. Trong chƣơng này,
luận văn sẽ tiếp cận các khái niệm tổng quan về giải thuật học có giám sát, từ đó
phân tích cách giải thuật nhƣ mạng ANN, SVM và DT. Dựa trên các phân tích này,
luận văn chọn lựa giải thuật phù hợp cho bài toán dự báo kết quả học tập của sinh
viên.
2.1.2. Tổng quan về giải thuật học có giám sát
Giải thuật học có giám sát thƣờng giải quyết dƣới dạng các bài toán phân lớp
và dự báo. Trong bài toán này thực hiện cực tiểu hóa rủi ro có cấu trúc (Structural
Risk Minimization- SRM) [19].Theo nhƣ tài liệu [11], giải thuật có giám sát là kỹ
thuật học dựa trên dữ liệu đã đƣợc gán nhãn (training set), thông qua quá trình học
từ bộ dữ liệu này thực hiện gán nhãn cho tập dữ liệu mới (test set) có cùng đặc
trƣng so với mẫu dữ liệu cũ. Máy học đã đƣợc ứng dụng rộng rãi trên hầu hết các
lĩnh vực, sự đóng góp của các giải thuật học có giám sát đã giúp ích cho vấn đề
phân lớp và dự báo trên các dữ liệu có kích thƣớc lớn.
Một số giải thuật học có giám sát bao gồm các kỹ thuật phân lớp sau: giải
thuật mạng nơron nhân tạo ANN, SVM, giải thuật cây quyết định DT, giải thuật
NB, giải thuật KNN.
Theo nhƣ tài liệu [11], học có giám sát là một kỹ thuật của ngành máy học để
xây dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp đối
đặc trưng, c j là lớp thứ j đã biết trƣớc.
23
Giải thuật học có giám sát tìm kiếm không gian của những giả thuyết có thể,
gọi là H. Đối với một hay nhiều giả thuyết mà ƣớc lƣợng tốt nhất hàm
f : x c
Đối với việc phân lớp có thể xem giả thuyết nhƣ một tiêu chí phân lớp.
Thuật toán máy học tìm ra những giả thuyết bằng cách khám phá ra những
đặc trƣng chung của những mẫu thể hiện cho mỗi lớp.
Kết quả nhận đƣợc thƣờng ở dạng luật (Nếu…thì).
Khi áp dụng những mẫu dữ liệu mới, cần dựa trên những giả thuyết đã có để
dự báo những phân lớp tƣơng ứng của chúng. Nếu nhƣ không gian giả thuyết
lớn, thì cần một tập dữ liệu huấn luyện đủ lớn nhằm tìm kiếm một hàm xấp
xỉ f tốt nhất.
Tùy vào mức độ của thuật toán học có giám sát, có những mô hình học giám
sát nhƣ sau [11]:
Học vẹt (rote): hệ thống luôn đƣợc dạy những luật đúng, sau có học hội tụ
Học bằng phép loại suy (analogy): hệ thống đƣợc dạy phản hồi đúng cho một
công việc tƣơng tự nhƣng không xác định. Vì thế, hệ thống phải hiệu chỉnh
phản hồi trƣớc đó bằng cách tạo ra một luật mới có thể áp dụng cho trƣờng
hợp mới.
Học dựa trên trƣờng hợp (case- based learning): trong trƣờng hợp này, hệ
thống học lƣu trữ tất cả các trƣờng hợp cùng với kết quả đầu ra của chúng.
Khi bắt gặp một trƣờng hợp mới hệ thống sẽ cố gắng hiệu chỉnh trƣờng hợp
mới này đến cách xử lý đã đƣợc lƣu trữ trƣớc đó.
Học dựa trên sự giải thích (explanation- based learning): hệ thống sẽ phân
tích tập hợp những giải pháp nhằm chỉ ra tại sao mỗi phƣơng pháp là thành