Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (tt) - Pdf 44

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-----------------------------------

TRẦN VĂN HẢI

ỨNG DỤNG THUẬT TOÁN HỌC MÁY SVM
TRONG TƯ VẤN HƯỚNG NGHIỆP CHO
HỌC SINH TRUNG HỌC PHỔ THÔNG

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ:

60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI – 2017


Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS. Đào Đình Khả
(Ghi rõ học hàm, học vị)

Phản biện 1: …………………………………………………………………………
Phản biện 2: …………………………………………………………………………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công
nghệ Bưu chính Viễn thông
Vào lúc: …… giờ …… ngày …… tháng …… năm ……

với công tác tư vấn hướng nghiệp cho học sinh trung học phổ thông, cần phải có một phương
pháp phân loại để phân nhóm các em học sinh dựa trên các yếu tố này, từ đó mới có thể đưa
ra sự tư vấn, định hướng nghề nghiệp một cách chính xác cho các em. Nói cách khác, để có
thể giải quyết được vấn đề về công tác tư vấn hướng nghiệp cho học sinh trung học phổ thông
ta cần phải giải quyết được bài toán phân loại học sinh. Đây là bài toán nhằm mục đích phân
lớp các em học sinh vào các nhóm ngành nghề khác nhau dựa trên các đặc trưng về khả năng,
năng lực, sở thích cũng như tính cách của từng em.


2

Ngày nay, đối với các bài toán phân loại, việc sử dụng các mô hình tính toán dựa trên
các phương pháp học máy ngày càng được áp dụng một cách rộng rãi và đạt được nhiều thành
công to lớn. Trong đó, phương pháp học máy Support Vector Machine (SVM) là một trong
những phương pháp được sử dụng phổ biến nhất do tính hiệu quả và độ chính xác cao khi xử
lý đối với bộ dữ liệu lớn, rất thích hợp để ứng dụng trong bài toán phân loại học sinh.
Với các lý do và mục tiêu như trên, tôi xin chọn đề tài nghiên cứu “Ứng dụng thuật
toán học máy SVM trong tư vấn hướng nghiệp cho học sinh trung học phổ thông”.
Mục tiêu cụ thể được trình bày trong luận văn như sau:
- Phát biểu bài toán về tư vấn hướng nghiệp cho học sinh trung học phổ thông.
- Nghiên cứu học máy và thuật toán học máy SVM.
- Áp dụng học máy và thuật toán học máy SVM cho bài toán tư vấn hướng nghiệp cho
học sinh trung học phổ thông.
- Cài đặt thử nghiệm thuật toán học máy SVM cho bài toán tư vấn hướng nghiệp cho
học sinh trung học phổ thông.
Nội dung của luận văn được trình bày trong 3 chương như sau:
- Chương 1: Tổng quan về học máy và bài toán tư vấn hướng nghiệp cho học sinh trung
học phổ thông.
- Chương 2: Xây dựng mô hình tư vấn hướng nghiệp cho học sinh trung học phổ thông
dựa trên phương pháp Support Vector Machine.

- Các hệ tư vấn, khuyến nghị

1.1.3. Phân loại các phương pháp học máy
1.1.3.1. Học có giám sát
Học có giám sát (supervised learning) là dạng học máy trong đó tập dữ liệu huấn luyện
đầu vào được cho trước dưới dạng các ví dụ với các giá trị đầu ra hay giá trị đích. Nhiệm vụ
của một thuật toán học có giám sát là dựa trên dữ liệu huấn luyện cần phải xây dựng được mô
hình hay hàm đích để dự đoán giá trị đầu ra (giá trị đích) cho các trường hợp mới.

1.1.3.2. Học không giám sát
Học không giám sát (unsupervised learning) là một phương pháp học máy nhằm tìm
ra một mô hình mà phù hợp với tập dữ liệu quan sát. Học không giám sát khác học có giám
sát ở chỗ các ví dụ được cung cấp nhưng không có giá trị đầu ra hay giá trị đích.

1.1.3.3. Học bán giám sát
Học bán giám sát (semi-supervised learning) là dạng kết hợp giữa học có giám sát và
học không giám sát. Trong đó, nó kết hợp các ví dụ có gán nhãn và không gán nhãn để sinh
ra một hàm hoặc một bộ phân loại thích hợp.


4

1.2. Tổng quan về phương pháp Support Vector Machine
1.2.1. Giới thiệu về Support Vector Machine
Support Vector Machine (SVM) là một phương pháp phân loại xuất phát từ lý thuyết
thống kê. Phương pháp này thực hiện phân lớp dựa trên nguyên lý tối thiểu rủi ro cấu trúc
SRM (Structural Risk Minimisation). SVM sẽ cố gắng tìm cách phân loại dữ liệu sao cho lỗi
xảy ra trên tập kiểm tra là nhỏ nhất.
SVM dạng chuẩn nhận dữ liệu đầu vào và phân loại chúng vào hai lớp khác nhau. Do
đó SVM còn được gọi là một thuật toán phân loại nhị phân, tuy nhiên nó vẫn có thể được mở


+1,
−1,

𝑤
⃗⃗ . ⃗⃗⃗
𝑥𝑖 + 𝑏 ≥ 0
𝑤
⃗⃗ . ⃗⃗⃗
𝑥𝑖 + 𝑏 < 0

1.2.2. SVM tuyến tính và SVM phi tuyến
1.2.2.1. SVM tuyến tính
1.2.2.1.1. SVM tuyến tính với tập dữ liệu phân tách được
Hai lề của siêu phẳng 𝑓(𝑥) = 〈𝑤. 𝑥〉 + 𝑏 = 0 sẽ là:
- Lề cộng: 〈𝑤. 𝑥〉 + 𝑏 = +1
- Lề trừ: 〈𝑤. 𝑥〉 + 𝑏 = −1
Độ rộng lề:
𝑚 = 𝑑+ + 𝑑− =

1
1
2
+
=
‖𝑤‖ ‖𝑤‖ ‖𝑤‖

Thuật toán SVM nhằm mục đích tìm một siêu phẳng tối ưu sao cho độ rộng của lề là
lớn nhất, điều đó tương đương với việc giải quyết bài toán tối ưu sau:
2

𝑛

1
𝐿𝑃 = ||𝑤||2 − ∑ 𝛼𝑖 [𝑦𝑖 (〈𝑤. 𝑥𝑖 〉 + 𝑏 − 1)]
2
𝑖=1

Với αi ≥ 0 là các hệ số nhân Lagrange
Biểu thức đối ngẫu Lagrange là:
𝑛

𝑛

𝑖=1

𝑖,𝑗=1

1
𝐿𝐷 = ∑ 𝛼𝑖 − ∑ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 〈𝑥𝑖 𝑥𝑗 〉
2
Bài toán đối ngẫu Lagrange:
𝑛

𝑛

𝑖=1

𝑖,𝑗=1

1

7

Ta cần phải tích hợp lỗi trong hàm mục tiêu tối ưu bằng cách gán giá trị chi phí cho
các lỗi vào hàm mục tiêu mới. Bài toán tối ưu nguyên gốc chuyển thành:
𝑛

1
min ‖𝑤‖2 + 𝐶(∑ 𝜉𝑖 )𝑘
𝑤,𝑏,𝜉 2
𝑖=1

Với các ràng buộc
{

𝑦𝑖 (〈𝑤. 𝑥𝑖 〉 + 𝑏) ≥ 1 − 𝜉𝑖 ,
∀𝑖 = 1, 2, … , 𝑛
𝜉𝑖 ≥ 0,
∀𝑖 = 1, 2, … , 𝑛

Trong đó, C > 0 là tham số xác định mức độ chi phí đối với các lỗi. Giá trị C càng lớn
thì mức độ chi phí lỗi càng cao. Nó ảnh hưởng đến độ cực đại biên và làm giảm số lượng các
biến phụ 𝜉𝑖 . Giá trị k = 1 thường được sử dụng để có biểu thức đối ngẫu đơn giản hơn.
Ta có biểu thức Lagrange là:
𝑛

𝑛

𝑛

𝑖=1


1
max ∑ 𝛼𝑖 − ∑ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 〈𝑥𝑖 𝑥𝑗 〉
𝛼
2
Với các ràng buộc
𝑛

∑ 𝛼𝑖 𝑦𝑖 = 0

{

𝑖=1

0 ≤ 𝛼𝑖 ≤ 𝐶, 𝑖 = 1, … , 𝑛
Siêu phẳng phân tách dữ liệu:
𝑛

𝑓 (𝑥) = 〈𝑤. 𝑥〉 + 𝑏 = ∑ 𝛼𝑖 𝑦𝑖 〈𝑥𝑖 . 𝑥〉 + 𝑏 = 0
𝑖=1

Để phân lớp một ví dụ mới ta cũng chỉ cần tính sign(〈𝑤. 𝑥〉 + 𝑏) như với trường hợp
tập dữ liệu huấn luyện có thể phân tách được.


8

1.2.2.2. SVM phi tuyến
Ngoài các trường hợp về tập dữ liệu có thể phân tách tuyến tính được, ta còn có thể
gặp những tập dữ liệu huấn luyện có ranh giới quyết định là không tuyến tính nên rất khó giải

max ∑ 𝛼𝑖 − ∑ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 〈Φ(𝑥𝑖 )Φ(𝑥𝑗 )〉
𝛼
2
Với ràng buộc:
𝑛

∑ 𝛼𝑖 𝑦𝑖 = 0

{

𝑖=1

0 ≤ 𝛼𝑖 ≤ 𝐶, 𝑖 = 1, … , 𝑛
Siêu phẳng phân tách dữ liệu:
𝑛

𝑓 (Φ(𝑥)) = 〈𝑤. Φ(𝑥)〉 + 𝑏 = ∑ 𝛼𝑖 𝑦𝑖 〈Φ(𝑥𝑖 ). Φ(𝑥)〉 + 𝑏 = 0
𝑖=1

Việc ánh xạ từ không gian ban đầu sang không gian đặc trưng mới có nhiều chiều hơn
sẽ làm cho dữ liệu trở thành phân chia tuyến tính. Tuy nhiên, việc ánh xạ như vậy sẽ đòi hỏi
cần phải tính toán các đặc trưng mới. Số lượng đặc trưng như vậy có thể rất lớn thậm chí là
vô cùng. Việc tính số lượng đặc trưng mới nhiều như vậy sẽ gặp vấn đề về chi phí, thời gian
và không thực tế. Để tránh việc tính toán các đặc trưng trong không gian mới, SVM sử dụng
các hàm nhân (kernel function).


9

Do không cần xây dựng tường mình ánh xạ Φ và sử dụng hàm nhân nên biểu thức siêu


Trong đó: 𝑠𝑖𝑔𝑛(𝑥) = {

1, 𝑥 > 0
0, 𝑥 ≤ 0


10

Ví dụ x sẽ được phân vào lớp i khi: arg max 𝐷𝑖 (𝑥)
𝑖=1,…,𝑛

1.3. Bài toán tư vấn hướng nghiệp cho học sinh trung học phổ thông
1.3.1. Giới thiệu về tư vấn hướng nghiệp
1.3.1.1. Khái niệm tư vấn hướng nghiệp
Tư vấn hướng nghiệp được hiểu là hệ thống những biện pháp tâm lí, giáo dục và một
số biện pháp khác được các chuyên viên tư vấn hướng nghiệp, các thầy/cô giáo làm nhiệm vụ
tư vấn hướng nghiệp, … (gọi chung là tư vấn viên) sử dụng nhằm phát hiện, đánh giá sở thích
nghề nghiệp, khả năng về thể chất, trí tuệ của học sinh, sinh viên, thanh, thiếu niên, … (gọi
chung là người được tư vấn); đối chiếu các khả năng thực có của mỗi em với những yêu cầu
của bậc học cao hơn hoặc những yêu cầu của nghề đặt ra đối với người lao động, có cân nhắc
đến nhu cầu nhân lực của địa phương và xã hội. Từ đó, giúp cho người được tư vấn tự tìm ra
giải pháp và từng bước giải quyết vấn đề để chọn được hướng học hoặc chọn nghề phù hợp.

1.3.1.2. Mục đích của tư vấn hướng nghiệp
- Phát hiện và giúp các em đánh giá đúng sở thích nghề nghiệp, khả năng của bản thân;
hiểu rõ hơn yêu cầu của nghề và nhu cầu lao động của xã hội.
- Góp phần xác định con đường tiếp tục phát triển nhân cách và sự phù hợp nghề của
các em trong tương lai.


1.3.2.1. Mô hình lý thuyết cây nghề nghiệp
Mô hình lý thuyết cây nghề nghiệp được lập ra để giải thích vai trò quan trọng của mối
tương quan chặt chẽ giữa sở thích, khả năng cá tính và giá trị nghề nghiệp của một người với
khả năng tuyển dụng đối với họ sau khi tốt nghiệp chương trình đào tạo. Mô hình này khá
đơn giản, nhưng nếu hiểu rõ nội dung cơ bản của mô hình sẽ giúp người được tư vấn tránh
được những quan niệm nhầm lẫn về hướng nghiệp đang xảy ra tương đối phổ biến ở nước ta.
Sở thích, khả năng, cá tính và giá trị nghề nghiệp của mỗi người đóng vai trò rất quan
trọng trong việc chọn hướng học, chọn nghề phù hợp và nó được coi là phần “rễ” của cây
nghề nghiệp. Rễ có khỏe thì cây mới khỏe và ra hoa, kết trái như mong muốn của người trồng
cây. Vì vậy, muốn lựa chọn nghề nghiệp phù hợp, trước hết phải hiểu rõ sở thích, khả năng,
cá tính và giá trị nghề nghiệp của bản thân và phải dựa vào chính những hiểu biết này để lựa
chọn nghề nghiệp. Nói cách khác là phải chọn nghề theo “rễ” vì đây là yếu tố có ảnh hưởng
mang tính quyết định tới sự kết trái của cây nghề nghiệp. Thực tế đã chứng minh, những
người quyết tâm chọn nghề và theo đuổi nghề phù hợp với “rễ” sẽ có nhiều khả năng thu được
những “quả ngọt” trong hoạt động nghề nghiệp như: có cơ hội việc làm cao, được nhiều người
tôn trọng, lương cao, công việc ổn định …


12

1.3.2.2. Lý thuyết mật mã Holland
Lý thuyết mật mã Holland đưa ra một số luận điểm rất có giá trị trong hướng nghiệp,
trong đó có 2 luận điểm cơ bản là:
- Nếu một người chọn được công việc phù hợp với tính cách của họ thì họ sẽ dễ dàng
phát triển và thành công trong nghề nghiệp. Nói cách khác, những người làm việc trong môi
trường tương tự như tính cách của mình hầu hết sẽ thành công và hài lòng với công việc.
- Hầu như ai cũng có thể được xếp vào 1 trong 6 kiểu tính cách và có 6 môi trường
hoạt động tương ứng với 6 kiểu tính cách, đó là: Nhóm kĩ thuật (KT); Nhóm nghiên cứu (NC);
Nhóm nghệ thuật (NT); Nhóm xã hội (XH); Nhóm quản lí (QL); Nhóm nghiệp vụ (NV).


được tư vấn lắng nghe cảm xúc, nắm được sự thật trong câu chuyện mà người được tư vấn
đang kể.
- Liệu pháp tập trung vào giải pháp: chú trọng đến việc giải quyết những khó khăn tại
thời điểm hiện tại và tương lai, thay cho việc suy nghĩ và hối tiếc về quá khứ. Liệu pháp này
giúp người được tư vấn xây dựng mục tiêu của mình và từng bước xác định các bước để đạt
được mục tiêu ấy.

1.3.4. Mô tả bài toán tư vấn hướng nghiệp cho học sinh THPT
Bài toán tư vấn hướng nghiệp cho học sinh trung học phổ thông là bài toán nhằm mục
đích giúp cho học sinh có thể tự nhận ra khả năng của bản thân, từ đó xác định được ngành
nghề phù hợp với mình. Dó đó, quá trình giải quyết bài toán tư vấn hướng nghiệp còn được
xem như quá trình hình thành và phát triển các năng lực tự hướng nghiệp cho học sinh. Để
làm được điều này, người làm công tác tư vấn phải nắm vững được cơ sở lý thuyết cũng như
vận dụng linh hoạt các kỹ năng và liệu pháp tư vấn hướng nghiệp thì mới có thể đạt được hiệu
quả trong việc giúp các em học sinh xác định ngành nghề phù hợp với bản thân mình.
Nhằm mục đích hỗ trợ các tư vấn viên trong việc giải quyết bài toán tư vấn hướng
nghiệp và nâng cao hiệu quả của việc tư vấn hướng nghiệp cho học sinh trung học phổ thông,
luận văn mong muốn xây dựng mô hình phân loại đối tượng học sinh và dự đoán xu hướng
nghề nghiệp của các em dựa theo phương pháp học máy, qua đó giúp các em có lựa chọn
ngành nghề phù hợp với bản thân một cách chủ động và có tính khoa học. Trong khuôn khổ
của luận văn, quá trình phân loại sẽ được giới hạn trong bài toán giúp các em học sinh lựa
chọn ngành học, ngành thi vào bậc học đại học phù hợp với bản thân.


14

CHƯƠNG 2: XÂY DỰNG MÔ HÌNH TƯ VẤN HƯỚNG NGHIỆP
CHO HỌC SINH THPT DỰA TRÊN PHƯƠNG PHÁP SUPPORT
VECTOR MACHINE
2.1. Đặt vấn đề bài toán

- Bước 3: Phân chia dữ liệu thành tập dữ liệu HL và KC
- Bước 4: Xây dựng mô hình phân lớp theo phương pháp SVM trên tập HL
- Bước 5: Sử dụng mô hình phân lớp có được để phân loại với tập dữ liệu KC
- Bước 6: Phân tích và đánh giá kết quả của mô hình phân lớp

Hình 2.2. Quy trình phân lớp nhóm ngành nghề

CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT QUẢ
3.1. Công cụ thực nghiệm
Công cụ thực nghiệm: phần mềm Weka version 3.8.1.
Chương trình được thực hiện với SMO Classifier trong bộ thư viện
MultiClassClassifier của Weka.
Máy tính tiến hành thực nghiệm:
- OS: Microsoft Windows 10 64bits
- CPU: Intel Core i3-2350M, 2.3GHz
- RAM: 4GB

3.2. Chuẩn bị dữ liệu
Dữ liệu chuẩn bị cho việc tiến hành thực nghiệm được trích xuất từ học bạ, hồ sơ tư
vấn và nguyện vọng đăng ký xét tuyển đại học năm 2016 của các em học sinh thuộc 17 trường
trung học phổ thông trên địa bàn tỉnh Ninh Bình. Qua quá trình tiền xử lý tâp dữ liệu thu được
bao gồm 3603 mẫu đối tượng học sinh thuộc 08 nhóm ngành nghề khác nhau.


16

Số lượng mẫu các nhóm ngành nghề tập dữ liệu 1 (1800 mẫu)
STT

Tên nhóm ngành nghề


73

3

Nhóm ngành Tài chính – Kế toán

316

221

95

4

Nhóm ngành Quản trị kinh doanh

241

168

73

5

Nhóm ngành Công nghệ sinh học – Môi trường

218

152


36

Số lượng mẫu các nhóm ngành nghề tập dữ liệu 2 (3603 mẫu)
STT

Tên nhóm ngành nghề

SL

Mẫu

Mẫu

mẫu

HL

KC

1

Nhóm ngành Khoa học tự nhiên – Kỹ thuật

589

414

175


5

Nhóm ngành Công nghệ sinh học – Môi trường

436

309

127

6

Nhóm ngành Khoa học xã hội – Nhân văn

455

326

129

7

Nhóm ngành Ngoại giao – Ngoại ngữ

284

191

93



Độ chính xác phân lớp (%)

Thời gian xây dựng mô hình (giây)

OAO

89,8

4,2

OAR

74,1

4,9

3.4.2. Kết quả thực nghiệm với tập dữ liệu 2 (3603 mẫu)
So sánh giữa hai chiến lược OAO và OAR với tập dữ liệu 2
Chiến lược

Độ chính xác phân lớp (%)

Thời gian xây dựng mô hình (giây)

OAO

91,7

6,1

- Nghiên cứu tổng quan về học máy, các phương pháp học máy cơ bản và các ứng
dụng trong thực tiễn của học máy.
- Tìm hiểu về vấn đề tư vấn hướng nghiệp, các loại hình tư vấn hướng nghiệp và những
yếu tố quyết định mức độ phù hợp trong việc lựa chọn ngành nghề.
- Nghiên cứu thuật toán SVM và ứng dụng vào bài toán phân lớp nhóm ngành nghề
nhằm hỗ trợ việc tư vấn hướng nghiệp cho học sinh trung học phổ thông.
- Tiến hành thu thập dữ liệu đối tượng học sinh trung học phổ thông, thực hiện xây
dựng mô hình phân lớp và thực hiện thực nghiệm, đánh giá kết quả. Bước đầu cho thấy ứng
dụng SVM vào phân lớp nhóm ngành nghề đã đạt hiệu quả khả quan.
Hướng phát triển của luận văn
Tuy đã đạt được một số kết quả khả quan nhưng luận văn vẫn còn những hạn chế nhất
định do điều kiện về kiến thức khoa học của học viên cũng như về thời gian nghiên cứu. Dưới
đây là một số hướng nghiên cứu tiếp theo của luận văn do học viên đặt ra:
- Nghiên cứu sâu về vấn đề tư vấn hướng nghiệp để lựa chọn được thêm các đặc trưng
mang tính quyết định cho việc lựa chọn ngành nghề.
- Tiếp tục nghiên cứu thêm về thuật toán SVM và một số thuật toán học máy khác để
tăng độ chính xác của việc phân lớp.
- Mở rộng các nhóm ngành nghề và đa dạng hóa các đối tượng cần phân lớp.
- Phát triển bài toán phân nhóm ngành nghề thành ứng dụng để hỗ trợ công tác tư vấn
hướng nghiệp.




Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status