Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên - Pdf 41

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN THÀNH

KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN
TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH
NGHIỆM HỌC TẬP CỦA SINH VIÊN

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Hà Nội - 2016

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN THÀNH

KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN
THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM
HỌC TẬP CỦA SINH VIÊN
Ngành: Hệ thống Thông Tin
Chuyên ngành: Hệ thống Thông Tin
Mã số chuyên ngành: 60480104

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Trần Thị Oanh

Hà Nội – 2016

nghệ Thông tin – Đại học Công nghệ - Đại học Quốc gia Hà Nội,
khoa Công nghệ Thông tin - Viện Đại học Mở Hà Nội đã giúp đỡ
tôi rất nhiều trong quá trình học tập, nghiên cứu và tạo điều kiện
giúp tôi trong công tác để tôi có thời gian thực hiện việc học tập
và hoàn thành luận văn.
Cuối cùng, tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc
tới bố mẹ những người động viên tôi về mặt tinh thần và hỗ trợ
nhiều về mọi mặt.
HỌC VIÊN

Nguyễn Văn Thành

iii
MỤC LỤC
DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT ............................vii
DANH MỤC CÁC BẢNG ........................................................ viii
DANH MỤC HÌNH VẼ, ĐỒ THỊ ..............................................ix
MỞ ĐẦU ........................................................................................ 1
Chương 1: Tổng quan về vấn đề nghiên cứu ............................. 4
Khai phá dữ liệu ................................................................ 4
1.1.1 Khái niệm ................................................................... 4
1.1.2 Quy trình khai phá dữ liệu.......................................... 4
Bài toán khai phá quan điểm trên mạng truyền thông ...... 5
1.2.1 Khái quát khai phá quan điểm .................................... 5
1.2.2 Khai phá quan điểm với mạng truyền thông .............. 5
Khai phá quan điểm sinh viên trên phương tiện truyền
thông xã hội ................................................................................ 6
1.3.1 Giới thiệu bài toán ...................................................... 6
1.3.2 Tình hình nghiên cứu trên thế giới ............................. 6

v
4.1.1 Thu thập dữ liệu ....................................................... 22
4.1.2 Tiền xử lý dữ liệu ..................................................... 22
4.1.3 Lựa chọn tập nhãn và gán nhãn dữ liệu.................... 23
4.1.4 Một số thống kê về bộ dữ liệu .................................. 24
Các công cụ phân tích được sử dụng trong luận văn ...... 24
4.2.1 MEKA ...................................................................... 24
4.2.2 vnTokenizer .............................................................. 25
Thiết lập thực nghiệm ..................................................... 25
4.3.1 Chuyển đổi dữ liệu ................................................... 25
4.3.2 Chia tách dữ liệu cho mục đích tập huấn và thử
nghiệm .................................................................................. 26
4.3.3 Các độ đo đánh giá thực nghiệm .............................. 26
Huấn luyện mô hình và kiểm tra ..................................... 27
4.4.1 Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân
lớp
27
4.4.2 Thực nghiệm với Binary Relevance ......................... 27
4.4.3 Thực nghiệm với Label Combination ...................... 27
Kết quả thực nghiệm ....................................................... 28
4.5.1 Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân
lớp
28
4.5.2 Thực nghiệm với Binary Relevance ......................... 28
4.5.3 Thực nghiệm với Label Combination ...................... 29

vi

Label Combination

BP-MLL

Backpropagation for Multi-Label Learning

viii

DANH MỤC CÁC BẢNG
Bảng 1.1. So sánh phân lớp đa lớp và phân lớp đa nhãn ................ 6
Bảng 2.1. Mẫu bộ dữ liệu đa nhãn ................................................ 10
Bảng 2.2. Dữ liệu được chuyển đổi bẳng phương pháp Select
Transformation ............................................................................. 11
Bảng 2.3. Dữ liệu được chuyển đổi bẳng phương pháp Ignore
Transformation ............................................................................. 12
Bảng 2.4. So sánh kết quả đầu ra của AdaBoost.MH và
AdaBoost.MR ............................................................................... 13
Bảng 3.1 Thông số phần cứng môi trường thực nghiệm .............. 21

22

Chương 4: Kết quả thực nghiệm
Trong chương này, luận văn trình bày nội dung liên quan tới
thực nghiệm phân tích các ý kiến phản hồi của sinh viên dưới
dạng ngôn ngữ tự nhiên bằng các phương pháp học máy và khai
phá dữ liệu. Để tiến hành thực nghiệm, đầu tiên chúng tôi tiến
hành xây dựng một bộ dữ liệu cho tiếng Việt từ diễn đàn của sinh
viên Đại học BK Hà Nội. Sau đó, chúng tôi tiến hành bóc tách,

Từ dừng (stop-words) là các từ mà tần suất xuất hiện quá
nhiều trong các câu văn bản của toàn tập kết quả, thường thì
không giúp ích gì trong việc phân biệt nội dung của các tài liệu
văn bản. Ví dụ, những từ “và”, “hoặc”, “cũng”, “là”, “mỗi”, “bởi”,
… [21].
4.1.3 Lựa chọn tập nhãn và gán nhãn dữ liệu
4.1.3.1 Lựa chọn tập nhãn
Chúng tôi chia các dữ liệu 7 chủ đề chính như sau: áp lực
thi cử học hành, học ngoại ngữ, nguồn tài liệu tham khảo, tâm lí
tình cảm, cảm xúc tiêu cực, định hướng nghề nghiệp và loại khác.
4.1.3.2 Gán nhãn dữ liệu
Với bộ dữ liệu 1834 bài đăng trên diễn đàn SVBK đã thu
thập và tiền xử lý ở các bước trên, chúng tôi gồm hai người nghiên
cứu A và B tiến hành gán nhãn lần lượt 500 mẫu ngẫu nhiên từ bộ
dữ liệu này vào 7 nhãn trên

Hình 4.2: Cấu trúc tệp tin CSV chứa dữ liệu đã gán nhãn

24
4.1.3.3 Độ đo Inter-rater agreement
Độ đo F1 giữa hai người nghiên cứu A, B là F1AB= 0.82.
Với 500 dữ liệu ngẫu nhiên, chúng tôi thu lại được 420 dữ liệu có
sự giao thoa đồng thuận về tập đã gán, nếu không đạt được điều
kiện này các dữ liệu sẽ bị loại bỏ khỏi tập dữ liệu của nghiên cứu.
4.1.4 Một số thống kê về bộ dữ liệu
Từ bộ dữ liệu đã được gán nhãn, số lượng mẫu dữ liệu của
mỗi nhãn được thể hiện như ở Hình 4.3 bên dưới. Các thống kê
của các loại gồm: Loại khác (462), Nguồn tài liệu tham khảo
(353), Tâm lí tình cảm (293), Học ngoại ngữ (231), Định hướng

HÀNH

NGUỒN
TÀI LIỆU
THAM
KHẢO

TÂM LÍ
TÌNH
CẢM

LOẠI
KHÁC

Hình 4.3: Biểu đồ thống kê các nhãn trong bộ dữ liệu
Các công cụ phân tích được sử dụng trong luận văn
4.2.1 MEKA
MEKA là một công cụ học máy mã nguồn mở, dựa trên nền
công cụ WEKA của trường đại học Waikato, NewZeland. MEKA
cung cấp các tính năng huấn luyện và đánh giá mô hình của phân
lớp đa nhãn (là các tính năng mà WEKA thiếu).

25

Hình 4.4: Giao diện công cụ MEKA
4.2.2 vnTokenizer
vnTokenizer là công cụ chuyên dùng để tách từ và gán nhãn
từ loại cho tiếng Việt, được phát triển bởi tác giả Lê Hồng
Phương. vnTokenizer có thể sử dụng với cả giao diện dòng lệnh

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên - Pdf 41

Tài liệu, ebook tham khảo khác

Học thêm