luận văn thạc sĩ phát triển các mô hình dựa trên mạng nơ ron cho phân tích quan điểm theo khía cạnh - Pdf 66

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———————

PHẠM ĐỨC HỒNG

PHÁT TRIỂN CÁC MÔ HÌNH DỰA TRÊN MẠNG NƠ-RON CHO

PHÂN TÍCH QUAN ĐIỂM THEO KHÍA CẠNH

LUẬN ÁN TIẾN SĨ NGÀNH KHOA HỌC MÁY TÍNH

Hà Nội - 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———————

PHẠM ĐỨC HỒNG

PHÁT TRIỂN CÁC MÔ HÌNH DỰA TRÊN MẠNG NƠ-RON CHO

PHÂN TÍCH QUAN ĐIỂM THEO KHÍA CẠNH

Chuyên ngành: Khoa học máy tính
Mã số: 9480101.01

LUẬN ÁN TIẾN SĨ NGÀNH KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. Lê Anh Cường

nghệ, Đại học Quốc gia Hà Nội đã giúp đỡ tôi hoàn thành các kế hoạch và thủ tục
hành chính trong thời gian làm nghiên cứu sinh. Tôi cũng muốn cảm ơn đến
anh/chị/em đồng nghiệp, giảng viên khoa Công nghệ Thông tin, Trường Đại học Điện
lực đã luôn cổ vũ động viên và sát cánh bên tôi trong suốt quá trình nghiên cứu.
Cuối cùng, tôi muốn nói lời cảm ơn đặc biệt tới vợ tôi Lê Thị Kim Chung, và con trai
tôi Phạm Công Phúc đã dành cho tôi tình yêu và sự cảm thông, cho phép tôi dành nhiều
thời gian, tập trung cho công việc nghiên cứu. Tôi hết lòng biết ơn bố mẹ tôi về tình yêu
và sự cống hiến to lớn để tôi trưởng thành như ngày hôm nay, cảm ơn các anh, chị, em
của tôi về tình yêu gia đình và sự quan tâm giúp đỡ của họ cho công việc này.


LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là kết quả nghiên cứu của tôi, được thực
hiện dưới sự hướng dẫn của PGS.TS. Lê Anh Cường. Các nội dung trích dẫn
từ các nghiên cứu của các tác giả khác mà tôi trình bày trong luận án này đã
được ghi rõ nguồn trong phần tài liệu tham khảo.

Phạm Đức Hồng

ii


Mục lục
Lời cảm ơn
Lời cam đoan

i
ii

Mục lục


1.2.1

Tổng quan một hệ thống phân tích quan điểm . . . . . . . . . .

6

1.2.2

Phân tích quan điểm cho toàn bộ văn bản . . . . . . . . . . . .

8

1.2.3

Phân tích quan điểm theo khía cạnh . . . . . . . . . . . . . . .

8

1.2.4

Các bài toán trong phân tích quan điểm theo khía cạnh . . . . .

8

1.3 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . .

10

1.3.1

Xác định hạng và trọng số khía cạnh ẩn . . . . . . . . . . . . .

12
13

1.4 Các tiếp cận giải quyết bài toán . . . . . . . . . . . . . . . . . . . . . .

14

1.5 Nghiên cứu trên thế giới và Việt nam . . . . . . . . . . . . . . . . . . .

15

1.6 Thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16

2 Kiến thức cơ sở

18

2.1 Các ký hiệu và khái niệm liên quan . . . . . . . . . . . . . . . . . . . .

18

2.2 Các mô hình học máy cơ sở cho phân tích quan điểm theo khía cạnh . . 21
2.2.1

Mô hình hồi quy đánh giá ẩn . . . . . . . . . . . . . . . . . . .



30

2.3.5

Mô hình véc-tơ kết hợp . . . . . . . . . . . . . . . . . . . . . .

33

2.4 Kết luận và thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

3 Đề xuất mô hình dựa trên mạng nơ-ron xác định hạng và trọng số khía cạnh
của thực thể
3.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35
35

3.2 Mô hình hóa bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

3.2.1

Bài toán xác định hạng và trọng số khía cạnh ẩn của thực thể . . 36

3.2.2



Các độ đo . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

3.4.2

Cài đặt mô hình . . . . . . . . . . . . . . . . . . . . . . . . . .

58

3.4.3

Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . .

59

3.4.4

Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

3.4.5

Hiệu quả của các tham số trong mô hình LRNN-ASR . . . . . . 63

3.5 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh



72

4.3.2

Mô hình học véc-tơ biểu diễn từ SSCWE . . . . . . . . . . . .

77

4.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

82

4.4.1

Dữ liệu thực nghiệm và các độ đo . . . . . . . . . . . . . . . .

82

4.4.2

Các độ đo . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

82

4.5 Cài đặt và đánh giá mô hình tinh chỉnh véc-tơ từ WEFT . . . . . . . . . 83
4.5.1

Cài đặt mô hình . . . . . . . . . . . . . . . . . . . . . . . . . .


4.7 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

v

90


5 Mô hình đa kênh dựa trên CNN nhằm khai thác đa véc-tơ biểu diễn từ và
ký tự cho phân tích quan điểm theo khía cạnh
91
5.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
5.2 Mô tả bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

93

5.3 Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . .

94

5.3.1

Thành phần tích chập . . . . . . . . . . . . . . . . . . . . . . .

5.3.2

Mô hình mạng nơ-ron tích chập đa kênh cho phân tích quan

điểm theo khía cạnh . . . . . . . . . . . . . . . . . . . . . . .
5.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

109

Kết luận

110

Danh mục công trình khoa học của tác giả liên quan đến luận án

112

Tài liệu tham khảo

113

vi


Danh mục các chữ viết tắt
LRNN
LRR
ASR
NNAWs
CNN
MCNN
NLP
POS
SVM

Latent Rating Neural Network (Mạng nơ-ron đánh giá ẩn)
Latent Rating Regression (Hồi quy đánh giá ẩn)


62
63

3.9 Các kết quả thực nghiệm trên các trường hợp khởi tạo trọng số khía cạnh

64

3.10 Kết quả thực nghiệm mô hình đề xuất sử dụng trọng số khía cạnh chung
so với sử dụng riêng . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1 Thống kê tập dữ liệu thứ 2 . . . . . . . . . . . . . . . . . . . . . . . .

65
82

4.2 Kết quả xác định khía cạnh . . . . . . . . . . . . . . . . . . . . . . . .

84

4.3 Kết quả phân loại quan điểm theo khía cạnh . . . . . . . . . . . . . . .

84

4.4 Bốn từ gần ngữ nghĩa với từ đã cho đối với từng mô hình . . . . . . . . 85
4.5 Các kết quả xác định khía cạnh . . . . . . . . . . . . . . . . . . . . . .

87

4.6 Các kết quả phân loại quan điểm . . . . . . . . . . . . . . . . . . . . .


5.11 Kết quả phân loại quan điểm của mô hình MCNN khi sử dụng số lượng
bộ lọc khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

ix

108


Danh sách hình vẽ
1.1 Kiến trúc tổng quan của hệ thống phân tích quan điểm . . . . . . . . . .
2.1 Ví dụ một ý kiến khách hàng thể hiện quan điểm về dịch vụ khách sạn

7

Vinpearl Phu Quoc Resort . . . . . . . . . . . . . . . . . . . . . . . .
19
2.2 Ví dụ về Hạng chung của sản phẩm iPhone X 64GB . . . . . . . . . . . 20
2.3 Mô hình hồi quy đánh giá khía cạnh ẩn [1] . . . . . . . . . . . . . . . .

22

2.4 Mô hình Word2Vec với hai kiến trúc CBOW và Skip-gram . . . . . . . 25
2.5 Mô hình véc-tơ Paragraph học biểu diễn câu, đoạn hoặc cả văn bản [2] . 28
2.6 Minh họa mô hình túi từ phân phối của các véc-tơ Paragraph [2] . . . . 29
2.7 Minh họa tích chập trong ma trận câu . . . . . . . . . . . . . . . . . .

31

2.8 Minh họa mô hình phân lớp câu sử dụng mạng CNN [3] . . . . . . . . . 32
2.9 Minh họa việc sử dung mô hình véc-tơ kết hợp cho biểu diễn mức câu . 34

3.13 Kết quả xác định trọng số khía cạnh chung của dịch vụ khách sạn . . . . 65
4.1 Mô tả đầu vào và đầu ra của của bài toán tính chỉnh véc-tơ biểu diễn từ . 71
4.2 Mô tả đầu vào và đầu ra của của bài toán học véc-tơ biểu diễn từ . . . . 72
4.3 Minh họa mô hình tinh chỉnh véc-tơ biểu diễn từ WEFT . . . . . . . . . 73
4.4 Minh họa thành phần nhúng ngữ nghĩa của véc-tơ biểu diễn từ sử dụng
mô hình CBOW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
4.5 Minh họa thành phần nhúng thông khía cạnh và quan điểm theo khía cạnh 79
4.6 Hiệu quả của số chiều véc-tơ từ trong công việc dự đoán quan điểm khía
cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
5.1 Mô tả đầu vào, đầu ra của công việc khai thác đa véc-tơ biểu diễn từ,
biểu diễn ký tự cho phân tích quan điểm theo khía cạnh . . . . . . . . . 93
5.2 Minh họa thành phần tích chập . . . . . . . . . . . . . . . . . . . . . .
94
5.3 Mô hình mạng nơ-ron tích chập đa kênh MCNN cho công việc xác định
khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
5.4 Minh họa mô hình lai CNN1 + CNN2 + CNN3 cho công việc xác định
khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
102
5.5 Hiệu quả của mô hình MCNN với các kích cỡ mini-batching từ 10 đến
100 ....................................108

xi


Mở đầu
1. Tính cấp thiết của luận án
Dữ liệu đánh giá về các sản phẩm, dịch vụ và sự kiện xã hội trên các hệ thống tin tức

Đề tài của luận án có nhiệm vụ giải quyết các vấn đề đang đặt ra trong bài toán phân
tích quan điểm theo khía cạnh. Chúng tôi tập trung vào bài toán phân tích quan điểm
theo khía cạnh dựa trên việc phát triển các mô hình học sâu nhằm đồng thời giải quyết
1


bài toán học biểu diễn (representation learning) và bài toán phân loại (classification).

2. Mục tiêu nghiên cứu của luận án
Mục tiêu của luận án là nghiên cứu các kỹ thuật, mô hình học biểu diễn cho
mức từ, mức câu, và mức văn bản. Đề xuất các mô hình mới và cải tiến các mô
hình học biểu diễn hiện có nhằm giải quyết các bài toán phân tích quan điểm
theo khía cạnh. Hướng đến giải quyết hai bài toán chính: (1) Bài toán xếp hạng
và xác định trọng số khía cạnh của thực thể (sản phẩm/dịch vụ); (2) Bài toán xây
dựng các mô hình phân tích quan điểm theo khía cạnh nhằm xác định khía cạnh
cho từng câu đầu vào và phân loại quan điểm theo khía cạnh tương ứng cho nó.

3. Phạm vi và phương pháp nghiên cứu của luận án
Phạm vi nghiên cứu bao gồm:
Nghiên cứu, đề xuất các mô hình xếp hạng và xác định trọng số khía cạnh của
thực thể, tích hợp biểu diễn đa tầng ngữ nghĩa từ mức từ đến mức câu, mức
đoạn, mức khía cạnh đến mức cuối là tổng hợp quan điểm toàn bộ văn bản.

Nghiên cứu, đề xuất các mô hình học biểu diễn mức từ cho phân tích
quan điểm theo khía cạnh. Các véc-tơ từ đạt được từ các mô hình đề
xuất được đánh giá hiệu quả thông qua hai bài toán: xác định khía cạnh
và phân loại quan điểm theo khía cạnh.
Nghiên cứu, đề xuất mô hình phân tích quan điểm theo khía cạnh tích
hợp thông tin từ nhiều nguồn khác nhau. Cụ thể khai thác đồng thời đa
véc-tơ biểu diễn từ và véc-tơ biểu diễn ký tự.

Bên cạnh các đóng góp chính, chúng tôi còn đề xuất mô hình mạng nơ-ron một lớp ẩn,
sử dụng các biểu diễn khía cạnh được học từ mô hình Pragraph cho bài toán xác định
hạng, trọng số khía cạnh ẩn. Đề xuất này đã được công bố trong kỷ yếu hội nghị quốc tế
Computational Social Network (CSoNet) năm 2016. Đồng thời, để khai thác thông tin
chung về mức độ quan trọng của các khía cạnh thực thể cho các nhà quản lý sản
phẩm/dịch vụ, chúng tôi đề xuất mô hình xác định trọng số khía cạnh chung. Kết quả đã
được công bố trong tạp chí Indian Journal of Science and Technology năm 2016.

5. Bố cục của luận án
Ngoài phần mở đầu và kết luận, luận án được tổ chức thành 5 chương
phù hợp với các công bố liên quan của luận án, với bố cục như sau:
Chương 1. Giới thiệu tổng quan về các vấn đề nghiên cứu trong luận án.
Luận án phân tích, đánh giá chung các công trình nghiên cứu liên quan;
nêu ra một số vấn đề còn tồn tại mà luận án sẽ tập trung giải quyết.

Chương 2. Trình bày các ký hiệu và khái niệm liên quan, các mô hình
học máy cơ sở được sử dụng trong công việc đánh giá khía cạnh của
thực thể. Một số mô hình học biểu diễn cơ sở cho mức từ, mức câu và
mức đoạn/văn bản cũng sẽ được trình bày.
Chương 3. Trình bày nội dung, kết quả nghiên cứu hai mô hình xác
định hạng và trọng số khía cạnh ẩn của thực thể. Bên cạnh đó, mô hình
xác định trọng số khía cạnh chung cũng sẽ được trình bày.
3


Chương 4. Trình bày nội dung, kết quả nghiên cứu hai mô hình học
véc-tơ từ cho phân tích quan điểm theo khía cạnh.
Chương 5. Trình bày nội dung, kết quả nghiên cứu mô hình tích hợp
nhiều nguồn thông tin và ứng dụng trong khai thác đa véc-tơ biểu diễn
từ và véc-tơ biểu diễn ký tự cho phân tích quan điểm theo khía cạnh.

Thông tin quan điểm đối với một thực thể cụ thể có vai trò rất quan trọng, bởi khi
5


chúng ta cần đưa ra một quyết định liên quan tới một thực thể nào đó, chúng ta thường
quan tâm tới ý kiến của người khác đối với thực thể đó, theo dạng như “ Những người
khác đã nghĩ và đánh giá về thực thể đó như thế nào?”. Ví dụ khi chúng ta muốn mua
một chiếc điện thoại iPhone X 64GB chúng ta sẽ muốn tìm hiểu hoặc hỏi bạn bè và
người thân “Điện thoại iPhone X 64GB có tốt không? Hệ điều hành IOS của iPhone thế
nào? Camera quay video và chụp ảnh có đẹp không?..v.v”. Như vậy quan điểm của
người khác giúp các cá nhân có thêm thông tin trước khi quyết định một vấn đề. Ngoài ra
khi biết được thông tin quan điểm đối với một sản phẩm, dịch vụ từ các khách hàng thì rõ
ràng nó giúp mang lại các thông tin hữu ích cho các công ty, tổ chức thay đổi hoặc cải
tiến dòng sản phẩm, dịch vụ của mình. Bên cạnh đó thông tin quan điểm phân tích được
trên một cộng đồng dân chúng còn giúp các chính quyền nắm được hiểu quả của các
chính sách khi áp dụng trong xã hội.

1.2 Các bài toán trong phân tích quan điểm
1.2.1 Tổng quan một hệ thống phân tích quan điểm
Ngày nay đã có nhiều hệ thống phân tích quan điểm làm việc với những miền dữ
1

liệu khác nhau, như hệ thống Smcc của công ty InfoRe làm việc trên miền dữ liệu
2

sản phẩm điện thoại di động, hệ thống Vsocial của công ty Tecapro làm việc trên
miền dữ liệu ngân hàng. Nhìn chung, mô hình biểu diễn kiến trúc chung của một hệ
thống khai phá và phân tích quan điểm được thể hiện như trong Hình 1.1. Xuất phát
từ nguồn dữ liệu đánh giá thực thể của người sử dụng trên các hệ thống như
3


Hình 1.1: Kiến trúc tổng quan của hệ thống phân tích quan điểm
Thu thập (crawler)
Tiền xử lý (pre-processing)
Trích chọn đặc trưng (feature extraction, data
representation) Học máy (machine learning)
Thu thập: Là thành phần tự động lấy dữ liệu đánh giá của người dùng từ
các hệ thống trực tuyến (Web).
Tiền xử lý: Thành phần này có nhiệm vụ xử lý dữ liệu, gồm các công việc
như: loại bỏ từ dừng, chuẩn hóa các từ và dấu cách, tách từ. etc.
Trích chọn đặc trưng: Sử dụng kỹ thuật biểu diễn văn bản (ví dụ mô hình
bag of word) để biểu diễn các văn bản đầu vào thành các véc-tơ đặc trưng.
Học máy: Gồm có hai pha: huấn luyện, và dự đoán. Pha huấn luyện sử dụng tập dữ
liệu huấn luyện làm đầu vào và có nhiệm vụ học một mô hình dự đoán. Pha dự đoán có
nhiệm vụ tính toán để phân loại quan điểm cho các véc-tơ biểu diễn văn bản từ đầu vào.

7


1.2.2 Phân tích quan điểm cho toàn bộ văn bản
Phân tích quan điểm cho toàn bộ văn bản là bài toán cơ bản nhất trong phân tích
quan điểm. Cũng giống bài toán phân lớp văn bản thông thường. Cho trước một tập
các văn bản đánh giá sản phẩm, đối với từng văn bản đầu vào, bài toán yêu cầu tính
điểm (phân loại) quan điểm chung cho nó. Dựa trên điểm quan điểm đã đạt được,
từng văn bản sau đó được gán các nhãn quan điểm hoặc các hạng tương ứng. Các
nhãn có thể được gán như nhãn tích cực (Positive) hoặc tiêu cực (Negative) hoặc
trung lập. Trong trường hợp cần xếp hạng quan điểm cho văn bản thì hạng được
gán cho văn bản là “1 sao” (có nghĩa là rất tiêu cực) hoặc “2 sao” (tiêu cực mức trung
bình) hoặc “3 sao” (trung lập) hoặc “4 sao” (tích cực) hoặc “5 sao” (rất tích cực).


vào trong các khía cạnh tương ứng.
(2) Xác định khía cạnh: Cho trước một tập nhãn khía cạnh của một thực
thể, đối với một câu văn bản đánh giá chưa được gán nhãn, chúng ta
cần dự đoán nhãn khía cạnh thích hợp cho nó.
(3) Phân loại quan điểm theo khía cạnh: Tương ứng với tập nhãn khía cạnh
của một thực thể đã được xác định trước, cho trước một tập nhãn quan
điểm (ví dụ bao gồm các nhãn: tích cực (positive), trung lập (neutral), tiêu
cực (negative)), đối với một câu đầu vào đã được gán nhãn khía cạnh, bài
toán cần dự đoán nhãn quan điểm tương ứng cho nó.
(4) Phân đoạn khía cạnh: Cho trước một tập văn bản đánh giá của một tập
thực thể (một số thực thể hay một tập thực thể trong luận án này được hiểu
là các dòng sản phẩm/dịch vụ cùng loại), yêu cầu xác định các đoạn văn
bản đề cập tương ứng tới các khía cạnh của thực trong từng văn bản.
(5) Xếp hạng khía cạnh: Xếp hạng khía cạnh là công việc định hướng ước
lượng đánh giá qua điểm theo khía cạnh của thực thể, giá trị ước lượng
quan điểm theo khía cạnh thường theo các giá trị từ 1 đến 5. Bài toán cho
trước một tập văn bản đánh giá của một tập thực thể (ví dụ thực thể khách
sạn) bao gồm các quan điểm về sản phẩm này và các khía cạnh của nó.
Yêu cầu xếp hạng hay tính điểm theo mức độ đánh giá quan điểm từ 1 đến
5 của từng khía cạnh đã được người dùng thảo luận trong mỗi văn bản.
(6) Xác định hạng và trọng số khía cạnh ẩn: Cho trước một tập văn bản đánh giá
của một tập thực thể (ví dụ: tập thực thể sản phẩm khách sạn) bao gồm các quan
điểm về sản phẩm này và các khía cạnh của nó. Từng văn bản đánh giá được gán
một hạng chung, hạng chung này xác nhận quan điểm chung cho cả văn bản. Yêu
cầu xác định hạng và trọng số khía cạnh cho từng thực thể, đây là bài toán giả
thiết hạng khía cạnh và trọng số khía cạnh ẩn, chưa biết và làm thế nào chúng ta
có thể xác định được các hạng cũng như các trọng số khía cạnh đó.

Trong nội dung luận án, chúng tôi giải quyết bài toán (2), (3), và (6). Đối với
bài toán (6), để giải quyết được nó chúng tôi cần thực hiện các công việc liên

là các ứng cử viên của khía cạnh, sau đó các tính tần suất xuất hiện của danh từ và cụm
danh từ, và cuối cùng chỉ những từ có tần xuất hiện cao được giữ lại và coi như là các từ
thuộc các khía cạnh cần xác định. Popescu và cộng sự [11] đã phát triển hệ thống
OPINE, cho phép trích xuất các khía cạnh dựa trên hệ thống web KnowItAll trích xuất
thông tin của Etzioni và các cộng sự [12]. Mei và các cộng sự [13] sử dụng một mô hình
chủ đề xác suất để thu thập các khía cạnh và quan điểm. Wu và cộng sự [14] đã sử dụng
một bộ phân tích cú pháp phụ thuộc vào cụm từ để trích xuất các cụm danh từ các ý kiến
đánh giá và cói chúng như là các ứng cử viên của khía cạnh. Sau đó họ sử dụng mô
hình ngôn ngữ để lọc ra các từ khía cạnh. Luo và các cộng sự [15] xây dựng một hệ
thống thực hiện thông qua ba giai đoạn: (1) thiết kế tập luật cú pháp để trích xuất các từ
là ứng cử viên thể hiện khía cạnh; (2) sử dụng một mạng từ (WordNet) để xác định các
từ thể hiện khía cạnh nhưng đồng nghĩa, và thu thập chúng thành những tập từ riêng
biệt. (3) xếp hạng các từ và trích chọn những từ có điểm xếp hạng cao. Dragoni và cộng
10


sự [16] sử dụng một tập chiến lược không giám sát để khai thác quan điểm
và một công cụ giám sát người sử dụng trong trực quan hóa dữ liệu.

1.3.2 Xác định khía cạnh
Bài toán xác định khía cạnh yêu cầu xác định khía cạnh cho từng câu trong một ý
kiến đánh giá, nó giống với bài toán phân loại văn bản mức câu thông thường. Ganu
và cộng sự [17] đã sử dụng trực tiếp bộ phân loại SVM để huấn luyện bộ phân loại
trên các ý kiến đánh giá trên miền dữ liệu “Restaurant”. Kiritchenko và cộng sự [18]
đã áp dụng một thuật toán tương tự nhưng đã khai thác một bộ từ điển gồm các liên
kết giữa từ và khía cạnh để cải thiện kết quả dự đoán khía cạnh cho từng câu. Hệ
thống của họ đạt được thứ hạng cao nhất trong cuộc thi xác định khía cạnh của hội
nghị SemEval năm 2014. McAuley và cộng sự [19] đã đề xuất một mô hình phân biệt
để dự đoán khía cạnh sản phẩm. Họ sử dụng hai loại tham số để mã hóa từ kết hợp.
Trong đó, một loại học các từ được kết hợp với từng khía cạnh. Một loại học các từ

1.3.4 Phân loại quan điểm theo khía cạnh
Sau công việc xác định khía cạnh là công việc phân loại quan điểm theo khía cạnh.
Hai tiếp cập chính cho phân loại quan điểm theo khía cạnh là dựa trên từ điển và các tiếp
cập học giám sát. Các phương pháp dựa trên từ điển là loại không giám sát. Họ sử dụng
một bộ từ điển gồm một danh sách các từ thể hiện quan điểm là tích cực và tiêu cực. Để
xây dựng được một bộ từ điển chất lượng cao, kỹ thuật bootstrapping thường được áp
dụng. Minqing và cộng sự [10] ban đầu sử dụng một danh sách các từ hạt nhân cho từng
lớp quan điểm. Rồi họ sử dụng các mối quan hệ từ đồng nghĩa hoặc antonym được định
nghĩa trong WordNet để mở rộng các tập từ hạt nhân, cuối cùng thu được một bộ từ
vựng. Ding và các cộng sự [27] đã đề xuất phương pháp dựa trên từ điển tổng quát để
cải tiến phương pháp trong [10] bằng cách giải quyết hai vấn đề: quan điểm của các từ
thể hiện quan điểm sẽ nhạy cảm với nội dung và xung đột trong ý kiến đánh giá. Họ bắt
nguồn từ một bộ từ điển bằng cách khai thác các khó khăn. Ngược lại, các phương pháp
học giám sát phân loại quan điểm trên các khía cạnh được thực hiện bằng cách học một
bộ phân lớp từ tập dữ liệu cho trước. Một số mô hình truyền thống học giám sát đã được
áp dụng, như Support Vector Machine (SVM), Naive Bayes, Maximum Entropy.
Bên cạnh các phương pháp truyền thống, nhiều nghiên cứu gần đầy sử dụng các
phương pháp học sâu, hiện đại hơn, có thể tự động trích xuất đặc trưng và biểu diễn dữ
liệu ở mức giàu thông tin ngữ nghĩa nhất. Xu [28] đề xuất một phương pháp bán giám
sát để trích xuất và sử dụng quan điểm cơ bản của các mẫu không được gán nhãn thông
qua một mô hình học sâu chung. Họ giả thiết rằng khi cho trước một khía cạnh, câu văn
bản sẽ được sinh ra bởi hai biến ngẫu nhiên: ngữ cảnh và quan điểm. Đề xuất mô hình
mạng nơ-ron hoạt động dựa trên mạng bộ nhớ ngắn dài (LSTM) [29–31], tuy nhiên chi
phí thời gian huấn luyện cho các mô hình này là rất lớn. Xue và cộng sự [32] đề xuất mô
hình sử dụng cổng tích chập (Gated Convolutional Networks) chất lượng học, dự đoán
của mô hình vẫn đảm bảo, đồng thời giúp cho thời gian huấn luyện được tốt hơn.

1.3.5 Xếp hạng khía cạnh
Nghiên cứu đầu tiên về xếp hạng khía cạnh được nghiên cứu bởi Snyder và các cộng
sự [33]. Trong nghiên cứu của họ mô hình GG (Good Grief) được đề xuất, gồm một mô


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status