Mở rộng VietSentiWordNet dựa trên mô hình học bán giám sát SVMlight và áp dụng vào bài toán khai phá quan điểm - Pdf 22

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lưu Công Tố

MỞ RỘNG VIETSENTIWORDNET DỰA TRÊN
MÔ HÌNH HỌC BÁN GIÁM SÁT SVM
light
VÀ ÁP DỤNG
VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ thông tin

Hà Nội – 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lưu Công Tố

“Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn cũng
nhƣ thu thập và xử lý dữ liệu để hoàn thành tốt khóa luận. Xin cảm ơn sự hỗ trợ từ đề
tài QG 10.38 trong suốt quá trình tôi làm khóa luận.
Tôi cũng xin gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã
ủng hộ, khuyến khích tôi trong suốt quá trình học tập tại trƣờng.
Con xin gửi lời cảm ơn tới ông bà, cha mẹ, những ngƣời thân yêu luôn động
viên, khuyến khích và tạo điều kiện tốt nhất cho con trong suốt cuộc đời.
Cuối cùng, tôi muốn gửi lời cảm ơn bạn bè luôn bên cạnh và động viên tôi
trong suốt quá trình học tập và thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn! Sinh viên
Lưu Công Tố
Tóm tắt
Ngày nay, thƣơng mại điện tử đã trở nên phổ biến đối với mọi ngƣời. Cùng với
nó là sự ra đời của các trang web bán hàng trực tuyến, cho phép khách hàng đánh giá
sản phẩm. Số lƣợng đánh giá về một sản phẩm mà chúng ta nhận đƣợc ngày càng tăng.
Điều này gây khó khăn cho khách hàng tiềm năng trong việc quyết định có nên mua
sản phẩm hay không, và cản trở nhà sản xuất trong việc theo dõi các ý kiến của khách
hàng. Mặc dù một số chƣơng trình đã đáp ứng một phần nhu cầu khai phá quan điểm
của khách hàng thông qua các đánh giá, song nâng cao chất lƣợng tổng kết đánh giá
luôn là vấn đề cần đƣợc quan tâm. Kho ngữ liệu có trọng số SentiWordNet là nguồn
tài nguyên quan trọng góp phần vào việc giải quyết bài toán khai phá quan điểm này.
Khóa luận khảo sát các phƣơng pháp xây dựng SentiWordNet, đặc biệt là
phƣơng pháp xây dựng SentiWordNet 3.0 [6]. Từ đó, khóa luận đề xuất một mô hình
mở rộng VietSentiWordNet cho miền dữ liệu tiếng Việt [1], và áp dụng kho ngữ liệu

1.1 Giới thiệu 3
1.2 Các khái niệm dùng trong khai phá quan điểm: 3
1.3 Các bài toán trong khai phá quan điểm 4
1.4 Bài toán khai phá quan điểm khách hàng từ các đánh giá tiếng Việt trên miền
sản phẩm “điện thoại di động”. 5
1.5 Tóm tắt chƣơng 1. 5
Các phương pháp xây dựng SentiWordNet. 6 Chương 2:
2.1 Giới thiệu về kho ngữ liệu WordNet. 6
2.2 Giới thiệu về kho ngữ liệu Sentiwordnet. 6
2.2.1 Các khái niệm sử dụng trong SentiWordNet 6
2.2.2 Các phiên bản SentiWordNet 7
2.3 Phƣơng pháp xây dựng SentiWordNet 3.0 8
2.3.1 Bƣớc 1: Học bán giám sát 8
2.3.2 Bƣớc 2: Bƣớc biến đổi ngẫu nhiên 11
2.4 Xây dựng SentiWordNet cho tiếng Ấn Độ. 12
2.4.1 Xây dựng tập từ điển nguồn. 13
2.4.2 Tiếp cận theo hƣớng từ điển song ngữ 14
2.4.3 Tiếp cận trên cơ sở WordNet 14
2.4.4 Tiếp cận dựa trên tập văn bản 14
2.4.5 Đánh giá từ điển 15
2.5 Các nghiên cứu liên quan 15
2.6 Tóm tắt chƣơng 2. 15

ii

Mở rộng VietSentiWordNet và áp dụng vào bài toán khai phá quan
Chương 3:
điểm. 16
3.1 Mở rộng VietSentiWordNet sử dụng học máy bán giám sát SVM
light

Danh sách các bảng
Ví dụ về thành phần trong SentiWordNet 3.0 7 Bảng 1.
Top 10 synset tích cực và 10 synset tiêu cực trong SentiWordNet 3.0 12 Bảng 2.
SentiWordNet tiếng Anh và danh sách các từ chủ quan 14 Bảng 3.
Phân loại chủ đề sử dụng Bengali SentiWordNet 15 Bảng 4.
Kết quả phân lớp của bộ từ HM 17 Bảng 5.
Một số phần mềm sử dụng 28 Bảng 6.
Tổng số dữ liệu thực nghiệm 30 Bảng 8.
Kết quả bƣớc tính trọng số bộ từ quan điểm 31 Bảng 9.
Kết quả trọng số tích cực/tiêu cực của từng sản phẩm 31
Bảng 10.
Độ chính xác bƣớc đánh giá tổng hợp 32 Bảng 11.
Độ chính xác bƣớc tổng hợp với VietSentiWordNet ban đầu 33 Bảng 12.
iv

Danh sách các hình vẽ
Hình 1. Cấu trúc trong file SentiWordNet 3.0.txt 7
Hình 2. Mô hình phƣơng pháp xây dựng SentiWordNet 3.0 8
Hình 3. Mô hình bƣớc 1: học bán giám sát 8
Hình 4. Mô hình xây dựng tập từ điển nguồn 13
Hình 5. Mô hình phƣơng pháp mở rộng VietSentiWordNet 18
Hình 6. Mô hình bƣớc 1: khởi tạo và mở rộng tập mồi 19
Hình 7. Mô hình bƣớc 2: đào tạo các bộ phân lớp 20
Hình 8. Mô hình bƣớc 3: phân lớp tập từ quan điểm 22
Hình 9. Mô hình đề xuất khai phá quan điểm khách hàng 24
Hình 10. Biểu diễn trực quan kết quả tổng hợp với từng sản phẩm 32

bản của bài toán khai phá quan điểm khách hàng dựa trên đánh giá sản phẩm.
Chương 2: Các phương pháp xây dựng SentiWordNet tập trung trình bày
phƣơng pháp xây dựng kho ngữ liệu SentiWordNet 3.0. Bên cạnh đó, chƣơng này
cũng trình bày phƣơng pháp xây dựng SentiWordNet cho tiếng Ấn Độ. Mỗi phƣơng
pháp đều yêu cầu nguồn tài nguyên khác nhau. Đây là cơ sở để đƣa ra mô hình phù
hợp với việc mở rộng VietSentiWordNet trong chƣơng 3.
Chương 3: Mở rộng VietSentiWordNet và áp dụng vào bài toán khai phá
quan điểm trình bày mô hình mở rộng VietSentiWordNet dựa trên phƣơng pháp học
bán giám sát SVM. Đồng thời, chƣơng 3 đƣa ra giải pháp áp dụng VietSentiWordNet
vào bài toán khai phá quan điểm khách hàng dựa trên đánh giá sản phẩm.

2

Chương 4: Thực nghiệm trình bày các kết quả trong quá trình thực nghiệm các
thành phần của mô hình do khóa luận đề xuất. Từ các kết quả đạt đƣợc, tiến hành đánh
giá hiệu quả của mô hình.
Phần kết luận tóm lƣợc các kết quả đạt đƣợc, và nêu rõ đóng góp của khóa
luận, đồng thời, một số nghiên cứu trong thời gian sắp tới cũng đƣợc định hƣớng. 3

Khái quát về khai phá quan điểm Chương 1:
Để hiểu và giải quyết đƣợc bài toán khai phá quan điểm, đòi hỏi chúng ta cần
phải nắm vững đƣợc các khái niệm của bài toán khai phá quan điểm. Vì thế, trong
chƣơng này, khóa luận giới thiệu các vấn đề liên quan tới khai phá quan điểm
1.1 Giới thiệu
Thông tin văn bản có thể đƣợc chia ra thành hai loại chính: s kin và quan
m. S kin là những thể hiện khách quan về những đối tƣợng, sự kiện hay các thuộc
tính của chúng trong thế giới thực. BingLiu và cộng sự, 2010 [12] quan niệm rằng

thuộc tính: chng pin, kích c pin,…Thuộc tính “chng âm
thanh” có tập các thuộc tính con: chng âm trm, công sut loa.

 Phân loại đặc trƣng: đặc trƣng đƣợc phân làm 2 loại là n và
n. Mỗi một đánh giá r với r = {s
1
, s
2

m
} trong đó s
i
là câu
thứ i trong đánh giá r. Nếu đặc trƣng f xuất hiện trong r, thì f là 
hin Ngƣợc lại, f không xuất hiện trong r thì f là n [12]
o Ví dụ: s =”n tho   c lâu” thì f = ”pin” là đặc
trƣng hiện.
s=”n thoi này to quá” thì f =”kích c” là đặc trƣng ẩn.
 Đoạn đánh giá về một đặc trƣng: là một tập các câu liên tiếp trong r diễn tả
quan điểm về đặc trƣng f, bao gồm ít nhất một câu [12].
 Từ quan điểm: Quan điểm trên một đặc trƣng f bất kỳ là thái độ của khách
hàng đối với đặc trƣng f [12]. Thái độ đó có thể theo hƣớng tích cực, tiêu
cực hay trung lập. Từ thể hiện đƣợc quan điểm của khách hàng đƣợc gọi là
t m.
Ví dụ:
s = “Ni dung phim hay”
Quan điểm của ngƣời dùng trên đặc trƣng nội dung là một quan điểm hƣớng
tích cực, với từ quan điểm “hay”.
 Ngƣời đánh giá (opinion holder): Là ngƣời hay tổ chức cụ thể đƣa ra lời
đánh giá. Với các đánh giá về sản phẩm trên diễn đàn, blogs: ngƣời đánh giá

phân tích đƣợc trọng số tích cực – tiêu cực của từng quan điểm, do đó, cần phải sử
dụng kho ngữ liệu quan điểm có trọng số. Nhƣng do hiện nay kho ngữ liệu
VietSentiWordNet là chƣa hoàn chỉnh, việc xây dựng kho ngữ liệu VietSentiWordNet
là cấp thiết không chỉ cho bài toán khai phá quan điểm mà còn cho các bài toán khác
đòi hỏi kho ngữ liệu tiếng Việt.

1.5 Tóm tắt chương 1.
Bài toán khai phá quan điểm đang có đƣợc nhiều sự quan tâm của các nhà khoa
học Các khai niệm tổng quan về bài toán khai phá quan điểm, các vấn đề trong bài
toán khai phá quan điểm đã đƣợc giới thiệu ở chƣơng này. Kho ngữ liệu
SentiWordNet trợ giúp rất lớn cho quá trình khai phá quan điểm.
Chƣơng tiếp theo sẽ trình bày về kho ngữ liệu SentiWordNet và các phƣơng pháp
xây dựng SentiWordNet. 6

Các phương pháp xây dựng Chương 2:
SentiWordNet.
2.1 Giới thiệu về kho ngữ liệu WordNet.
Bài toán khai phá quan điểm sử dụng nhiều kết quả của xử lý ngôn ngữ tự
nhiên, trong đó, một kho ngữ liệu chuẩn là cần thiết. WordNet là một kho ngữ liệu
tiếng Anh, các từ tiếng Anh đƣợc nhóm thành các bộ từ đồng nghĩa đƣợc gọi là các
synset, cung cấp các định nghĩa chung và ngắn gọn, đồng thời, ghi lại giá trị quan hệ
ngữ nghĩa học giữa các bộ đồng nghĩa. WordNet đƣợc Cognitive Science Laboratory
of Princeton University dƣới sự chỉ đạo của Giáo sƣ George A.Miller tạo ra và duy trì.
Đƣợc phát triển từ năm 1985, đến nay phiên bản mới nhất là 3.0 chứa 155,287 từ đƣợc
tổ chức thành 117,659 synsets, kích cỡ khoảng 12MB. Dữ liệu và bộ công cụ
WordNet có thể tải và sử dụng miễn phí tại trang WordNet tiếng Anh [17].
Theo Virach Sornlertlamvanich, 2010 [16], vào thời điểm 05/12/2010,

PosScore
NegScore
SynsetTerms
Gloss
a
00004615
0
0
shortened#4
cut#3
with parts removed; "the drastically cut
film"
a
00004723
0
0
half-length#2
abridged to half its original length

Phiên bản đầu tiên SentiWordNet 1.0 đƣợc xây dựng từ WordNet 2.0, mỗi
synset đƣợc gán trọng số Obj(s) – độ khách quan, Pos(s) – độ tích cực , Neg(s) – độ
tiêu cực của từ đƣợc chứa trong synset đó. Các nghĩa khác nhau của cùng một từ có
thể có thuộc tính liên quan quan điểm (opinion-related) khác nhau [6].
Ví dụ: trong SentiWordNet 1.0, synset [estimable (J,3)] tƣơng ứng với nghĩa 
      cho tính từ estimable , có điểm Obj(s) là 1.0,
Pos(s)=Neg(s)=0, trong khi synset [estimable (J,1)] tƣơng ứng với nghĩa g
c tôn trng ho  ng nhi thì có Pos(s)=0.75, Neg(s)=0 và Obj(s)
=0.25.
Các trọng số Pos score, Neg score và Obj score đƣợc cho trong khoảng từ 0.0
đến 1.0, tổng ba trọng số này tƣng ứng với một synset là 1.0
Hình 3. c 1: hc bán giám sát
 Bước 1.1: 2 tập mồi nhỏ (một tập chứa các từ tích cực


và một tập chứa
các từ tiêu cực 


) đƣợc tự động mở rộng bằng việc duyệt các mối quan hệ
nhị phân trong WordNet theo quy tắc sau:
Học bán giám sát
Mở rộng
tập mồi
Đào tạo
bộ phân
lớp
Phân lớp
tổng hợp
Phân lớp


(tƣơng tự với 


) tất cả các synset có kết nối tới



(tƣơng tự với 


) dựa vào mối quan hệ đối lập: ví dụ quan hệ
“direct antonymy”, hay nói cách khác, 2 synset là đối lập trong phân cực
PN.
Việc mở rộng này đƣợc biểu diễn bằng một bán kính K, sử dụng bán
kính k có nghĩa là thêm tất cả các synset có khoảng cách k tới các thành viên
của tập mồi ban đầu trong đồ thị quan hệ nhị phân.
 Bước 1.2: 2 tập mồi cuối cùng của bƣớc trên, 


và 


cùng với tập 



đƣợc sử dụng để đào tạo các bộ phân lớp. 



trọng số . Các tác giả sử dụng 2 phƣơng thức tổng hợp khác nhau:
phƣơng thức tổng hợp A và phƣơng thức tổng hợp B để tính toán giá trị cho
kết quả cuối cùng. Phƣơng thức A yêu cầu 
i
trả về giá trị nhị phân, trong
khi, phƣơng thức B yêu cầu giá trị thực. Từ đó, các tác giả sử dụng vector
đặc trƣng theo 2 cách đƣợc 2 phƣơng thức học khác nhau (gọi là 
thc hc A và c hc B).
o c hc A, 
i
sử dụng các phƣơng pháp học máy bán giám
sát khởi tạo bằng bộ phân lớp nhị phân. Với mỗi phƣơng pháp phân
lớp i, tồn tại 2 bộ phân lớp 


và 


, trong đó, 


phải phân tách
đƣợc các từ thuộc về mục tích cc và các từ thuộc về phần còn lại
không tích cc, còn 


phải phân tách đƣợc các từ thuộc về mục tiêu
cc và các từ thuộc về phần còn lại không tiêu cc. Trong pha đào
tạo, các từ trong 



sẽ đƣợc coi là tiêu cc.
Các từ còn lại, đƣợc phân lớp thuộc về không tích cc và (không tiêu
cc ) hoặc thuộc về tích cc và tiêu cc đƣợc coi nhƣ là khách quan.
o c hc B, 
i
đƣợc thu bằng các phƣơng pháp học bán giám
sát khởi tạo bởi các phân lớp n-ary, kết của đƣợc trả về là một số thực
cho lớp   . Trong pha đào tạo, các từ trong 








đƣợc
sử dụng trực tiếp làm ví dụ cho các lớp tích cc, tiêu cc, khách quan
tƣơng ứng.
o Khác nhau cơ bản của phƣơng thức học A và B là c B
phải xem xét đánh dấu theo mục, hoặc khái niệm, trong khi, 
thc A các đối tƣợng đƣợc xem xét nhƣ là trong một mục chƣa đánh
dấu.
o Để đạt độ chính xác cao hơn so với việc chỉ dùng một bộ phân lớp
đơn lẻ , một tập các bộ phân lớp đƣợc tạo ra, mỗi bộ chứa là kết quả
của một kết hợp 2 thành phần: bán kính và phƣơng pháp học máy.
Các tác giả thiết lập tập các bộ phân lớp của họ gồm 8 phần tử, kết
quả của việc chọn bán kính k từ tập {0,2,4,6} và 2 phƣơng pháp học
máy (Rocchio và SVM



 




Trong đó



là hàm đặc thù với 

(ví dụ hàm trả về 1 nếu


đúng và 0 nếu ngƣợc lại). Nếu tất cả 
i
đều đƣợc gán cùng một
nhãn một synset s, thì s có trọng số là 1.0.
 ng hp B, các tác giả sử dụng 
hc A mà trả lại ba giá trị thực, mỗi một phân lớp 

, đầu tiên
sẽ đƣợc gán ba trọng số không nhị phân 



, với tất cả p





 Phƣơng pháp tổng hợp B cho kết quả mịn hơn phƣơng pháp
A, vì phƣơng pháp A chỉ cho kết quả trong tập 






còn phƣơng pháp B cho kết quả là giá trị thực trong đoạn
[0,1].
2.3.2 Bước 2: Bước biến đổi ngẫu nhiên
Bƣớc biến đổi ngẫu nhiên này coi WordNet 3.0 nhƣ là một đồ thị, và chạy lặp
đi lặp lại “bƣớc biến đổi ngẫu nhiên”, trong đó, các giá trị Pos(s) ,Neg(s) và Obj(s) ban
đầu đƣợc xác định ở bƣớc trƣớc, và có thể thay đổi ở mỗi bƣớc lặp. Quá trình này
dừng khi mà kết quả có sự hội tụ.
Đồ thị đƣợc sử dụng ở bƣớc này là một đồ thị đƣợc xác định hoàn toàn trên
WordNet bằng quan hệ nhị phân dạng t      t   nh
nói một cách khác, tồn tại một liên hệ trực tiếp từ synset s
1
tới synset s
2
khi và
chỉ khi s
1
(t  ) xuất hiện ở trong  của s
2

deplorable#a#1 distressing#a#2
lamentable#a#1 pitiful#a#2 sad#a#3
sorry#a#2
3
divine#a#6 elysian#a#2 inspired#a#1
bad#a#10 unfit#a#3 unsound#a#5
4
good enough#a#1
scrimy#a#1
5
solid#a#1
cheapjack#a#1 shoddy#a#1 tawdry#a#2
6
superb#a#2
unfortunate#a#3
7
good#a#3
inauspicious#a#1 unfortunate#a#2
8
goody-goody#a#1
unfortunate#a#1
9
amiable#a#1 good-humored#a#1
goodhumoured#a#1
dispossessed#a#1 homeless#a#2
roofless#a#2
10
gainly#a#1
hapless#a#1 miserable#a#2
misfortunate#a#1 pathetic#a#1

Hình 4. Mô hình xây dng tp t n ngun
Bƣớc tiếp theo, các từ mà có nhãn trong danh sách các từ chủ quan là nh
 và đƣợc gán nhãn “anypos” sẽ đƣợc kiểm tra. Nếu có thể xác định lại bằng
SentiWordNet thì sẽ đƣợc cập nhật vào từ điển, nếu không sẽ đƣợc loại bỏ nhằm tránh
nhập nhằng của bƣớc phát hiện những từ chủ quan.
Một vài từ trong danh sách các từ chủ quan có nhiều biến thể, ví dụ: memories.
Nguyên nhân phát sinh từ quá trình dịch thuật, một vài từ không chứa tính chủ quan
sau khi dịch (ví dụ: memory không chứa tính chủ quan). Một danh sách các từ này
đƣợc tạo, đồng thời, các cụm độc lập của các từ này chia sẻ cùng một mẫu gốc chung.
Nếu nhƣ từ gốc là tồn tại trong SentiWordNet, thì các từ sau khi dịch sẽ mang tính chủ
quan và đƣợc thêm vào danh sách mới, ngƣợc lại sẽ bị loại bỏ. SentiWordNet
Danh sách từ chủ quan
Ghép
Từ điển sau khi ghép, loại bỏ trùng lặp và từ có
trọng số <0.4
Anypos
Không xác định
đƣợc bằng
SentiWordNet
Xác định đƣợc bằng
SentiWordNet
Loại bỏ
Cập nhật vào từ điển

14

SentiWordNet ting Anh và danh sách các t ch quan

Một quá trình dịch theo mức từ giảm thiểu lỗi đƣợc chấp nhận để tạo ra
SentiWordNet cho tiếng Ấn Độ từ t m đề cập ở phẩn trên. Các synset là
chính xác và đáng tin cậy giống nhƣ đƣợc tạo ra từ ngƣời nói tự nhiên. Mỗi ngôn ngữ
có xấp xỉ 9,966 synset. Từ điển song ngữ này đƣợc sử dụng cùng với từ điển cho từng
ngôn ngữ.
2.4.3 Tiếp cận trên cơ sở WordNet
Nhằm tăng số lƣợng synset của SentiWordNet cho tiếng Ấn Độ, phƣơng hƣớng
tiếp cận trên cơ sở từ điển Wordnet tiếng Ấn Độ đƣợc sử dụng. Thuật toán bắt đầu với
các synset của SentiWordNet tiếng Anh, đƣợc mở rộng sử dụng mối quan hệ đồng
nghĩa và trái nghĩa trong WordNet. Với các synset phù hợp, giữ lại chính xác trọng số
trong SentiWordNet tiếng Anh. Việc tính toán các trọng số tích cực và tiêu cực cho bất
kỳ synset trái nghĩa nào đƣợc tính bằng công thức:
T
p
= 1 - S
p
T
n
= 1 - S
n
Trong đó S
p
là trọng số tích cực, S
n
là trọng số tiêu cực trong ngôn ngữ nguồn (ở đây là
tiếng Anh) và T
p
,T
n
là trọng số trong ngôn ngữ đích tƣơng ứng (Hindi và Bengali).

80.40%
Kết quả trên cho thấy độ che phủ của SentiWordNet cho tiếng Bengali là tốt với
độ hồi tƣởng và độ chính xác kém từ 4%-6% so với SentiWordNet tiếng Anh.
2.5 Các nghiên cứu liên quan
Vũ Xuân Sơn và cộng sự, 2011 [1] xây dựng đƣợc một bộ từ điển
VietSentiWordNet ứng dụng trong khai phá quan điểm tin tức. Từ điển này có 977
synsets, với 1179 từ. Các tác giả áp dụng từ điển VietSentiWordNet vào bài toán phát
hiện và tổng hợp quan điểm tin tức trên miền dữ liệu http://vnexpress.net, thu đƣợc độ
chính xác tổng hợp quan điểm ở mức câu cho kết quả cao nhất là 69.97%. [1]
Bruno Ohana, 2009 [13] áp dụng kho ngữ liệu SentiWordNet vào việc giải quyết
các vấn đề tự động phân lớp quan điểm trên miền dữ liệu đánh giá phim. Tác giả sử
dụng SentiWordNet để trích xuất từ văn bản ra một tập các đặc trƣng, lấy tập đó làm
tập đầu vào cho một bộ phân lớp. Độ chính xác tốt nhất của bộ phân lớp khi sử dụng
SentiWordNet là 69.10% [13].
2.6 Tóm tắt chương 2.
Chƣơng này đã giới thiệu kho ngữ liệu và các phƣơng pháp xây dựng
SentiWordNet tiếng Anh và tiếng Ấn Độ. Phƣơng pháp xây dựng SentiWordNet 3.0 từ
SentiWordNet 1.0 là phƣơng pháp đƣợc áp dụng trong chƣơng tiếp theo.

16

Mở rộng VietSentiWordNet và áp dụng Chương 3:
vào bài toán khai phá quan điểm
3.1 Mở rộng VietSentiWordNet sử dụng học máy bán giám sát SVM.
3.1.1 Phương pháp.
Trên cơ sở tìm hiểu phƣơng pháp xây dựng SentiWordNet 1.0, SentiWordNet
3.0, SentiWordNet cho tiếng Ấn Độ; nguồn ngữ liệu và đặc trƣng ngữ liệu tiếng Việt,

hình học máy SVMs đạt đƣợc kết quả khả quan nhất .

Trích đoạn Tính trọng số câu và đoạn

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Mở rộng VietSentiWordNet dựa trên mô hình học bán giám sát SVMlight và áp dụng vào bài toán khai phá quan điểm - Pdf 22

Tài liệu, ebook tham khảo khác

Học thêm