Trích chọn và xếp hạng đặc trưng sản phẩm trong phân tích quan điểm luận văn ths công nghệ thông tin - Pdf 31

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ BÍCH NHẬT

TRÍCH CHỌN VÀ XẾP HẠNG ĐẶC TRƯNG SẢN PHẨM
TRONG PHÂN TÍCH QUAN ĐIỂM

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội, năm 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ BÍCH NHẬT

TRÍCH CHỌN VÀ XẾP HẠNG ĐẶC TRƯNG SẢN PHẨM
TRONG PHÂN TÍCH QUAN ĐIỂM

Chuyên ngành: Khoa học máy tính
Mã số:60480101

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: PGS. TS. Lê Anh Cường

XÁC NHẬN CỦA CTHĐ

XÁC NHẬN CỦA GVHD


Cuối cùng, tôi xin cảm ơn gia đình, bạn bè, những người đã luôn bên cạnh động
viên và ủng hộ tôi.


3
MỤC LỤC
DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH VẼ ...................................................................... 4
CÁC KÍ HIỆU VÀ CỤM TỪ VIẾT TẮT .............................................................................. 5
TÓM TẮT ............................................................................................................................. 6
CHƯƠNG 1: GIỚI THIỆU .................................................................................................... 8

1.1. Các khái niệm cơ bản về khai phá quan điểm.................................................... 8
1.3. Bài toán trích chọn thuộc tính ......................................................................... 12
1.4. Mục tiêu của luận văn ..................................................................................... 13
CHƯƠNG 2: TRÍCH CHỌN THUỘC TÍNH ....................................................................... 15

2.1. Mô hình chung cho bài toán phân tích quan điểm ........................................... 15
2.2. Dữ liệu............................................................................................................ 15
2.3. Phương pháp trích chọn thuộc tính................................................................. 16
2.3.1. Phương pháp lan truyền kép .................................................................... 16
2.3.2. Phương pháp trích chọn dựa vào quan hệ bộ phận - toàn bộ, mẫu “No”…20
2.4. Trích chọn đặc trưng trong văn bản đánh giá bằng Tiếng Việt ........................ 21
CHƯƠNG 3: THUẬT TOÁN HITS SẮP XẾP THUỘC TÍNH ............................................ 25

3.1. Đồ thị hai phía và thuật toán HITS.................................................................. 25
3.2. Phân loại thuộc tính ........................................................................................ 27
3.3. Sắp xếp thuộc tính .......................................................................................... 28
CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................................................. 30

4.1. Môi trường thực nghiệm ................................................................................. 30

1

HMM

Mô hình Markov ẩn ( hidden Markov model)

2

NER

Nhận dạng tên thực thể (Named Entity Recognition)

3

POS

Gán nhãn từ (Part – of – speech)

4

CRF

Mô hình trường ngẫu nhiên có điều kiện
(Conditional random field)

5

DR

Quan hệ trực tiếp (Direct Relation)

chung là nội dung do người dùng tạo ra. Xu hướng này đã tạo ra một lượng khổng lồ
những nguồn thông tin hữu ích có thể đo lường được và có nhiều ứng dụng trong thực
tế. Ví dụ một người muốn mua sản phẩm, họ không bị giới hạn bởi các góp ý của bạn
bè và gia đình mình vì có rất nhiều đánh giá về sản phẩm trên các trang web. Còn đối
với các công ty, họ không nhất thiết phải tốn nhiều chi phí để mở các cuộc thăm dò
khảo sát hoặc thuê tư vấn bên ngoài để thu thập ý kiến khách hàng bởi vì các dữ liệu
do người dùng tạo ra có thể cung cấp cho họ đầy đủ những thông tin này.
Trong nhiều năm trở lại đây, lĩnh vực khai phá thông tin và tri thức đã phát triển
một bài toán nghiên cứu mới là khai phá và phân tích quan điểm. Bài toán này có ý
nghĩa rất quan trọng trong thương mại điện tử, trong kinh tế, chính trị, xã hội hóa.
Bài toán khai phá quan điểm đang được các nhà khoa học nghiên cứu với các chủ
đề khác nhau. Mối quan tâm nhiều nhất tập trung vào chủ đề tìm và lọc ra bài viết giả
(spam) nhằm làm hỏng danh tiếng sản phẩm, dịch vụ…hoặc với mục đích quảng cáo
để bán sản phẩm, dịch vụ. Sau đó, những bài viết này sẽ được phân loại ra câu chủ
quan, câu khách quan nhằm tìm ra ý kiến của người dùng về sản phẩm là tích cực hay
tiêu cực, thích hay không thích. Ngoài ra, khai phá quan điểm còn giải quyết các bài
toán xác định tên, xác định thuộc tính, xác định câu đánh giá quan trọng…
Sản phẩm rất phong phú, đa dạng. Ứng với mỗi sản phẩm lại có những tính năng và
thuộc tính khác nhau và chúng luôn được thay đổi theo hướng ngày càng hiện đại và
đa dạng hơn. Việc xác định thuộc tính theo các phương pháp truyền thống ngày càng
trở nên khó khăn hơn. Vì vậy việc nghiên cứu và phát triển một hệ thống tự động phát
hiện ra thuộc tính sản phẩm trong môi trường internet là rất cần thiết.
Trích chọn đặc trưng sản phẩm là bài toán rất quan trọng trong khai phá và phân
tích quan điểm. Một câu nhận xét có rất nhiều đặc trưng, trong giới hạn của luận văn
này chỉ tập trung vào việc trích chọn ra thuộc tính của sản phẩm và xếp hạng theo mức
độ quan trọng của các thuộc tính.


7
Chúng ta xét ví dụ sau :

hợp các thuộc tính. Một ý kiến có thể được thể hiện trên bất kỳ nút và các thuộc tính
của nút.
Ví dụ về việc đưa ra ý kiến trên điện thoại di động như: “Tôi không thích Iphone”
hoặc trên bất kỳ một trong những thuộc tính của nó “Chất lượng âm thanh của Iphone
thật tệ hại”. Chất lượng âm thanh là thuộc tính của loa, loa là thuộc tính của điện
thoại, thể ở đây là của thực thể Iphone. “Không thích” và “tệ hại” là quan điểm của
người dùng. Tương tự như vậy, người ta có thể đưa ra ý kiến trên bất kỳ các thành
phần của thực thể hoặc bất kỳ thuộc tính nào của thành phần.
Trong thực tế, việc sử dụng cây là rất hữu dụng nhằm đơn giản hóa định nghĩa bởi
hai lý do. Thứ nhất, việc học trong xử lý ngôn ngữ tự nhiên các văn bản một cách chi
tiết như mô tả là rất khó. Thứ hai, người sử dụng thường sẽ thấy quá phức tạp để sử
dụng phân cấp. Do đó, để đơn giản hóa và san bằng cây chỉ còn hai cấp bằng việc sử
dụng các thuộc tính (aspect) để biểu thị cả hai (thành phần và thuộc tính). Cây lúc này
có nút gốc là thực thể chính nó, các nút ở mức hai là những thuộc tính khác nhau của
thực thể.
Thuộc tính (aspect): Các thuộc tính của một thực thể e là các thành phần và các
thuộc tính của e. Một thể hiện thuộc tính là một từ hoặc một cụm từ xuất hiện trong


9
văn bản chỉ ra một thuộc tính.
Ví dụ: Trong lĩnh vực điện thoại di động, một thuộc tính có thể được đặt tên là chất
lượng âm thanh. Có rất nhiều thể hiện có thể chỉ ra được thuộc tính như: âm thanh,
tiếng nói, chất lượng âm thanh…
Thuộc tính thường là danh từ và cụm danh từ, cũng có thể là động từ, tính từ, trạng
từ. Ví dụ “Âm thanh của điện thoại này là rõ ràng”, “âm thanh” ở đây là một thuộc
tính với vai trò là danh từ trong câu. “Lớn” trong câu “Điện thoại này quá lớn” là
thuộc tính tiềm ẩn ngụ ý kích thước thuộc tính.
Nhiều thể hiện thuộc tính ẩn là tính từ và trạng từ, mà cũng bao hàm một số thuộc
tính cụ thể, ví dụ như đắt tiền (giá), đáng tin cậy (độ tin cậy). Thể hiện của thuộc tính

ej: là thực thể mục tiêu
ajk : là một khía cạnh của thực thể
soijkl : Giá trị của quan điểm của người hi trên khía cạnh ajk của thực thể ej . so có thể ở
là khẳng định, phủ định, trung lập hoặc nhiều xếp hạng chi tiết hơn
hi : Người đưa ra quan điểm
tl : Thời gian của quan điểm
(ej, ajk) còn được gọi là mục tiêu quan điểm, quan điểm mà không có mục tiêu thì
không có nhiều giá trị sử dụng.
Sau đây, ta sẽ định nghĩa mô hình thực thể, mô hình tài liệu chứa quan điểm và
mục đích khai thác quan điểm được gọi chung là khai thác quan điểm dựa trên thuộc
tính.
Mô hình thực thể (model of entity): Một thực thể ei được thể hiện chính nó hoặc
bao gồm một tập hữu hạn các thuộc tínhAi= {ai1, ai2,…, ain}. Chính những thực thể có
thể có thể được thể hiện bởi một tập các thể hiện thực thể OEi = {oei1, oei2,…, oeis}.
Mỗi thuộc tính aij  Ai của thực thể có thể được thể hiện bởi một trong các tập hữu hạn
các thể hiện của thuộc tínhAEij = {aeij1, aeij2,…, aeijm}.
Mô hình tài liệu chứa quan điểm (Model of opinionated document): Một tài liệu
chứa quan điểm d bao gồm quan điểm trên một tập các thực thể {e1, e2,…, er} từ
những người có quan điểm {h1, h2, …, hp}. Quan điểm trên mỗi thực thể ei là thể hiện
trên chính thực thể và tập con Aid thuộc tính của nó.
Mục tiêu của khai phá quan điểm: Với tập các tài liệu chứa quan điểm D, khám phá
ra tất cả các quan điểm (ei, aij, ooijkl, hk, tl) trong D.
1. 2. Những bài toán trong khai phá quan điểm
Khai phá quan điểm hay còn gọi là phân tích quan điểm có các bài toán lớn sau [5]:
-

Tìm và lọc dữ liệu chứa quan điểm rồi phân tích

-


Ở đây, câu (1) mang nghĩa trung lập. Câu (2) mang nghĩa tích cực (khen) sản phẩm.
Câu (3) mang nghĩa tiêu cực.
 Phân tích thuộc tính của sản phẩm
Bài toán đi sâu vào giải ba bài toán con: Phân loại thuộc tính là tích cực hay tiêu
cực (pos/neg), xếp hạng thuộc tính (rating), xác định trọng số (độ quan trọng của thuộc
tính).
Phân loại thuộc tính là tìm hiểu các thuộc tính của đối tượng mà người dùng đánh
giá là tích cực hay tiêu tực, thích hay không thích. Quan điểm này thường được thể
hiện ở mức câu. Ta xét ví dụ:
“Tuổi thọ của pin này là quá ngắn”


12
Người dùng nhận xét về thuộc tính là “pin” và ý kiến là tiêu cực
Bài toán xếp hạng thuộc tính là bài toán được Bing Liu và các cộng sự đưa ra [4].
Nhiệm vụ của bài toán là xác định thuộc tính của sản phẩm mà được đánh giá bởi
khách hàng sau đó xếp hạng thuộc tính theo tần số xuất hiện của chúng.
Bài toán xác định trọng số thuộc tính là bài toán xác định các thuộc tính của sản
phẩm sau đó tính trọng số rồi xếp hạng chúng. Bài toán này có ý nghĩa quan trọng đối
với dữ liệu mới mà không quan tâm tri thức trong văn bản đánh giá.
 Những bài toán khác
Ngoài các bài toán trên, khai phá quan điểm còn giải quyết các bài toán: Xác định
Tên trong văn bản (Name detection), xác định thuộc tính (aspect determination), xác
định bình luận quan trọng (so sánh)….
1.3. Bài toán trích chọn thuộc tính
Bài toán trích chọn thuộc tính trong khai phá quan điểm là xác định thuộc tính
trong các bài viết của nhiều khách hàng về sản phẩm, dịch vụ, tổ chức… Trong bài
viết đó, những từ là thuộc tính sẽ được trích chọn. Phương pháp dùng để trích chọn
những thuộc tính được Bing Liu [5] nêu ra là coi những danh từ, cụm danh từ thường
xuyên xuất hiện trong các đánh giá là thuộc tính của sản phẩm. Tuy nhiên phương

Vì vậy, việc nghiên cứu và phát triển một hệ thống tự động phát hiện ra thuộc tính sản
phẩm trong môi trường internet là rất cần thiết.
Hiện tại, có nhiều phương pháp để trích chọn thuộc tính của sản phẩm, dịch vụ hay
tổ chức như: “lan truyền kép”, PMI, xác định tần số xuất hiện…Trong luận văn này,
tôi đi sâu vào nghiên cứu và thực nghiệm phương pháp trích chọn thuộc tính sử dụng
thuật toán “lan truyền kép”, mẫu toàn bộ - bộ phận, mẫu “No”. Sau đó, tôi sử dụng
thuật toán HITS để sắp xếp thuộc tính theo mức độ quan trọng để loại bỏ thuộc tính
không cần thiết.
Mục tiêu của luận văn này là:


Khảo sát các phương pháp trích chọn thuộc tính sản phẩm



Áp dụng phương pháp trích chọn thuộc tính sản phẩm: lan truyền kép,
toàn bộ - bộ phận, mẫu “No”



Áp dụng thuật toán HITS sắp xếp thuộc tính sản phẩm theo mức độ
quan trọng



Loại bỏ thuộc tính không quan trọng

Trong luận văn này, tôi tập trung vào việc trích chọn các thuộc tính của sản phẩm,
cụ thể là điện thoại di động và xe ô tô để cho kết quả tốt hơn. Dữ liệu được thu thập là
nội dung bình luận của người tiêu dùng về sản phẩm trên các trang web, diễn đàn,

quan điểm tùy theo mục đích của người nghiên cứu có thể gồm các chủ đề: Phân tích
tri thức của bài viết, câu (chủ quan/ khách quan, tích cực/tiêu cực/trung lập), trích chọn
và xếp hạng thuộc tính …..
2.2. Dữ liệu
Thuộc tính của sản phẩm chủ yếu được lấy từ đánh giá trực tuyến. Có hai loại đánh
giá trên Web:
Loại 1: Đánh giá ưu điểm, khuyến điểm và chi tiết: Các nhà phê bình được yêu cầu mô
tả ngắn gọn một số ưu điểm, khuyết điểm, cũng như viết một bài đánh giá chi tiết.
Loại 2: Định dạng tự do: Các nhà phê bình có thể viết một cách tự do mà không phải
tách ưu, khuyết điểm riêng.
Vậy để trích chọn các thuộc tính từ ưu và nhược điểm trong các bài viết thuộc loại
một. Những đánh giá dạng này thường ngắn gọn hoặc các câu được phân đoạn. Mỗi
đoạn câu thường chứa một thuộc tính, các phân đoạn câu thường được phân cách nhau
bởi dấu chấm, dấu phầy, dấu chấm phẩy, gạch ngang, và, nhưng … Quan sát này giúp
chúng ta có thể khai thác để thực hiện trích chọn chính xác hơn. Vì vậy việc trích chọn
tài liệu thuộc định dạng này là khá đơn giản và chúng ta chỉ xét đến tài liệu thuộc loại
hai. Tài liệu thuộc loại hai thường là tài liệu hoàn chỉnh.


16
2.3. Phương pháp trích chọn thuộc tính
2.3.1. Phương pháp lan truyền kép
Phương pháp lan truyền kép được đưa ra bởi G. Qiu, B. Liu [8] là phương pháp
trích chọn theo luật khá tự nhiên. Ví dụ một câu có chứa quan điểm:
“Canon G3 takes great picture”
Tính từ “great” được phân tích phụ thuộc trực tiếp vào danh từ “pictures”. Nếu ta
biết “great” là từ quan điểm và được trích theo luật “một danh từ mà từ quan điểm phụ
thuộc trực tiếp vào thì có thể được trích chọn”. Vì vậy, ta có thể trích chọn “pictures”
là một thuộc tính. Tương tự, nếu “pictures” là thuộc tính, chúng ta có thể trích chọn
“great” là từ quan điểm sử dụng luật tương tự. Dựa vào quan sát đó, ý tưởng phương

Quan hệ trực tiếp (Direct relations - DR): Thể hiện cho quan hệ phụ thuộc của
một từ vào từ khác một cách trực tiếp hoặc cả hai đều phụ thuộc trực tiếp vào từ thứ
ba, thể hiện trong (a) và (b) của hình 1. Trong (a), B phụ thuộc trực tiếp vào A và
trong (b) cả hai đều trực tiếp phụ thuộc vào H.
Quan hệ gián tiếp (Indirect relation - IR):Thểhiện cho việc một từphụ thuộc vào
từ khác thông qua những từ khác hay cả hai phụ thuộc vào một từ thứ ba gián tiếp. Ví
dụ, trong (c) của hình 2, B phụ thuộc vào A thông qua H1; trong (d) hình 2, A phụ
thuộc vào H thông qua H1 trong khi B phụ thuộc vào H thông qua H2. Đối với một số
tình huống phức tạp, có thể có nhiều hơn một H1 hoặc H2. DR có thể là trường hợp
đặc biệt không có H1, H2 trong phụ thuộc.
H

B
A

B

a)

A

b)
B
H
H1
H1

B

c)

Ràng buộc

R11

Si(j)Si(j)-DepSj(i)

Si(j){S}, Si(j) -Dep{CONJ},
POS(Si(j)) {JJ}

s = Si(j)

R12

SS-DepHF-DepF

s = Sj

R21

S S-DepF

R22

S S-Dep H F-Dep F

R31

S S-DepF

R32

f=F
f=Fi(j)
f=Fj

Hình 3. Các luật để trích từ quan điểm và thuộc tính [8].
Trong bảng, s nghĩa là từ quan điểm còn f là thuộc tính được trích. {S}(or {F}) và
S(or F)-Dep là các từ quan điểm hoặc thuộc tính đã biết đã biết và mối quan hệ phụ
thuộc của S(or F) theo thứ tự tương ứng. H có nghĩa là một từ bất kỳ. POS(S(or F)) là
thông tin từ loại của S(or F). {JJ} và {NN} là tập các nhãn từ loại của các từ quan
điểm và thuộc tính tiềm năng tương ứng (JJ: là nhãn từ loại tính từ và NN: là nhãn từ
loại danh từ). Ở đây, tác giả xem xét các từ quan điểm là các tính từ còn thuộc tính là
danh từ hoặc cụm danh từ. Khi đó, {JJ} ban gồm JJ, JJR (các tính từ dạng so sánh hơn)
và JJS (các từ dạng so sánh hơn nhất). {NN} bao gồm NN và NNS, là viết tắt cho danh
từ số ít và danh từ số nhiều. Tuy nhiên, có các trường hợp mà các đánh giá sử dụng các
đại từ để tham chiếu đến các thuộc tính đã được đề cập trước đó. Do đó, các tác giả
cũng xem xét các đại từ như là các thuộc tính. Trong đó, họ sử dụng “it” và “they”.
{MR} bao gồm các mối quan hệ phụ thuộc mô tả các mối quan hệ giữa các từ quan
điểm và các thuộc tính, như mod có nghĩa là một từ bổ nghĩa cho một từ khác. Các
mối quan hệ phụ thuộc khác (MRs) bao gồm: subj, obj, pnmod, etc. {CONJ} là mối
quan hệ của liên từ và chỉ bao gồm liên từ.


19
Dưới đây mô tả chi tiết thuật toán lan truyền kép. Trong thuật toán, từ quan điểm O
và dữ liệu đánh giá R về sản phẩm được cung cấp là đầu vào. Các bước thực hiện theo
thứ tự dưới đây, nó dừng khi không có từ quan điểm hoặc thuộc tính nào được thêm
vào. Chúng ta sẽ mô tả thuật toán bằng ví dụ sau. Giả sử chúng ta có bốn câu trong
đánh giá:
Canon G3 takes great pictures. The picture is amazing. You may have to get more
storage to store high quality pictures and recorded movies. The software is amazing.

20. Set {Fi}={ Fi} +{F'}, {Oi} ={Oi}+{O’}
21. Set {F}={ F} +{F'}, {O-Expanded} ={O-Expanded}+{O’}
22. Repeat 2 till size({F1})=O, size({Oi} )=0

Hình 4. Thuật toán lan truyền kép[8]


20
2.3.2. Phương pháp trích chọn dựa vào quan hệ bộ phận - toàn bộ, mẫu “No”
Trong trích chọn thuộc tính, phương pháp sử dụng quan hệ toàn bộ - bộ phận và
mẫu “No” [1] là phương pháp cho kết quả tốt.
Trước hết ta xét quan hệ toàn bộ - bộ phận. Đây là quan hệ thể hiện một danh từ
hoặc cụm danh từ là bộ phận hoặc có bộ phận là danh từ hoặc cụm danh từ còn lại. Ví
dụ “car hood”. Chúng ta biết “car” thuộc vào lớp đã được định nghĩa trước thì “hood”
chính là thuộc tính cần được trích chọn. Việc trích chọn ở đây chủ yếu vào các luật
trong câu, có những câu thể hiện cấu trúc rõ ràng, dễ dàng áp dụng các luật, có những
câu có cấu trúc không rõ ràng nên việc xác định thuộc tính có thể không chính xác. Ví
dụ với câu có cấu trúc rõ ràng mà việc xác định thuộc tính gặp trường hợp sai “valley
on the mattress” và “toy on the mattress”. Trong câu thứ nhất, chúng ta có thể dễ dàng
xác định thuộc tính của “mattress” là “valley” nhưng trong câu thứ hai thì “toy” không
phải thuộc tính của “mattress”.
Ví dụ với câu có cấu trúc không rõ ràng
“The camera consists of lens, body and power cord. The bed was made of wood”
Câu thứ nhất ta vẫn có thể dễ dàng xác định thuộc tính của “camera” là “lens”,
“body” và “cord” nhưng câu thứ hai thì “bed” không phải là thuộc tính của “wood”.
Tuy nhiên, các thuộc tính sau khi trích chọn sẽ được sắp xếp mức độ quan trọng, các
thuộc tính không quan trọng hoặc sau sẽ có chỉ số thấp và bị loại. Đối với phương
pháp toàn bộ - bộ phận, người ta tách ra làm hai mẫu nhỏ hơn: cụm từ và câu.
Thứ nhất, ta xét với cụm từ. Các cụm từ trong câu chứa thuộc tính sẽ thuộc một
trong các loại mẫu sau

Chúng ta xem xét thuộc tính sản phẩm là danh từ hoặc cụm danh từ, từ chứa quan
điểm không chỉ là tính từ mà còn là động từ vì ngoài tính từ thì động từ trong Tiếng
Việt đôi khi cũng bày tỏ ý kiến. Ví dụ, đối với câu “ Tôi thích màu sắc điện thoại này”,
“ màu sắc” – cụm danh từ là một thuộc tính sản phẩm và “thích” – động từ là một từ
quan điểm.
Do đó, chúng ta kết hợp các quy tắc cú pháp Tiếng Việt với các phương pháp trích
chọn thuộc tính sản phẩm được nêu ở trên để có được các thuộc tính Tiếng Việt. Trong
cụm danh từ Tiếng có cấu trúc cơ bản như sau: <Từ đằng trước><Từ phía sau>. Chúng ta định nghĩa như sau:
 Từ đằng trước là từ phân loại ví dụ như con, cái, chiếc, quả … hoặc lượng từ
như mỗi, các ….
 Từ phía sau là đại từ như này, đó….
 Một cụm danh từ có thể bao gồm từ phía trước hoặc từ phía sau. Tuy nhiên, nó
phải có danh từ trung tâm
Chúng ta sẽ dử dụng cấu trúc này để trích cụm danh từ sau khi dữ liệu đã được gán
nhãn bởi VietTager.


22
Trích thuộc tính sản phẩm

Thuộc tính sản phẩm rõ ràng được thể hiện ngay trong câu trong đánh giá của
khách hàng. Ví dụ “Màn hình cảm ứng của chiếc Iphone 4 này rất tuyệt”. “Màn hình
cảm ứng” là một thuộc tính sản phẩm. Việc trích chọn thuộc tính sản phẩm rõ ràng dựa
vào ba luật là part-whole relation, “No” patterns và double propagation.

 Part-whole relation: Thuộc tính sản phẩm là một phần của đối tượng, có thể là tên
sản phẩm hoặc được thể hiện theo các từ “máy” (điện thoại di động), “em” ( điện
thoại) …vì vậy, chúng ta có thể sử dụng các quy tắc để trích xuất các thuộc tính sản
phẩm như sau:

 A → {MR} → N/NP. Ví dụ, “đầy đủ tính năng” trong đó “ đầy đủ <A>” 
{determine}”tính năng <N>”. Thuộc tính là “tính năng”.
 V ← {MR} ← N/NP. Ví dụ “Tôi rất thích chiếc camera này”, “thích<V>
{add}”chiếc camera này<NP>, thuộc tính là “camera”.
 N/NP → {MR}1 → V ← {MR}2 ← A. Ví dụ, “Màn hình hiển thị rõ nét”. “Màn
hình<N>”{sub-pre}hiển thị<V>{add} “rõ nét<A>”. Thuộc tính là “màn
hình”.
 N/NP → {MR} → A. Ví dụ, “Màn hình này tốt”, “màn hình<N>”{subpre}”tốt<A>”. Thuộc tính là “màn hình”
- Sử dụng thuộc tính đã trích chọn để trích chọn thuộc tính mới
 N/NP1 → {conj} → N/NP2. N1/CN trong NP1 hoặc N2/CN trong NP2 là thuộc
tính sản phẩm đã được trích chọn trước đó. {Conj} có thể là từ nối, dấu chấm phẩy,
…. Ví dụ như câu “camera, màn hình và bàn phím đếu rất tuyệt”, với “camera” là
thuộc tính đã được trích chọn trước đó. Hai thuộc tính mới được trích chọn là “màn
hình” và “bàn phím”
2.5. Ưu điểm và nhược điểm của các phương pháp
Phương pháp đầu tiên, chúng ta xem xét là phương pháp “Lan truyền kép” (Double
propagation). Trong phương pháp này, giả sử rằng thuộc tính là danh từ, cụm danh từ
và từ quan điểm là tính từ. Nó lan truyền thuộc tính của sản phẩm và từ quan điểm
cùng một lúc. Lợi thế lớn nhất là không cần bổ sung từ vựng ngoại trừ một số từ vựng
chứa quan điểm ban đầu. Dó đó, đây được coi là phương pháp độc lập và không có
giám sát, tránh việc tốn thời gian ghi nhãn dữ liệu như các phương pháp học có giám
sát. Phương pháp này hoạt động tốt với dữ liệu có kích thước trung bình. Đối với dữ
liệu lớn, phương pháp này có thể dẫn tới trích nhiều cụm danh từ, danh từ mà không
phải là thuộc tính sản phẩm. Độ chính xác của phương pháp này sẽ giảm dần vì trong
quá trình truyền, tính từ mà không phải là từ chứa quan điểm sẽ được trích chọn như là
từ quan điểm ví dụ như “entire” và “current”. Những tính từ này không là từ quan
điểm nhưng chúng có thể bổ nghĩa cho nhiều danh từ, cụm danh từ, do đó dẫn tới việc
trích chọn những thuộc tính không đúng. Ngoài ra, một vài thuộc tính quan trọng
không được các từ chứa quan điểm bổ nghĩa cũng không được trích chọn. Ví dụ về
đánh giá điện thoại “Đây là camera của điện thoại”. Camera là thuộc tính nhưng từ


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status