Nghiên cứu phát triển mô hình và giải pháp xây dựng hệ thống tìm kiếm thực thể tiếng Việt - Pdf 26

DẠI HỌC Ọl <>( (ỈIA MẢ NỘI
I RƯỜNG DẠI MỌC ('ÔNG N( ìl II
NGHIÊN CỬU PHÁT TRIÈN MÔ HÌNH VÀ GIẢI PHÁP
XÂY DựNG HỆ THÓNG TÌM KIẾM THỤC THẾ TIẾNG VIỆT
Mã số: QG. 10.38
Chủ nhiệm đề tài: PGS. TS. Hà Quang Thụy
Hà Nội - 2011
DẠI HOC Ọl (H (ilA BÀ NỘI
1'KU'ỔNCi DẠI I IỌC CỔNG NGl II
BẢO CẢO TÔNG HỢP NGHIỆM TIIU
ĐÈ TÀI NCHIÊN cứ u KHOA HỌC CÁP ĐẠI HỌC QUỐC GIA HÀ NỘI
LOẠI B
DO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ QUẢN LÝ
MỤC LỤC
GIAI THÍCH CÁ C CHÙ' VI! I TẢ I 4
DA NH SÁCH NH Ừ NG NG Ư ỜI TH AM GIA T H ỤC HIỆN DẺ T A I 5
DANH M ỤC CÁ C BA N G SỒ L IỆ U 6
DA NH M ỤC C ÁC H Ì N H 7
T ÓM TẮT C ÁC K Ế T Q U Ả NG HIÊN c ử u CH ÍN H C ỦA ĐỀ T À I 8
1. Ket quả về khoa h ọ c 8
2. Ket quá phục vụ thực tế 8
3. Kết quả đào tạ o 9
4. Ket quả nâng cao tiềm lực khoa học 10
I. DẶ T VẨN Đ Ề II
II. TỔN G Q UAN C ÁC VÁN ĐỀ N GH IÊN c ử u 13
III. MỤC TIÊU, ĐỊA ĐIẾM, T H ỜI GIA N VÀ PH ƯƠ NG PH ÁP NG HIÊN c ú u

16
IV. NỘI DU NG NG HIÊN c ử u 17
1. X ử lý tiếng Việt trong tìm kiếm thực th ể 1 8
2. Các m ô hình, siài pháp tìm kiếm thực thể !9

2.1. Đào tạo sau đại học 29
2.2. Đào tạo đại h ọc 30
3. Ket quả ứng dụng cùa đề t ài 30
VI. T HẢ O LUẬN VÀ ĐÁ NH G I Á 31
1. Thảo luậ n 31
2. Đánh giá 3 1
VII KẾT LU ẬN VÀ KI ÉN N G H Ị 33
1. Kết lu ận 33
2. Kiến n g hị 33
TÀI LIỆU TH AM K H Ả O 34
I’llỤ I ụ c
37
Phụ lục I. Các phụ lục chuyên môn liên quan đến nội dung cua dê tà i 38
Phụ lục 1.1. Các bài báo khoa học 39
Phu lục 1.2. Quyết định công trình sinh vicn nghiên cứu khoa học hai năm 2010, 201 1 (cấp
Trường DHCN và cấp DI IỌ GHN )

r.
1 35
Phụ lục 1.3. Bản sao bìa luận văn cao h ọ c 149
Phụ lục 1.4. Danh sách 23 đề tài khóa luận đại học bảo vệ Irong hai năm 2010-201 1 168
Phụ lục 1.5. Chương trình hội thảo W orkshop On Domain-Specific Intelligent Search Engine
.

.7

.
171
Phụ lục i .6. Chủ đề họp tác nghiên cứu giữa Trườna Đ HC N và Viện rin học Quốc aia Nhật
B ản

National Institute of Informatics, Japan
POS
Part Of Speech
SEM Search engine marketing
SEO Search engine optimization
SVM
Support Vector Machine
SVNCKH Sinh viên nghiên cứu khoa học
UGC
User Generated Content
UIUC University of Illinois at Urbana-Champaign, USA
VNQA
Vietnam Question Answering
VNSEN VietNam Search ENgine
WePS
Web Person Search
-4-
DANH SÁCH NHỮNG NGƯỜI THAM GIA THỤC HIỆN ĐÈ TÀI
Chu trì. Th ư ký cua đẽ tài:
■ C hủ trì: PG S. TS. Hà Q ua ng T hụ y (Trườnt> Đ H C N )
■ ! hu ký: Lê ỉ loảng Q uỳnh (G iàng viên tạo nguồn, nvcn. T ru ồn g D H C N )
* N hữ ng người thực hiện:
ST ĩ
Cơ quan phối
hợp
Côìỉiĩ tác viên
Họ và tên Trình độ Chuyên
ngành
1.
Khoa CNTT,

11. -nt- Nguyễn Đạo Thái
HVCH
CNTT
12. -nt- Phạm Huyền Trang Cử nhân CNTT
13. -nt- Lê Đức Trọng Cử nhân
CNTT
14.
-nt-
Trần Xuân Tứ
Cử nhân CNTT
15.
-nt-
Nguyễn Tiến Tùng Cử nhân CNTT
16. -nt- Lưu Công Tố
Cử nhân CNTT
17.
-nt- & NII Đoàn Sơn
TS CNTT
18. -nt- & JAIST
Nguyễn Việt Cường
TS
CNTT
19. -nt- Phan Xuân Hiếu
TS
CNTT
DAN H MUC CAC BANC SÔ LIEU
Bàng
irang
B àn g 1. Câtig bô kl 10 a hoc co giâ tri cao cûa h an g Google toi tigcn 18/ ! 1 7011
I 1

Hình 12. Mô hình hệ thống tìm kiêm ảnh lớp trên
23
Hình 13 .Mô hình phân cụm ánh theo tập đặc trưng kết hợp văn bản
23
Hình 14.Sơ đồ hệ thống tìm kiếm giá CCI VNGia 24
Hình 15.Hình ảnh hệ thong tìm kiếm giá củ VNGia (htíp:/www. VNGia.com)
25
Hình 16. Giao diện cài đặt thử nghiệm VNQA
26
Hình 17. Kết quà tổn g hợp đánh giá sàn phẩm Nokia C5-03
27
Hình 18. Cấu trúc thành phần một phan mềm tìm kiếm người cùng tên
28
Hình 19. Trả về theo truy van “Pluto” cùa Google (trên cùng), của Yahoo
(giữa) và phần mềm thử nghiệm của để tài fdưới cùng)
28
-7-
TÓM TẤT CÁC KÉT QUẢ NÍỈIIIÊN cử u CHÍNH ('H A DỀ TẢI
/. hết qitti vé khoa học
* C ô ne bố tám (8) bài báo khoa học thuộc hệ thốim IBIiR /Sprinuer d ượ c dưa vào C ơ
sờ d ữ liệu Scopus (7 bài háo đã đăng. 1 hài báo dược nhận đăng):
I ]|. Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran, Quatm-Tluiy Ha (201 1). A
Solution for Grouping Vietnamese Synonym Feature Words in Product
Reviews, JEEE_APSC X ' 'Jill I. Jeju, Korea (in press) (IEEE, Scopus, DBLP).
[2J. Hoang-Quynh Lc. Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong Phan, Quang-
Thuy Ha (2011). An Integrated Approach Using Conditional Random Fields
for Named Entity Recognition and Person Property Extraction in Vietnamese
Text, /ALP 201 / : 115-118 (IEEE, Scopus, DBLP).
[3], Duc-Trong Le, Mai-Vu Tran, Tri-Thanh Nguyen, Quang-Thuy Ha (2011). Co
reference Resolution in Vietnamese Documents Based on Support Vector

■ Phần mềm thử nghiệm tìm kiếm người cùng tên tiếng Việt.
* Phần m ềm thừ nghiệm tìm kiếm ảnh, video theo nội dung.
-8-
J. Ket qua dào tạo
(nội (hunĩ M Ịhicn cứu Iro n y luận án, luân văn, khỏa ỉuận lôl H íịhiệp Ví/ CÔHỊỊ trình s iìiỉì
viên nghiên cứu khoa học ẹă/ỉ Hên với nội lỉu nạ nghiên cửu thực hiện đê lù i ì:
* C ó 5 côn g Irình S V N C K H với I dạt giải nhất, 3 giải nhì, và I giải ba cấp trườn ti
Đ H C N (tronu số 10 cô ng trình S V N C K H đã báo cáo lại hội nahị các cap):
I 11 Mở rộnỉỊ tập thực thế định danh dựa vào luật wrapper và luật nẹừ nghĩa. Nhóm
sinh viên Nguyễn Thanh Son, Nguvễn Tiến Tùng, Chu Thị Thủy: đạt giải Nhì cấp
Trường ĐHCN 2010;
ị 2] Một mò hình xây dựng tự độngOntoỉogy dựa vào Wikipedia tiénq Việt trên miên
ứng dụng các trường đại học Việt Nam. Nhóm sinh viên Nguyễn Tiến Thanh. Vũ
Xuân Sơn, Lê Thu Hà: đạt giải Nhì cấp Trường ĐHCN, 2010;
Ị 3] Mô hình ứng dụng tư vấn dựa trên phân tích sự quan tâm của nẹười dung. Nhóm
sinlì viên Nguyễn Đao Thái, Uông Huy Long, Trần Xuân Tứ: đạt giải Ba cấp
Trường ĐHCN, 2010;
[ 4 Ị Mô hình hệ thông hỏi đáp thực thê tên người cho liêng Việt, Nhỏm sinh viên Lê
Đức Trọng, Trần Xuân Tứ, Nguyễn Tiến Tùng: đạt Giải NHÁT, Trường ĐHCN
năm 2011 và đạt giải BA cấp ĐHQGHN năm 2011;
[5] Mô hình trích chọn quan hệ tương tác protein và gen dựa trên kỹ thuật
boostrappinẹ và học máy SVM, Nhúm sinli viên: Chu Thị Thủy, Đào Minh Tùng,
Hà Thị Oanh, Trần Phi Dũng. Giải NHÌ, Trường ĐHCN năm 2011.
■ 23 khóa luận tốt nghiệp đại học (6 sinh viên K51 và 17 sinh viên K52),
* 06 luận văn Thạc sỹ:
[1]. Nguyễn Đình Văn (2011). Một số thuật toán khai phá luật dãy và ứng dụng thử
nghiệm vào hệ thống quản lý khách hàng và tính hóa dơn nước. Luận văn Thạc sỹ,
Trường Đại học Công nghệ - ĐHQGHN, 6-2011.
|2J Phạm Thị Ánh (201 1). Phương pháp phân cụm tích lũy và áp dụng tại ngân hàng
TMCP Quân đội. Luận văn Thạc sỹ, Trường Đại học Công nghệ - ĐI1QGHN, 6-

Q uỹ nghiên cứu cơ bản quốc gia N afo sted hỗ trợ kinh phí đi báo cáo khoa học
tại các hội nghị khoa họ c quốc tế thuộc h ệ thố ng A C M /IE EE /S p ring er.
■ N â ng cao trình độ hợp tác quốc tế về ng hiên cứu: T iếp tục hợp tác K H -C N với
Ph òn g Thí ng hiệm của G S. A kira Sh im azu (JA 1ST, Japan) về xử lý ngô n ng ữ tự
nhiên và khai ph á w eb, với nh óm n ghiên cứu cùa PG S. TS. Kevil C han g
(University Illinois at U rb an a-C ha nnp ain , U S A ) về m áy tìm kiếm thực thể nói
riêng và m áy tỉm kiếm ng ữ nghĩa nói chung. X úc tiến họp tác với nhó m ng h iên cứu
của PG S. N igel C ollier (Viện Tin học Q u ố c gia N hật Bản) về xây dự ng hệ thô n g
thông tin thực thể từ p hư ơn g tiện xã hội (social media).
■ T ổ chức sem inar khoa học h àng tuần tại Phòn g Thí nghiệm C ôn g ng hệ tri th ức
(K TL ab ), K ho a C N T T
-10-
Xây dự n g và nâng câp các hộ thòng lìm kiêm luôn là một nội dun lí khoa học-
cô ne ng hệ thời sự của các n hóm Iiuhiên cửu, các CÙIUỈ ty vê lĩnh vục lim kiêm trên thể
Liiới. đặc biệt dối với các hãng tỉm kiếm hàná, đầu thế giới n hư Google. Y ah oo
T hành côrìg của hệ thôn g tìm kiếm B aidu cùa T ru ng Qu ốc (m ột hệ th ống tìm
kiếm nội dịa) và thành cô ng bước đầu cùa các tiện ích m ới đư ợc bô su ng vào các hệ
th in g tìm kiếm hiện hành đã thế hiện tính cần thiết n âng cấp hệ th ố nu tim kiếm. Các
thành cônũ nói trên đượ c bắt nguồn từ các n ghiên cứu c ôn u phu về m ô hỉnh và uiải
pháp. T hố ng kê số liệu từ trang w eb /piibs/papers.htm l ngày
18/11/201 I cho thấv, h ãng tìm kiếm h àng đầu thế giới G o og le đã côn g bố 1505 côn g
trình kho a học có giá trị cao (B ản g ] ), tăng 223 cô ng trình so với thống kê số liệu ngày
27/5/2011.
I. DẠT VẤN ĐÈ
Bảng ì. Công bố khoa học cỏ giả trị cao của hãng Google tới ngày 18/1 ỉ/20ỉ ]
Sít
Nhỏm chủ đê
Số bài báo
1
A lgorith ms and T he ory 199

Natural L an gua ge Processing
146
15 Security, C ryp tograp hy , and Privacy 112
16
Softw are Engineering
62
17
Speech Processing
16
18
System s
29
Tốnẹcộnẹ
ì 505
G ần đ ây (tháng 11/2011), M assim o M archiori. m ộ t nhà khoa học Ý đề xuất
thuật toán siêu tìm kiếm từ năm 1997 [M arch 97], cô ng bố thôn g tin về m ột hệ thống
tìm kiếm m ới có tên là Volunia, làm việc với 12 ngôn ngữ, d ự kiến bắt đầu ho ạt độ ng
tư dâu năm 2012. Massimo Marchioii cho biết Volunia dược tièp cận theo một quan
CÜC111 câp tiên nhăm đáp ứng nhu cầu tìm kiếm của tirưnụ (ai .
Tìm kiếm lliực the (entity object search engine) là thố hệ lim kiểm tiên tiến,
trong đó đối tượng tìm kiếm là thực thế mà không phải là Iranu web. Nhiều công trình
nglìicn cứu về tìm kiếm thực thê; dã được côim bố, không ít các hệ thấitt» tìm kiếm
thực thê đã dược xây dựng và đi vào hoạt độníỉ. Tìm kiếm na ười và tồ chức là các loại
tìm kiếm thực thổ quan trọng.
Trong hệ thống tìm kiếm thực thể, một bài toán CƯ bản là trích xuất thông tin
thực thế (nhận diện thực thế, tìm kiếm đặc trưng, phát hiện quan hệ, xếp hạng thực
thê,,,), vì vậy, yêu cầu xử lý văn bản trong bài toán tìm kiếm thực thể công phu hơn
nhiều so với bài toán tìm kiếm trang web. Trong thời kỳ các mạng xã hội trực tuyến
phát triển nhanh như hiện nay, nội dung được người dùng tạo ra (UGC: User
Generated Content) đang tăng trưởng với tốc độ cao và tiềm ẩn nhiều thông tin có giá

công bố. Bảng 2 cung cấp số liệu thặng kê về số bài báo được Google Scholar đánh
chi mục mà ticu dề/nội dung của các bài báo dó chứa một vài cụm từ dặc trưiiR cho tìm
kiếm thực thế/tìm kiếm neười. Hàng trăm bài viết có tiêu dề chứa một cụm từ trong số
các cụm từ "entky search"/’’object search'V'people search", "enterprise search" và hàng
chục nghìn bài viết có nội dung chứa một cụm từ nói trên. Hơn nữa. số lượng bài viết
©ông bố từ năm 2007 tới nay chiếm một tv lệ đáng kể cho thấy chủ đề nghiên cửu về
tìm kiếm thực thể/tìm kiếm người đang ngày càng được quan tâm hơn.
Báng 2, So lượng bài viết chứa các cụm từ tìm kiếm thực thế theo Gooẹle Scholar
Stt
Truy van
Ỏ tiêu đê Ó mọi nơi
Mọi lúc
2007-
nay
Mọi lúc
2007-nay
1. "entity search" OR "object search" 290 ! 16 5.780 2.330
9
"people search" OR "enterprise
search"
323
193 16.200 15.700
Tìm kiếm thực thể là một mức “tìm kiếm thông minh” nhằm tìm ra các thực thể
(dối tượng) từ các trang web mà không phải là tìm ra các trang web như tỉm kiếm
thông thường. Hình 1 mô tả sự phát triển (và khác biệt) từ tìm kiếm thông thường tới
tìm kiếm thực thề. Hệ thống tìm kiếm thực thể, đầu tiên, trích xuất thông tin thực thể
trong nội dung Irang web, tiếp theo đó, tích hợp các thông tin thuộc cùng một thực thể
ờ các Irang web khác nhau (cần xác nhận các thông tin được coi là thuộc cùng một
thực thể), vờ sau cùng, xếp hạng các thực thể kết quả để cung cấp cho ngưòi dùng.
Theo Chang c. Kevin và cộng sự [CC07, Cha08, CYC07b], tìm kiếm thực thể khác

trên máy tìm kiếm (Search engine marketing: SEM và Search engine optimization:
SIX)), theo đó chỉ tính riêng khu vực Bắc MỸ, doanh số SEM đã tăng từ 13,5 tỷ đô la
Mỹ (năm 2008) lên 14.6 tv đô la Mỹ (năm 2009) và đạt 16,6 tỷ đô la Mỹ (năm 2010)”.
Chris Sherman (2010). The Stale or Search Engine Marketing 2010, l n t|): / / se n r ch e n » i n e la n d . CO m/ll 111
statc-0 1’-search-c n tĩinc-market ins;-2010-38826
-14-
I'lurc thê người lả một trang, các loại thực thề. (đối tirọnc) dược quan lâm tim
kiếm nhiều Iihàt. Theo Javier Artiles và cộng sự ỊABGSI()|. lliếng kê tông họp từ các
hệ thốn« lìm kiếm phổ dụni’ cho thấv có tói 11% đến 17% truy vấn chứa một lên
nu ười và 4% truy vấn là truy vấn theo một ten ngươi. Vì vậy, các hội thào khoa Họe
llurờne niên về lìm: kiếm nuười và tổ chức (WePS 1,2,3: b11 p://n 1 p.uned.es/weps) dã
thu hút sụ quan tâm cua hàng chục tổ chức khoa học - cọng nghệ hàng đầu trên thế
giói, đồnẹ thòi, nhiều hệ thống tìm kiếm người và tổ chức đã hoạt động, nổi bật là
zoominfo (http://w\vw.zoominio.com) và iSearch (http:/Avww■ isearch■ com)■
Tại Việt Nam, một số hệ thống tìm kiếm tiếng Việt thông thường đã đượe thi
hành và đưa vào hoạt động (cao trào là vào các giai đoạn 2000-2002 hoặc 2006-2008),
tuy nhiên, ơ Việt Nam, rất ít tổ chức, công ty tiến hành việc nghiên cứu và triển khai
tìm kiếm thực thể; trên thực tế, Phòng Thí nghiệm Công nghệ Tri thức, Trường ĐHCN
là đơn vị dầu tiên ở Việt Nam hướng tới lĩnh vực này. Trên cơ sỏ' các kết quả nehiên
cứu và triển khai đã có về máy tìm kiếm ("Nhóm đề tài được tố chức CICC - Center of
the International Cooperation for Computerization - Nhật Bản ghi nhận là một trong
vài nhóm nổi bật về máy tìm kiếm tại Việt Nam iD/iaDanese/
tyousa/pdt' ppt/hi 8/18-R-13.zip)' nhóm đề tài đã xúc tiến học hỏi, cộng tác nghiên cứu
về tìm kiếm thực thể với nhóm nghiên cứu của PGS. Kevin Chang tại University of
Illinois at Urbana-Champaign (U1ƯC), Mỹ từ tháng 7/2008. Nhóm nghiên cứu của
PGS. Kevin Chang là một nhóm nehicn cứu mạnh trên thế giới về tìm kiếm thực thể
[CC07. CC10, CYC07a, CYC07b] và PGS. Kevin Chang đã làm việc trực tiếp với
nhóm thực hiện đề tài về tìm kiếm thực thể ỊChaOS]. Quá trình cộne; tác khoa học nói
trên đã được khởi động (Hình 2). Ket quả cộng tác nghiên cứu được ghi nhận bước đầu
|PCNN09| với đề xuất giải pháp nâng cao chất lượng trích chọn thông tin cho ba loại

kiếm thực thể. Để trích xuất được thông tin thực thể trong nội dung các trang web,
các giải pháp xử lý tiếng Việt phục vụ việc trích xuất thông tin thực thể cần được
thực hiện. Đề tài khảo sát các giải pháp tương ứng đã được thi hành đối với tiếng
Anh và các ngôn ngữ khác tiếng Anh (đính hướng tốt cho áp dụng vào tiếng Việt),
tìm hiểu các đặc thù tiếng Việt để lựa chọn phương án giải pháp thích hợp cho trích
xuất thông tin thực thể tiếng Việt.
- Nội dung nghiên cứu tiếp theo là xây dựng các mô hình thành phần và toàn bộ của
hệ thống tìm kiếm thực thể. Các mô hình thành phần định hướng tới trích xuất
thông tin, trích xuất thực thể và quan hệ thực thể, xếp hạng thông tin thực thể tìm
kiếm dược.
- Nội dung thứ ba là triển khai thử nghiệm các thành phấn, đánh giá các giải pháp và
xây dựng hệ thống tim kiếm thực thể tiếng Việt thừ nghiệm.
III. MỰC TIÊU, ĐỊA ĐIẺM, THỜI G IAN VÀ PHU ONG PHÁP
NGHIÊN CỨU
Đề tài QG . 10.38 được tiến hành tại T rư ờng Đại học Cô ng nghệ (Đ H C N ).
Đ H Q G H N trong thời gian từ tháng 1/2010 (ký hợp đồn g tháng 7/2010) đ ến tháng
II 201 I. trực liếp lại Plìòim Thí nghiệm "Cône imhệ Tri llúrc". Khoa CNTT. !)ề tài có
mực tiêu góp phần tăng c ườn li năng lực Iiííhiên cứu, triển khai cùa nhóm nehiên cửu
Khai phú dừ liệu VCI ứng dụng tại DI ICN llico một số ticu chí cụ thổ như sau:
Nghiên cứu, phát Iriên ÌÌ1ỎÍ sổ mó hình, giai pháp trong hệ ihống lìm kicni ¡hực
thê đê vù xây dựng mội hệ thong tìm kiếm thực /hê liểriiỉ Việt thử nghiệm thuộc
miên ứng trong Thương mại điên lư. y Sinh học và Chăm sóc sức khỏe. Biển đôi
khi hậu và Bào vệ môi trường.
- Dào tạo nhõn lực trình độ Thạc sỹ và Tiến sỹ chất lượng cao, công bổ quốc tế
các kêt quả nghiên cứu vé trích chọn
t h ô n i Ị
tin và hệ thống lìm kiếm thực thể
ì
rên
Internet.

Iiàv trình bày ba nội dung nghiên cứu trong ba mục con dưới đày. Tron tỉ mồi mục con.
kết quả Iiíỉhièn cửu theo nội dune tương ứng dược giới thiệu một cách sơ bộ theo nội
dung các bài báo liên quan. Toàn văn các bài báo được tập hợp trong Phụ lục 1.
L Xử lý tiếng Việt trong tìm kiểm thực thể
Nlnr trình bày tone quan về vấn đề nghiên cứu. tìm kiếm thực thể là phức lạp hơn
so với tìm kiếm thông thường, đòi hỏi sụ tham gia cúa không chì các giải pháp cơ bàn
mà còn các giải pháp nâng cao trong xử lý ngôn ngũ' tự nhiên. Trích chọn thực thể, đặc
trưng thực thế, quan hệ thực thể trở thành các bài toán cơ bản cùa tim kiếm thực the,
mỗi trong các bài toán này dòi hỏi sự tích hợp một số giải pháp CO' bản trong xử lý
ngôn ngữ tụ nhiên.
* Các mô hình tìm kiếm tlụrc thể do đề tài tiến hành trong giai đoạn tiền xử lý tiếng
Việt bao £ồm các buó'c tách từ, phân đoạn từ sau khi tách văn bản từ nội dung trang
web. Một số công cụ xử lý tiếng Việt vốn có của nhóm nghiên cửu được công bố dưới
dạng phần mềm tự do đã được sử dụng là http://ịvnsegmenter.sourceforge.neƯ,
hũp://itextpro.sourceforge.net/,
* Khai thác bổ sung tri thức miền ứng dụng (các tù điển, các kho ngữ liệu) để tăng
hiệu quà tìm kiếm thực thể tiếng Việt là một giải pháp được đề tài quan tâm nghiên
cứu và thực hiện.
Trong giải pháp tích hợp dùng rnô liìnli trường ngẫu nhiên có diều kiện đế đoán
nhận thực thể định danh và trích xuất thuộc tính người [Ỉ1MN1M111, từ điển tên người
Pacebook cùng với ba từ điển do chúng tôi xây dựng (từ dien 20.669 tên người Việt
Nam, từ điển 18.331 địa danh Việt Nam. từ điển 790 tiền tố cho thực thể người) đã
dược sử dụrm.
Trong các mô hình khai phá quan điểm dựa trên đặc trưng sản phẩm theo đánh giá
người dùng [THCQ11, QTHC1 ]], kho ngữ liệu VietSenti WorcFNet với 9333 synset và
9533 từ dã được dề tài xây dựng để phục vụ cho trích xuất từ quan điểm và xác định
trọng số quan điểm. Phục vụ gom nhóm các từ đặc trưng cùa sản phẩm [HTMQ1 I], tù
điển tra từ trực tuyến được sử dụng để làm giàu ngữ nghĩa phục vụ
phân cụm các từ đặc trưng có trong đánh giá người dùng. Mơn nữa, web tiếng Việt,
đặc biệt là wiki tiếng Việt cũng là một kho ngữ liệu tiếng Việt được đề tài khai thác

ở phần trên, một số từ điển được sử dụng trong giai đoạn gán thẻ.
Hình 6 trình bày một mô hình mở rộng thực thể người sử dụng các luật cú pháp
và cấu trúc Wrapper trong các trang web ỊMTTH10]. Một số quy tắc cú pháp được áp
dụng (chẳng hạn, tính tương đồna vị thế giữa các đối tượng trong danh sách liệt kê,
trong cùng một cột của các cấu trúc bảng) dược sử dụng để tìm thêm các ứng viên thực
thể mở rộng. Sau đó các ứng viên được tính hạng để chọn lựa các ứng viên tin tưởng
nhất.
-1 9-
I- e n t IU *“ CỈ -
X P i i l l i
c m i d i d i i t ự»
Hình 3. Mó hình quy nạp sinh Xpath-xvrapper để trích xuất đặc trưng thực thế
[NKỌlOị
Ĩ ^ c ĩ c t r n ì p
V<?C'
Ĩ O /
g G * ' t G f a r t c M p h a s c
P a i r m g ;
P e n tx ir tr
s e l c c t i c m
F e a t u i e
v e c t o r s

T
ị . _ .
N

S V I v l
c l n s s i t ' i c r
J ĩ< * < ~ ơ í ĩ7 ĩi. r /C ?>i j . ’> ỉ> a s G

dược tải về. tách thè siêu ngôn niiữ. chuẩn hóa và được gán thè (POS). Giai đoạn 2 tiến
hành việc ních chọn tập các lừ đặc Irưna sản phẩm (feature wolds) và các từ đánli giá
(opinion words) tương ứng trong mỗi văn bản đánh giá của người dùng. Giai đoạn 3
ihực hiện việc định hướng (khen, chê. trunu gian) đối với mỗi dặc trưng trong một
nhận xét người dùng. Trong giai đoạn này, kho ngữ liệu VietSentiWordNel dược sử
dụng. Giai đoạn 4 tích hợp kết quả cùa mọi đánh giá người dùng.
Một bài toán con cần giải quyết trong mô hình này là gom nhóm từ đặc trưng
san phẩm. Đe chi về cùng một đặc trưng sàn phẩm, các ngưòĩ dùna khác nhau có thể
sử dụng các từ khác nhau, và vì vậy, cần phải góm nhóm từ đặc trưng này về cùng một
từ đặc trưng đại diện. Nhóm thực hiện đề tài sử dụng giải pháp bán giám sát SVM-
kNN để eiài quyết bài toán con này (Hình 8). Như đã được giói thiệu, từ điển tra từ
trực tuyến được chúng tôi sử dụng.
2.3. MỘI so mô hình, giải pháp lìm kiếm thực thể tiếng Việt khác
Trong quá trình thực hiện đề tài. nhóm thực hiện dã tiến hành một số mô hình,
giải pháp khác cho một lóp đa dạng các bài toán thành phần troiiR tìm kiếm thực thể
nhằm thi hành từng bộ phận mô hỉnh tìm kiếm thực thể chung.
Hình 9 mô tả một mô hình tim kiếm người theo một tên người tiếng Việt cho
trước. ĩ lệ thống hoạt động theo kiểu hệ thống tìm kiếm lớp trên (Meta-Search Engine).
Với một tên người tiếng Việt, hệ thống đi tìm các trang web có chứa tên người này
thông qua các máy tìm kiếm phổ dụng (Google, Yahoo ). Sau đó. hệ thống biểu diễn
trang web theo mô hình thông tin người, tiến hành phân cụm để có được các cụm văn
bản (các cụm này định hướng tới một người). Tiến hành trích chọn và xếp hạng thực
thể. hệ thống cung cấp những người khác nhau cùng sừ dụng một tên dầu vào.
Mô hình trích xuất chủ đề ưa thích của người dùng [MXH10] được trình bày tại
Hình 10. Phương pháp chủ đề ẩn được sử dụng để làm giàu thông tin hỗ trợ việc làm
phù hợp giữa các chủ đề chung và chủ đề người dùng quan tâm trong quá khứ dê tim
ra chủ đề ưa thích.
Hình 1 1 mô tả mô hình hệ thống hòi - đáp về người tiếng Việt. Vói một truy
vấn người dùng, đầu tiên, hệ thống tim câu trả lời phù hợp trong CSDL để cung cấp
cho người dùng; sau đó nếu không có sẵn câu trả lời, hệ thống tìm kiêm trên Internet

Frequent Feature Set
Opinion Word Set 1
Svnonvm Feature Grouping
%
>
POS tsEĩine
Pilase 1: Pre-processing ;
Explicit F eature I
Words Extractas 4-
i Opinion Words 1
T Extractáis T
1 Implicit F esture
Y Words Extrsctine
Phase 2: Feature and ooinio nv ord eiiracrins
Hình 7. Mô hình trích xuất và tổng hợp quan điéni theo đặc inmẹ lừ đánh giả sàn
phẩm [QTHC11, THCQ11]
decenary
Co« ot
«*l*evfcorik
Sntc-i
pu.Mom*
reviews
feilte*« «atc-res-sjon
F éa 'u re çroup»
i S ef r * n ct s cor'lötf»
Ị Ị :oJTeic*3n<í»ng f«a turiỉ Ị
I ***pfr«;'VKvr
111
fifc wv.vi


chứ a tên người
-
bảru-

M ô tã
cụm
Đ ặ c ư \ni2; tương
ứ ng vớ i m ỗ i cụm
TYích cho n
đ ặc trưng
C ụm c ác trang
w e b
___
Ph ân
cụ m
M ò h ìn h thòne
tin Ngư ời
B iề u diễ n các
đặc trưng
T ậ p c ác đặc
trưng
____
Hìnli 9. MÔ hình tìm kiếm người cùng tên tiêng Việí
ĨH Ívrn » !
Daravpf
ị linfa
s \
Ị Mod. i L Ki i ml
I ’. • ' rr « T Ji SI~T\
r n{or lnf,

’**> ' *>“ "■*" Os. * K )
ị __ t
cáo c i p t u khca
M o n g
w
___________
_
—_ k, li -»n qu«Ji nhái V
K . w -e \v
//;/;/? /3. A/õ /77/7/7
phân cum ảnh theo tân đũc Inmợ kêt hơD văn bàn
-23-
Hình 12 mô tả một hệ thống tìm kiếm da phưong tiện. MỘI hệ thống như vậy cỏ
thê dược tích hợp làm một thành phân của hệ thống tìm kiểm thực thế với chức năng
tìm kiêm các đặc trưng đa phương tiện lương ứng với thực thê đối tượng (chăng hạn,
lìm ảnh cùa thực thể người, thực thê doanh nghiệp ). Hệ ihống tìm kiếm đa phương
tiện ở dây cũng cũng hoạt động theo mô hình hệ thống lìm kiếm lớp trên. Tính đa hình
cưa Iruy vấn tim kiếm ánh được xem xét trong mô hỉnh phân cụm anh với mục đích
gợi V người dùng trong tìm kiếm ảnh (Hình 13).
3. Trìến khai các thành phần và hệ thong tìm kiếm thực thế tiếng Việt
Trong cả 8 công trình khoa học, nhóm thực hiện đề tài đã tiến hành xây dựng
các hệ thong thực nghiệm đánh giá kết quả các mô hỉnh và giải pháp đề xuất. Ngoài ra,
nhóm thực hiện đề tài đã tiến hành phát triển, nâng cấp Hệ thống tìm kiếm giá cả
VNGia và xây dựng vài hệ thống thử nghiệm khác. Dưới đây mô tả một số hệ thống
thực nghiệm quan trọng được thực hiện trong đề tài.
3.1. Phát triền nâng cấp Hệ thống tìm kiếm giá cả VNGia (VnGia.com)
M oriiilcTỉni kỉốm MocluleTlm kiếm
trên Web trèncỉiđộng
Hình 14. Sơ đồ hệ thống tìm kiếm giá cả VNGia
Trong phiên bản nâng cấp, các giải thuật xử lý trong hệ thống lìm kiếm giá cả


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status