Mô hình rút trích cm t c trng ng ngha trong ting Vit 114 Chng 7 TNG KT
Vi mc tiêu ca tài là nghiên cu và phát trin mô hình rút trích cm danh
t c trng ng ngha trong ting Vit, lun án ã t c các kt qu sau:
- Lun án ã kho sát các u im và hn ch trong các mô hình rút trích cm
t c trng. T ó, lun án ã xut mt mô hình kt hp hng tip cn xác
nh và hng tip cn rút trích cm danh t c trng ng ngha trong ting Vit.
Mô hình này ã óng góp vào vic x lý ng ngha vn bn và các ng dng x lý
ngôn ng t nhiên.
- Nghiên cu và phát trin mô hình theo hng tip cn xác nh cm danh t
c trng ng ngha trong ting Vit. khc phc vn cn thit phi có kho
ng liu ting Vit có chú gii ln khi xác nh cm danh t c trng ng ngha,
lun án khai thác mt bách khoa toàn th trc tuyn vi ni dung m Wikipedia
xây dng Ontology ting Vit ViO và t in ViDic. T ó lun án ã xut
mô hình ViKEa. ây là mô hình s dng phng pháp so trùng m u da trên c
s tri thc và Ontology.
- Nghiên cu và phát trin mô hình theo hng tip cn rút trích cm danh t
c trng ng ngha trong ting Vit, cp vn xác nh các tính cht c
trng cho nhn din các CDTTNN trong câu n ting Vit, trong ó có các câu
truy vn, t ó xut mô hình ViKEe. ây là mô hình s dng máy h!c vect
h" tr, c th là gii thut SMO gii quyt bài toán thiu kho ng liu ln
có chú gii trong quá trình hun luyn. Mô hình h!c máy có giám sát ViKEe da
theo bn tính cht c trng: (1) v trí t trong câu; (2) nhãn t loi; (3) cu trúc
cm t; (4) các t quan h gia các cm danh t ca các cm danh t d tuyn
rút trích các CDTTNN.
- Phát trin mô hình kt hp gia hng tip cn xác nh và hng tip cn
rút trích cm danh t c trng ng ngha trong ting Vit da trên các mô hình
ã phát trin là hai mô hình ViKEa và ViKEe. T ó lun án xut mô hình
ViKE. ây là mô hình kt hp hai mô hình ViKEa và ViKEe vi mc tiêu khai
thác ti a chính xác ca vic rút trích CDTTNN ca tng mô hình.
Mô hình rút trích cm t c trng ng ngha trong ting Vit
hun luyn m u cho mô hình h!c máy cn c m rng cho tng lnh vc c th,
c(ng nh cp nht thêm các kho ng liu hun luyn nh#m nâng cao chính xác
ca h thng.
Mô hình rút trích cm t c trng ng ngha trong ting Vit 117
- Mt hng phát trin khác c(ng rt quan tr!ng là vic áp dng các mô hình này
cho các ngôn ng khác, vì các mô hình c phát trin, kho sát, c(ng nh thc
nghim trong lun án này u trên ting Vit. Thông qua vic phát trin mô hình
cho các ngôn ng khác (nh ting Anh) so sánh ánh giá phng pháp c
xut trong lun án vi các phng pháp khác, c(ng nh ánh giá quá trình ti u
chi phí trong mô hình kt hp ViKE.
7.4 Kt lun
Lun án ã trình bày các hng tip cn gii quyt bài toán rút trích các
cm danh t c trng ng ngha ca câu n ting Vit. T phân tích và ánh giá
tng hng tip cn, lun án ã xut mt mô hình ViKE cho bài toán rút trích
CDTTNN trong các câu ting Vit. Mô hình ViKE là s kt hp ca hai mô
hình theo hng tip cn ngôn ng và h!c máy (mô hình ViKEa và ViKEe).
u tiên là mô hình ViKEa, theo hng tip cn ngôn ng da trên Ontology
ViO (c khai thác t Vi.Wiki) vi k) thut so trùng m u và các quan h ng
ngha gia các th loi trên Ontology, c(ng nh các khâu tin x lý phân on t
và gán nhãn t loi. Kt qu t c ca mô hình ViKEa khá cao trong tr&ng
hp các cm danh t ca các câu có các t quan h, hoc có các khái nim tng
ng trong ontology ViO. Ngc li, các CDTTNN c nhn dng sai u
thuc vào tr&ng hp khái nim cha t%n ti trong Ontology ViO. ây là mt hn
ch ca mô hình ViKEa và c(ng là ng c nghiên cu ca lun án cho mô hình
theo hng tip cn h!c máy xây dng các tng t ng ngha gia các
cm danh t. T vic ánh giá và so sánh kt qu thu c t mô hình ViKEa,
lun án rút ra c các tính cht c trng v ngôn ng ca CDTTNN. Các tính
hng gii quyt cho vn thiu kho ng liu h" tr x lý ngôn ng ting Vit.
Mô hình rút trích cm t c trng ng ngha trong ting Vit 119
CÁC BÀI BÁO CA TÁC GI
LIÊN QUAN N LUN ÁN
Tp chí Khoa hc
[1] Chau Q. Nguyen, Tuoi T. Phan, 2009. Hng tip cn xác nh cm t c
trng ng ngha trong ting Vit da trên Wikipedia, Tp chí Công ngh
thông tin & truyn thông, ISSN 0866-7039, Tp V-1, s 2(22): 30-37.
[2] Nguy,n Quang Châu, Phan Th Ti, 2008. Nhn din cm t c trng ng
ngha trong Ting Vit, Tp chí Công ngh thông tin & truyn thông, ISSN
0866-17093, s 19: 64-73.
[3] Nguy,n Quang Châu, H%ng Thanh Lun, Phan Th Ti, 2008. Mt hng
tip cn h!c máy cho bài toán rút trích cm t c trng ng ngha trong ting
912590-4-0, Studia Informatica Universalis, pp.41-46.
[9] Chau Q. Nguyen, Tuoi T. Phan, 2006. A Hybrid Approach to Vietnamese
Part-Of-Speech Tagging, In Proceedings of The 9th International Oriental
COCOSDA 2006 Conference - O-COCOSDA’06, 12/2006, Malaysia, pp.157-
160.
[10] Chau Q. Nguyen, Thanh C. Nguyen, Tuoi T. Phan, 2006. Vietnamese Key
Phrase Extraction for Information Retrieval, In Proceedings of The 9th
International Oriental COCOSDA 2006 Conference - O-COCOSDA’06,
12/2006, Malaysia, pp.169-172.
[11] Chau Q. Nguyen, Tuoi T. Phan, Tru H. Cao, 2006. Vietnamese Proper Noun
Recognition, In Proceedings of The 4th International IEEE Conference on
Computer Sciences- RIVF’06, ISSN 1621-0065, IEEE Press, pp.144-151.
Hi ngh Khoa hc Quc gia
[12] Nguy,n Quang Châu, Phan Th Ti, Cao Hoàng Tr, 2005. Gán nhãn t
loi cho ting Vit da trên vn phong, trong k yu ca hi tho khoa hc
quc gia ln th II, Nghiên cu c bn và ng dng công ngh thông tin-
FAIR’05, 9-2005, pp.106-116.