Mô hình rút trích cm t c trng ng ngha trong ting Vit 102
Chng 6
MÔ HÌNH RÚT TRÍCH CM T
C TRNG NG NGHA TRONG
TING VIT (ViKE)
KT HP HNG TIP CN RÚT TRÍCH VÀ
HNG TIP CN XÁC NH
trích CDTTNN trong ting Vit, cng nh mô hình kin trúc ba lp ca h
thng; Phn 6.4 phân tích và ánh giá hiu sut rút trích CDTTNN ca h thng
ViKE; Phn cui cùng là kt chng.
6.2 Mô hình rút trích CDTTNN trong ting Vit
Mô hình tng quát ViKE là s kt hp hai mô hình ViKEa và ViKEe c
trình bày Hình 6.1. Trong mô hình tng quát rút trích cm danh t c trng ng ngha trong
ting Vit, quy trình c thc hin ln lt qua các công on sau:
Hình 6.1 Mô hình tng quát rút trích cm danh t c trng ng ngha
ViKE.
Tin x lý
tr"ng hp các câu mà không cha các t, hay cm t quan h gia các
cm danh t d tuyn, nhng các cm danh t d tuyn có khái nim
trong ViO).
o Bc 3: Nu các cm danh t d tuyn cha t!n ti trong c s tri thc
hay các cm danh t d tuyn không có khái nim trong ViO , thì vic
xác nh cm danh t d tuyn nào là CDTTNN s# da vào phng
pháp hc máy thông qua mô hình ViKEe (ng vi tr"ng hp các câu
mà không cha các t, hay cm t quan h gia các cm danh t d
tuyn và các cm danh t d tuyn không có khái nim trong ViO).
V ý tng, gii thut xác nh các cm danh t c trng ng ngha trong mô
hình ViKE c trình bày tng quát nh sau:
GII THUT 6.1 Xác nh cm danh t c trng ng ngha trong ViKE
- Nhp: Tp các câu {S
1
, ..., S
K
},ViO
- Xut: Cm danh t c trng ng ngha (CDTTNN) cho m$i câu
- Phng pháp:
1. for i = 1 to K do Word_Segmentation(S
i
); /* phân on t */
2. for i = 1 to K do POS_Tagger(S
i
); /* gán nhãn t loi cho m$i t */
Mô hình rút trích cm t c trng ng ngha trong ting Vit 105
3. for i = 1 to K do Candidate_Identification(S
cm danh t d tuyn, và cng không cha các cm danh t d tuyn có
khái nim trong ViO.
Các khi này c thit k trong môi tr"ng Java thành bn công c %c lp
Mô hình rút trích cm t c trng ng ngha trong ting Vit 106
là vnWordSegmentation, vnPOSTagger, ViKEa, ViKEe mà chúng d& dàng tích
hp vào các h thng khác.
ViDic
Tp lut
quan h
Kho ng liu
hun luyn 2
Kho ng liu
hun luyn 1
Tp lut kt
hp
Tp lut cu
trúc cm
danh t
Các
CDTTNN