Mô hình rút trích cm t c trng ng ngha trong ting Vit 31 Chng 3
TNG QUAN
CÁC MÔ HÌNH RÚT TRÍCH
CM T C TRNG
Các nghiên cu v cm t c trng c phân loi thành hai hng tip cn
chính là rút trích (extraction) và xác nh (assignment) (Medelyan và Witten,
2006).
3.2.1 Hng tip cn rút trích cm t c trng
Phng pháp rút trích cm t c trng (CTT) thông thng gm hai công
on là tuyn chn các cm t d tuyn và chn lc các CTT trong các cm t
d tuyn.
- Công on tuyn chn: Các cm t d tuyn bao gm các t và cm t c
rút trích t vn bn. thc hin iu này, mt b gán nhãn t loi và b phân
tích cú pháp n gin c s dng xác nh các cm t d tuyn.
- Công on chn lc: Công on này s phân tích các cm t d tuyn theo
phng pháp chn lc da vào kinh nghim xác nh các CTT trong các cm
t d tuyn. Các phng pháp chn lc có th c phân thành hai hng tip cn
chính là hc máy (machine learning) và hng tip cn tng trng (symbolic)
cùng vi các k! thut mà chúng s dng. Trong khi các phng pháp hc máy i
xây dng mô hình thng kê t các tp d liu ã c hun luyn thì vi các
phng pháp c trng, các nhà nghiên cu a ra cách chn lc tt nht là da
vào các phân tích th công trên các tài liu và các CTT ca chúng.
3.2.1.1 Phng pháp hc máy
Rút trích CTT có th c xem là mt quá trình hc có giám sát t các m"u
th . Vn chính là phi nh ngh#a c tp tính cht tính c trng ca
CTTNN. Tp tính cht này có th giúp phân bit c các CTT và các cm t
không c trng trong các cm t d tuyn. Gii thut hc c$n hai tp tài liu có
gán nhãn ca CTT b%ng phng pháp th công: mt tp dùng hun luyn
to mô hình phân loi. Tp tài liu còn li dùng kim nh và ánh giá mô hình.
Trong tp hun luyn, các CTT có th là m"u âm (m"u sai) và m"u dng (m"u
úng).
Mô hình rút trích cm t c trng ng ngha trong ting Vit
chui hu t (suffix sequence) và trng thái tcu o bng nhng chu a
Mô hình rút trích cm t c trng ng ngha trong ting Vit 34
mt m t (acronym status). Kt qu, theo ánh giá ca tác gi thì gii thut này
t c chính xác là 3,25 % (so vi gii thut KEA là 3,03%).
GenEx là mt gii thut lai di truyn (hybrid genetic) cho bài toán rút trích
CTT do Turney & hi ng nghiên cu quc gia Canada phát trin. GenEx bao
gm hai thành ph$n: gii thut Genitor và b rút trích (extractor) (Turney, 1999).
B rút trích phi hp tp các ký hiu tng trng thu c qua kinh nghim to
mt danh sách xp loi các CTT, còn các cm t d tuyn là các cm t bao
gm trên ba t. chn lc các CTT trong các cm t d tuyn, mi cm t
c cho im cho mi l$n xut hin b%ng các v trí ca nó xut hin trong vn
bn. i vi các cm t d tuyn có trên mt t thì im ca chúng s c gia
tng. B&i vì, thông thng chúng có im thp hn các cm n t. Sau khi xóa
các trng hp trùng và chn lc các dng có t$n sut $y nht cho mi cm t
d tuyn ã c tinh ch, b rút trích a ra các cm t có xp loi cao nht. B
rút trích có tt c 12 thông s và c (flag) (ch,ng hn nh h s gia tng cho mi
cm t vi 2 thông s ca các CTT kt qu). Gii thut Genitor c áp dng
xác lp các thông s trên mt cách tt nht t tp d liu hun luyn. Tóm li, tác
gi cho r%ng quyt nh chn lc các cm t d tuyn còn ph thuc nhiu yu t.
Tác gi xut mô hình kt hp ca tp các cm t d tuyn dùng thông tin tng
h (PMI- Pointwise Mutual Information) gia mt CTT và k CTT trc ó.
Tuy nhiên, PMI ca tp CTT c$n mt tp d liu (dataset) ln. Turney c+ng
xut dùng truy vn trong các ng c tìm kim (Seach Engine) trên Web có
mt c lng s'p xp thô, mc dù iu này có hn ch v bng thông mng
Internet và không hiu qu v thi gian.
Trong các h thng va trình bày trên, KEA là hng tip cn rút trích CTT
n gin nht. GenEx dùng phng pháp ánh giá theo kinh nghim phc tp hn
2
vi W là tng trng s ca tt c t trong cm t gi, F là t$n sut ca cm t
trong tài liu, và N là chiu dài ca cm t tính theo n v t (cao nht là 4).
Tt c các cm t d tuyn c s'p xp theo im s ca chúng. Bc cui
cùng, tác gi áp dng k! thut da trên các m"u thit lp các vai trò và quan h
ng ngh#a gia các cm t còn li. Tác gi tp trung vào ba vai trò chính (nh
h ng (influence), i tng (object), và c tính (property)) bao ph các m"u
c lp vi l#nh vc nh “effect of influence on property of object”. Các cm t
mà không c bao ph b&i bt c m"u nào thì s c xóa. Hng tip cn này
là s cng sinh hp lý gia CTT và thông tin rút trích. Nhóm tác gi không cung
cp bt c mt s ánh giá nào v phng pháp này, tuy nhiên h ch* trình bày
mt s minh ha ni bt rt áng quan tâm.
Mô hình rút trích cm t c trng ng ngha trong ting Vit 36
3.2.2 Hng tip cn xác nh cm t c trng
Tng phn vi các phng pháp rút trích, các phng pháp xác nh CTT
tiêu biu c dùng khi tp các CTT d tuyn có gii hn, c nh. Tp này có
c t tp t vng có th iu tit c hay tp các tiêu . Phng pháp này
phân tích các c trng ca các tài liu hn là các c trng ca tng cm t
tìm ra các CTT thích hp t tp t vng. / ây, s phân loi nh phân có th
c hun luyn cho tng CTT trong tp có k ph$n t ca mt vn bn, vic xác
nh CTT cho mt vn bn b%ng cách thc hin k l$n phân loi nh phân và ánh
giá chúng xác nh kt qu thích hp.
Trong hng tip cn xác nh,
CTT có u tiên cao nht, các thông tin
hn áng k so vi các công b ca KEA và GenEx (theo hng tip cn rút
trích). Hulth mô t quá trình thc hin gii thut ã c ci tin sau khi s dng
các k! thut hng ngôn ng cho khâu tuyn chn và phân loi. Kt qu nhn
nh ca Hulth là mt ng lc thúc 1y khai thác các k! thut x lý ngôn ng
t nhiên sâu hn cho bài toán rút trích và xác nh CTT.
3.3 S tng quan gia hng tip cn rút trích và xác nh CTT
Hng tip cn rút trích liên quan cht ch vi hng xác nh CTT, nhng
nó gii quyt bài toán CTT theo mt chin lc hoàn toàn khác.
Hng rút trích t c s& trên vic phân tích các tính cht ca các CTT mà
nó có th tính toán khá n gin và nhanh chóng. Phng pháp rút trích này thích
hp cho c hng tip cn hc máy và hng tip cn cho im s n gin i
vi các cm t d tuyn hay danh t ng $u ca chúng, em li kt qu
chính xác tng ng nhau (Barker và Cornacchia, 2000). Tuy nhiên, hiu sut
ca hng tip cn rút trích v"n cha thay th công vic rút trích CTT
b%ng th công.
Vi hng tip cn xác nh, mc dù các CTT c rút trích t ng có
chính xác khá cao (Hulth, 2004), nhng các t trong các CTT s b mt thông tin
do hng tip cn này không cha bt c thông tin v các CTT mà chúng không
c so trùng. Ngay c khi hai tp CTT kt qu ca hai chuyên gia thc hin th
công trên cùng mt tài liu thì hai tp CTT này thông thng c+ng không so
trùng nhau. Mc dù, các CTT này liên quan cht ch vi vn bn c xác nh.
Vic rút trích CTT t ng không m bo tính chính xác cho các CTT.
Thc t các CTT thu c thng là quá tng quát hoc b bin dng. Ngay c
các hng tip cn ni bt b&i các k! thut hng n ngôn ng nh so trùng m"u
t loi hay nhóm cm danh t c+ng rút trích cm t không úng vn phm hoc
Mô hình rút trích cm t c trng ng ngha trong ting Vit 38
thu c các cm t vô dng (vì không th tránh các li do các công c ngôn ng
bc sau:
Mô hình rút trích cm t c trng ng ngha trong ting Vit 39
o Bc 1: da vào các thông tin ng cnh là các t, hay cm t quan h
nhn din các CTTNN ( trình bày trong chng 4).
o Bc 2: trong trng hp gia các cm t d tuyn không có các t,
hay cm t quan h thì quá trình nhn din CTTNN s c truy vn
da trên Ontology (trình bày trong chng 4).
o Bc 3: nu các cm t d tuyn cha tn ti trong c s& tri thc
(Ontology), thì vic xác nh cm t d tuyn nào là CTTNN s da
vào phng pháp hc máy (trình bày trong chng 5).