Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 04 - Pdf 78

Mô hình rút trích cm t c trng ng ngha trong ting Vit 31 Chng 3

TNG QUAN
CÁC MÔ HÌNH RÚT TRÍCH
CM T C TRNG
Các nghiên cu v cm t c trng c phân loi thành hai hng tip cn
chính là rút trích (extraction) và xác nh (assignment) (Medelyan và Witten,
2006).
3.2.1 Hng tip cn rút trích cm t c trng
Phng pháp rút trích cm t c trng (CTT) thông thng gm hai công
on là tuyn chn các cm t d tuyn và chn lc các CTT trong các cm t
d tuyn.
- Công on tuyn chn: Các cm t d tuyn bao gm các t và cm t c
rút trích t vn bn.  thc hin iu này, mt b gán nhãn t loi và b phân
tích cú pháp n gin c s dng  xác nh các cm t d tuyn.
- Công on chn lc: Công on này s phân tích các cm t d tuyn theo
phng pháp chn lc da vào kinh nghim  xác nh các CTT trong các cm
t d tuyn. Các phng pháp chn lc có th c phân thành hai hng tip cn
chính là hc máy (machine learning) và hng tip cn tng trng (symbolic)
cùng vi các k! thut mà chúng s dng. Trong khi các phng pháp hc máy i
xây dng mô hình thng kê t các tp d liu ã c hun luyn thì vi các
phng pháp c trng, các nhà nghiên cu a ra cách chn lc tt nht là da
vào các phân tích th công trên các tài liu và các CTT ca chúng.
3.2.1.1 Phng pháp hc máy
Rút trích CTT có th c xem là mt quá trình hc có giám sát t các m"u
th . Vn  chính là phi nh ngh#a c tp tính cht tính c trng ca
CTTNN. Tp tính cht này có th giúp phân bit c các CTT và các cm t
không c trng trong các cm t d tuyn. Gii thut hc c$n hai tp tài liu có
gán nhãn ca CTT b%ng phng pháp th công: mt tp dùng  hun luyn 
to mô hình phân loi. Tp tài liu còn li dùng  kim nh và ánh giá mô hình.
Trong tp hun luyn, các CTT có th là m"u âm (m"u sai) và m"u dng (m"u
úng).
Mô hình rút trích cm t c trng ng ngha trong ting Vit
chui hu t (suffix sequence) và trng thái tcu o bng nhng chu a
Mô hình rút trích cm t c trng ng ngha trong ting Vit 34
mt m t (acronym status). Kt qu, theo ánh giá ca tác gi thì gii thut này
t c  chính xác là 3,25 % (so vi gii thut KEA là 3,03%).
GenEx là mt gii thut lai di truyn (hybrid genetic) cho bài toán rút trích
CTT do Turney & hi ng nghiên cu quc gia Canada phát trin. GenEx bao
gm hai thành ph$n: gii thut Genitor và b rút trích (extractor) (Turney, 1999).
B rút trích phi hp tp các ký hiu tng trng thu c qua kinh nghim  to
mt danh sách xp loi các CTT, còn các cm t d tuyn là các cm t bao
gm trên ba t.  chn lc các CTT trong các cm t d tuyn, mi cm t
c cho im cho mi l$n xut hin b%ng các v trí ca nó xut hin trong vn
bn. i vi các cm t d tuyn có trên mt t thì im ca chúng s c gia
tng. B&i vì, thông thng chúng có im thp hn các cm n t. Sau khi xóa
các trng hp trùng và chn lc các dng có t$n sut $y  nht cho mi cm t
d tuyn ã c tinh ch, b rút trích a ra các cm t có xp loi cao nht. B
rút trích có tt c 12 thông s và c (flag) (ch,ng hn nh h s gia tng cho mi
cm t vi 2 thông s ca các CTT kt qu). Gii thut Genitor c áp dng 
xác lp các thông s trên mt cách tt nht t tp d liu hun luyn. Tóm li, tác
gi cho r%ng quyt nh chn lc các cm t d tuyn còn ph thuc nhiu yu t.
Tác gi  xut mô hình kt hp ca tp các cm t d tuyn dùng thông tin tng
h (PMI- Pointwise Mutual Information) gia mt CTT và k CTT trc ó.
Tuy nhiên, PMI ca tp CTT c$n mt tp d liu (dataset)  ln. Turney c+ng
 xut dùng truy vn trong các ng c tìm kim (Seach Engine) trên Web  có
mt c lng s'p xp thô, mc dù iu này có hn ch v bng thông mng
Internet và không hiu qu v thi gian.
Trong các h thng va trình bày trên, KEA là hng tip cn rút trích CTT
n gin nht. GenEx dùng phng pháp ánh giá theo kinh nghim phc tp hn

2

vi W là tng trng s ca tt c t trong cm t gi, F là t$n sut ca cm t
trong tài liu, và N là chiu dài ca cm t tính theo n v t (cao nht là 4).
Tt c các cm t d tuyn c s'p xp theo im s ca chúng. Bc cui
cùng, tác gi áp dng k! thut da trên các m"u  thit lp các vai trò và quan h
ng ngh#a gia các cm t còn li. Tác gi tp trung vào ba vai trò chính (nh
h ng (influence), i tng (object), và c tính (property)) bao ph các m"u
c lp vi l#nh vc nh “effect of influence on property of object”. Các cm t
mà không c bao ph b&i bt c m"u nào thì s c xóa. Hng tip cn này
là s cng sinh hp lý gia CTT và thông tin rút trích. Nhóm tác gi không cung
cp bt c mt s ánh giá nào v phng pháp này, tuy nhiên h ch* trình bày
mt s minh ha ni bt rt áng quan tâm.
Mô hình rút trích cm t c trng ng ngha trong ting Vit 36
3.2.2 Hng tip cn xác nh cm t c trng

Tng phn vi các phng pháp rút trích, các phng pháp xác nh CTT
tiêu biu c dùng khi tp các CTT d tuyn có gii hn, c nh. Tp này có
c t tp t vng có th iu tit c hay tp các tiêu . Phng pháp này
phân tích các c trng ca các tài liu hn là các c trng ca tng cm t 
tìm ra các CTT thích hp t tp t vng. / ây, s phân loi nh phân có th
c hun luyn cho tng CTT trong tp có k ph$n t ca mt vn bn, vic xác
nh CTT cho mt vn bn b%ng cách thc hin k l$n phân loi nh phân và ánh
giá chúng  xác nh kt qu thích hp.
Trong hng tip cn xác nh,

CTT có  u tiên cao nht, các thông tin

hn áng k so vi các công b ca KEA và GenEx (theo hng tip cn rút
trích). Hulth mô t quá trình thc hin gii thut ã c ci tin sau khi s dng
các k! thut hng ngôn ng cho khâu tuyn chn và phân loi. Kt qu nhn
nh ca Hulth là mt ng lc thúc 1y  khai thác các k! thut x lý ngôn ng
t nhiên sâu hn cho bài toán rút trích và xác nh CTT.
3.3 S tng quan gia hng tip cn rút trích và xác nh CTT
Hng tip cn rút trích liên quan cht ch vi hng xác nh CTT, nhng
nó gii quyt bài toán CTT theo mt chin lc hoàn toàn khác.
Hng rút trích t c s& trên vic phân tích các tính cht ca các CTT mà
nó có th tính toán khá n gin và nhanh chóng. Phng pháp rút trích này thích
hp cho c hng tip cn hc máy và hng tip cn cho im s n gin i
vi các cm t d tuyn hay danh t ng $u ca chúng, em li kt qu 
chính xác tng ng nhau (Barker và Cornacchia, 2000). Tuy nhiên, hiu sut
ca hng tip cn rút trích v"n cha   thay th công vic rút trích CTT
b%ng th công.
Vi hng tip cn xác nh, mc dù các CTT c rút trích t ng có 
chính xác khá cao (Hulth, 2004), nhng các t trong các CTT s b mt thông tin
do hng tip cn này không cha bt c thông tin v các CTT mà chúng không
c so trùng. Ngay c khi hai tp CTT kt qu ca hai chuyên gia thc hin th
công trên cùng mt tài liu thì hai tp CTT này thông thng c+ng không so
trùng nhau. Mc dù, các CTT này liên quan cht ch vi vn bn c xác nh.
Vic rút trích CTT t ng không m bo tính chính xác cho các CTT.
Thc t các CTT thu c thng là quá tng quát hoc b bin dng. Ngay c
các hng tip cn ni bt b&i các k! thut hng n ngôn ng nh so trùng m"u
t loi hay nhóm cm danh t c+ng rút trích cm t không úng vn phm hoc
Mô hình rút trích cm t c trng ng ngha trong ting Vit 38
thu c các cm t vô dng (vì không th tránh các li do các công c ngôn ng

bc sau:
Mô hình rút trích cm t c trng ng ngha trong ting Vit 39
o Bc 1: da vào các thông tin ng cnh là các t, hay cm t quan h
 nhn din các CTTNN ( trình bày trong chng 4).
o Bc 2: trong trng hp gia các cm t d tuyn không có các t,
hay cm t quan h thì quá trình nhn din CTTNN s c truy vn
da trên Ontology (trình bày trong chng 4).
o Bc 3: nu các cm t d tuyn cha tn ti trong c s& tri thc
(Ontology), thì vic xác nh cm t d tuyn nào là CTTNN s da
vào phng pháp hc máy (trình bày trong chng 5).


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status