slike thuyết trình báo cáo đề tài xây dựng bộ tách từ tiếng việt - Pdf 23

Giáo viên hướng dẫn : PGS.Lê Thanh Hương
Nhóm 27 : TrầnQuangHưng - 20071489
Nguyễn Nam Thanh - 20072552
Đỗ Quang Trường - 20063382
Võ Hải Nam - 20073735
I. Đ t v n đặ ấ ề
II. Cách ti p c n gi i quy t v n đế ậ ả ế ấ ề
III. Cài đ tặ
IV. Th nghi m và đánh giá h th ngử ệ ệ ố

Tách t là bư c x lý quan tr ng đ i v i các ừ ớ ử ọ ố ớ
h th ng XLNNTN,đ c bi t là đ i v i các ệ ố ặ ệ ố ớ
ngôn ng đơn l p, ví d : âm ti t Trung Qu c, ữ ậ ụ ế ố
âm ti t Nh t, âm ti t Thái, và ti ng Vi t.ế ậ ế ế ệ

M c đích: xác đ nh ranh gi i c a các t trong ụ ị ớ ủ ừ
câu.

Bài toán tách t có 3 hư ng ti p c n chính :ừ ớ ế ậ
· Ti p c n d a vào t đi n c đ nh.ế ậ ự ừ ể ố ị
· Ti p c n d a vào th ng kê.ế ậ ự ố
· Ti p c n d a trên c hai phương pháp trên.ế ậ ự ả

Các phương pháp đư c s d ng trong bài toán tách t :ợ ử ụ ừ
· So kh p t dài nh t (Longest Matching)ớ ừ ấ
· So kh p c c đ i (Maximum Matching)ớ ự ạ
· Mô hình Markov n (Hidden Markov Models- HMM)ẩ
· H c d a trên s c i bi n (Transformation-based Learning – TBL)ọ ự ự ả ế
· Chuy n đ i tr ng thái tr ng s h u h n (Weighted Finite State ể ổ ạ ọ ố ữ ạ
Transducer – WFST)
· Đ h n lo n c c đ i (Maximum Entropy – ME)ộ ỗ ạ ự ạ

C1C2 C3 C4 C5
C1C2 C3 C4 C5 C6

Chu i dài nh t s là chu i th ba. V y t đ u tiên c a chu i ỗ ấ ẽ ỗ ứ ậ ừ ầ ủ ỗ
th ba (C1C2) s đư c ch n.ứ ẽ ợ ọ

V i cách này, ta d dàng tách đư c chính xác các ớ ễ ợ
ng /câu như “ h p tác xã ||mua bán”, “thành l p || ữ ợ ậ
nư c || Vi t Nam || dân ch || c ng hòa”ớ ệ ủ ộ

Cách tách t đơn gi n, nhanh, ch c n d a vào t ừ ả ỉ ầ ự ừ
đi nể

Trong ti ng Hoa, cách này đ t đư c đ chính xác ế ạ ợ ộ
98,41%

Đ chính xác c a phương pháp ph thu c ộ ủ ụ ộ
hoàn toàn vào tính đ và tính chính xác c a ủ ủ
t đi nừ ể

Phương pháp này s tách t sai trong các ẽ ừ
trư ng h p “ h c sinh || h c sinh|| h c”, “m t ờ ợ ọ ọ ọ ộ
|| ông || quan tài || gi i”, “trư c || bàn là || ỏ ớ
m t || ly || nư c”…ộ ớ

Xây d ng t đi n.ự ừ ể

Tìm t trong t đi n : xác đ nh t t c các t ừ ừ ể ị ấ ả ừ
có trong câu


</Collocation>

<Category>N</Category>

<Subcategory>N</Subcategory>

<VerbPattern>_</VerbPattern>

</Syntactic>

<Semantic>

<LogicalConstraint>

<CategoryMeaning>_</CategoryMeaning>

<Synonym>_</Synonym>

<Antonym>_</Antonym>

</LogicalConstraint>

<SemanticConstraint>

<semanticSub>_</semanticSub>

<semanticDob>_</semanticDob>

</SemanticConstraint>



K t qu v i m t s câu :ế ả ớ ộ ố

-N u nhà máy ngh thì ta đi vế ỉ ề
Danh sách các t :ừ
[0,1:n u(C)]ế
[1,2:nhà(N)]
[1,3:nhà máy(N)]
[2,3:máy(V,A,N)]
[3,4:ngh (V)]ỉ
[4,5:thì(I,C,N)]
[5,6:ta(A,N,P)]
[6,7:đi(R,I,V)]
[7,8:v (C,V)]ề
Các cách tách t :ừ
n u|nhà|máy|ngh |thì|ta|đi|vế ỉ ề
n u|nhà máy|ngh |thì|ta|đi|v => L a ch nế ỉ ề ự ọ

Ông già đi nhanh quá
Danh sách các t :ừ
[0,1:ông(N,L)]
[0,2:ông già(N)]
[1,2:già(N,A)]
[2,3:đi(R,I,V)]
[3,4:nhanh(A)]
[4,5:quá(V,R)]
Các cách tách t :ừ
ông|già|đi|nhanh|quá
ông già|đi|nhanh|quá => L a ch nự ọ



Và m t s tài li u khác t internet. ộ ố ệ ừ


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status