slide thuyết trình đề tài tìm hiểu phương pháp tách từ trong văn bản tiếng việt theo hướng tiếp cận của giải thuật di truy - Pdf 23

Đề tài: Tìm hiểu phương pháp tách từ trong văn bản tiếng việt
theo hướng tiếp cận của giải thuật di truyền
BTL: X lý ngôn ng t nhiênử ữ ự

Các phương pháp tách từ tiếng Việt.

Giải thuật di truyền.

Phương pháp tách từ dựa trên thống kê Internet theo
hướng tiếp cận của giải thuật di truyền (IGATEC)

Tìm hiểu opensource Vntokenizer để tách từ trong văn
bản tiếng Việt.
T ng quanổ

Vấn đề tách từ tiếng Việt.

Các hướng tiếp cận của kĩ thuật tách từ tiếng Việt

Một số phương pháp tách từ tiếng Việt hiện nay

Kết luận
Các ph ng pháp tách t ươ ừ
ti ng Vi t.ế ệ
Bài toán tách từ tiếng Việt là một bài toán khó.
Vì những đặc tính chung của tiếng Việt- một ngôn ngữ đơn
lâp.

Từ ở dạng nguyên thể , hình thức và ý nghĩa của từ độc lập
với cú pháp.


- T có bi n đ i hình thái, ý nghĩa ng pháp n m ừ ế ổ ữ ằ ở
trong t .ừ

- Ph ng th c ng pháp ch y u là ph t .ươ ứ ữ ủ ế ụ ố
!

- K t h p gi a các hình v là ch t ch , khó xác ế ợ ữ ị ặ ẽ
đ nh, đ c nh n di n b ng kho ng tr ng ho c d u ị ượ ậ ệ ằ ả ắ ặ ấ
câu.
!

- Hi n t ng c u t o b ng t ghép thêm ph t ệ ượ ấ ạ ằ ừ ụ ố
(affix) vào t g c là r t ph bi n.ừ ố ấ ổ ế

!

!
Các h ng ti p c n c a kĩ ướ ế ậ ủ
thu t tách t ti ng Vi tậ ừ ế ệ

So khớp từ dài nhất (Longest Matching)

Học dựa trên sự cải biến (Transformation-based Learning -TBL)

Chuyển đổi trạng thái trọng số hữu hạn (Weighted- Finite State Transducer-
WFST)

Phương pháp tách từ dựa trên thống kê từ trên Internet và giải thuật di truyền.
M t s ph ng pháp tách ộ ố ươ
t ti ng Vi từ ế ệ

- Có khả năng tự rút ra quy luật của ngôn ngữ.
- Có những ưu điểm của cách tiếp cận dựa trên luật nhưng nó khác phục được
khuyết điểm của việc xây dựng các luật một cách thủ công bởi các chuyên gia.
- Các luật được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu của luật
(dựa trên ngữ liệu huấn luyện).
- Có khả năng khử một số nhập nhằng của các mô hình ngôn ngữ theo kiểu
thống kê.
Học dựa trên sự cải biến
(Transformation-based Learning -TBL)
Hạn chế:
- Phương pháp này “dùng ngữ liệu có gán nhãn ngôn ngữ để học tự động
các quy luật đó”. Mà việc xây dựng một tập ngữ liệu đạt được đầy đủ các
tiêu chí của tập ngữ liệu trong tiếng Việt là điểu rất khó, tốn kém nhiều về
mặt thời gian và công sức.
- Hệ phải trải qua một thời gian huấn luyện khá lâu để có thể rút ra các luật
tương đối đầy đủ.
- Cài đặt phức tạp.
Học dựa trên sự cải biến
(Transformation-based Learning -TBL)

Ý tưởng cơ bản là áp dụng WFST kết hợp với trọng số là xác
suất xuất hiện của mỗi từ trong ngữ liệu.

Dùng WFST để duyệt qua câu cần xét. Cách duyệt có trọng số
lớn nhất sẽ là cách tách từ được chọn.
Chuyển đổi trạng thái trọng số hữu hạn
(Weighted- Finite State Transducer- WFST)
Chuyển đổi trạng thái trọng số hữu hạn
(Weighted- Finite State Transducer- WFST)
Ý tưởng của phương pháp là kết hợp giữa thuật toán di truyền với dữ

Gi i thu t di truy nả ậ ề

Giải thuật di truyền là một phân ngành của giải thuật tiến hóa vận
dụng các nguyên lý của tiến hóa như di truyền, đột biến, chọn lọc
tự nhiên, và trao đổi chéo.

Giải thuật di truyền thường được ứng dụng nhằm sử dụng ngôn
ngữ máy tính để mô phỏng quá trình tiến hoá của một tập hợp
những đại diện trừu tượng (gọi là những nhiễm sắc thể) của các
giải pháp có thể (gọi là những cá thể) cho bài toán tối ưu hóa vấn
đề
Gi i thu t di truy nả ậ ề
*
C s lý thuy tơ ở ế
Thuật toán di truyền gồm có bốn quy luật cơ bản là lai ghép, đột
biến, sinh sản và chọn lọc tự nhiên:
Toán tử di truyền dựa trên 4 quy luật trên

Toán tử lai ghép

Toán tử đột biến

Toán tử sinh sản

Toán tử chọn lọc tự nhiên
Toán t di truy nử ề

Nghiên cứu thống kê dựa trên Internet.

Phương pháp tách từ dựa trên thống kê Internet theo hướng

Công cụ trích xuất thông tin từ
Google


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status