nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn - Pdf 24

1
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Trần Thu Trang
NGHIÊN CỨU GÁN NHÃN TỪ LOẠI CHO VĂN BẢN
TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC MÁY KHÔNG
CÓ HƯỚNG DẪN

Chuyên nghành: Bảo đảm toán học cho máy tính và hệ thống tính toán
Mã số: 60 46 35

TÓM TẮT LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN THỊ MINH HUYỀN
Hà Nội – Năm 2012 2
Mục lục

3.1.2 Kết quả thử nghiệm với tiếng Anh 34
3.1.3 Các thí nghiệm cơ bản 34
3.2 Gán nhãn từ loại bằng kỹ thuật phân cụm 35
3.2.1 Suy luận gán nhãn 36
3.2.2 Suy luận dựa trên từ loại 37
3.2.3 Suy luận dựa trên loại từ và ngữ cảnh 37
3.2.4 Suy luận dựa trên loại từ và ngữ cảnh, sử dụng các véc tơ ngữ
cảnh trái và phải tổng quát hoá 38
3.2.5 Các kết quả 39
3.3 Đề xuất phƣơng pháp không hƣớng dẫn cho bài toán gán nhãn từ loại
tiếng Việt 40
KẾT LUẬN 48

4
LỜI CẢM ƠN
Em xin chân thành cảm ơn các thầy cô giáo trong khoa Toán–Cơ–Tin
học đã dạy dỗ và truyền đạt cho em rất nhiều kiến thức trong những năm học
vừa qua.
Đặc biệt em xin gửi lời cảm ơn tới TS. Nguyễn Thị Minh Huyền đã tận
tình chỉ bảo và truyền đạt những kiến thức chuyên ngành trong quá trình em
thực hiện luận văn này.
Cuối cùng em xin gửi những lời chúc tốt đẹp nhất tới các thầy cô giáo
trong khoa, cô Nguyễn Thị Minh Huyền, gia đình và bạn bè những ngƣời đã
ủng hộ em trong thời gian vừa qua. 5

nhiều thời gian, tiền của và công sức của các nhà nghiên cứu. Một cách tiếp
cận khác cho bài toán gán nhãn từ loại là sử dụng phƣơng pháp học máy
không có hƣớng dẫn để một mặt giải quyết vấn đề xác định bộ nhãn từ loại,
mặt khác tiết kiệm công sức xây dựng tập huấn luyện. Đề tài này nghiên cứu
một số phƣơng pháp gán nhãn từ loại không có hƣớng dẫn, trên cơ sở đó đƣa
ra một quy trình giải quyết bài toán gán nhãn từ loại tiếng Việt bằng cách tiếp
cận này.
Cấu trúc luận văn
Cấu trúc luận văn chia làm 3 chƣơng:
Chƣơng I: Tổng quan
Trong chƣơng này sẽ trình bày tổng quan về bài toán gán nhãn từ loại,
các tiếp cận để giải quyết bài toán gán nhãn từ loại, so sánh các tiếp cận.
Chƣơng này cũng trình bày hiện trạng cùng các phƣơng pháp đã đƣợc dùng
để giải quyết bài toán gán nhãn từ loại cho tiếng Việt, khó khăn chƣa khắc
phục đƣợc.
Chƣơng II: Cơ sở toán học
Chƣơng này sẽ trình bày các kiến thức toán học, các mô hình học máy
đƣợc sử dụng trong luận văn.
Chƣơng III: Cách tiếp cận không có hƣớng dẫn cho bài toán gán
nhãn từ loại
Chƣơng này sẽ trình bày một số phƣơng pháp học máy không có hƣớng
dẫn cho bài toán gán nhãn từ loại, để từ đó có thể xây dựng một quy trình giải
quyết bài toán gán nhãn từ loại tiếng Việt theo cách tiếp cận này.

7
Chƣơng 1 - TỔNG QUAN
1.1 Bài toán gán nhãn từ loại

định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép là rất
cao.
- Bƣớc 2: Gán nhãn tiên nghiệm, tức là tìm cho mỗi từ tập tất cả các
nhãn từ loại mà nó có thể có. Tập nhãn này có thể thu đƣợc từ cơ sở
dữ liệu từ điển hoặc từ kho văn bản đã gán nhãn bằng tay. Đối với
một từ mới chƣa xuất hiện trong cơ sở dữ liệu thì có thể sử dụng
một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong các
ngôn ngữ biến đổi hình thái ngƣời ta cũng dựa vào hình thái từ để
đoán nhận lớp từ loại của từ đang xét.
- Bƣớc 3: Quyết định kết quả gán nhãn. Giai đoạn loại bỏ nhập
nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ
cảnh trong tập nhãn tiên nghiệm.
1.2.2 Ngữ liệu
Để thực hiện gán nhãn từ loại ta phải có kho ngữ liệu[2], chúng có thể là:
- Từ điển và các văn phạm loại bỏ nhập nhằng.
- Kho văn bản đã gán nhãn, có thể kèm theo các quy tắc ngữ pháp xây
dựng bằng tay.
- Kho văn bản chƣa gán nhãn, có kèm theo các thông tin ngôn ngữ
nhƣ là tập từ loại và các thông tin mô tả quan hệ giữa từ loại và hậu
tố.
- Kho văn bản chƣa gán nhãn, với tập từ loại cũng đƣợc xây dựng tự
động nhờ các tính toán thống kê. Trong trƣờng hợp này khó có thể
dự đoán trƣớc về tập từ loại. 9
1.2.3 Các tiếp cận giải bài toán
Chúng ta có hai tiếp cận chính cho gán nhãn từ loại tự động:[19]
- Tiếp cận có hƣớng dẫn.
- Tiếp cận không hƣớng dẫn.

Tuy có nhiều sự khách nhau nhƣng chúng cũng có những điểm giống
nhau là:
- Gán nhãn dữ liệu sử dụng thông tin từ điển đã xây dựng 10
- Khử nhập nhằng bằng các tiếp cận dựa vào thống kê, dựa trên luật
hoặc lai các tiếp cận trên.
Vì việc khử khử nhập nhằng sử dụng các tiếp cận dựa trên luật hoặc dựa
trên thống kê hoặc lai các tiếp cận vậy tiếp theo ta sẽ tìm hiểu các tiếp cận nêu
trên.
1.2.5 Gán nhãn dựa trên luật
Bộ gán nhãn dựa trên luật sử dụng các luật đƣợc viết bằng tay để phân
biệt sự nhập nhằng nhãn, ràng buộc để loại ra các nhãn không phù hợp.
Gán nhãn dựa trên luật sử dụng từ điển để tìm các từ loại có thể cho các
từ, sử dụng các luật làm thành một nghĩa, ví dụ nhƣ là : det - X - n = X/adj
đặc biệt là hàng trăm ràng buộc có thể đƣợc thiết kế một cách thủ công.
Các tiếp cận gán nhãn dựa trên luật sử dụng thông tin ngữ cảnh để gán
các nhãn cho các từ chƣa biết hoặc các từ nhập nhằng. Các luật này thƣờng
đƣợc biết nhƣ các luật khung ngữ cảnh. Nhƣ một ví dụ, một luật khung ngữ
cảnh có thể nói một vài điều: Nếu một từ chƣa biết hoặc nhập nhằng X đứng
sau một từ hạn định và đứng đằng trƣớc một danh từ, nhãn của nó sẽ là một
tính từ.
Trong việc bổ sung cho thông tin ngữ cảnh, nhiều bộ gán nhãn sử dụng
thông tin hình thái học để thêm vào quy trình khử nhập nhằng. Ví dụ: Nếu
một từ nhập nhằng hoặc chƣa biết kết thúc với đuôi “ing” và đằng trƣớc là
một động từ thì nhãn của từ đó sẽ là một động từ. (phụ thuộc vào lý thuyết
ngữ pháp) V-W (ing) = W/Verb.
Vài hệ thống vƣợt quá việc sử dụng thông tin ngữ cảnh và hình thái bằng
việc xây dựng các luật gắn với các nhân tố nhƣ là sự viết bằng chữ hoa (có thể

giả thiết cơ bản cho mô hình này nhƣ sau:
Mỗi trạng thái nhãn đem lại một từ trong câu. Mỗi từ là 12
- Không tƣơng quan với tất cả các từ khác và nhãn của chúng.
- Xác suất chỉ phụ thuộc vào N nhãn đằng trƣớc.
Các bộ gán nhãn mô hình Markov ẩn và hiện có thể đƣợc thi hành sử
dụng thuật toán Viterbi, và là một trong số các thuật toán hiệu quả nhất. Mô
hình Markov ẩn (HMM) không thể đƣợc sử dụng trong một lƣợc đồ gán nhãn
tự động. Nó tin tƣởng và o các tính toán thống kê trên chuỗi đầu ra. HMM
không đƣợc huấn luyện một cách tự động. Giải pháp cho vấn đề này không có
khả năng đƣợc huấn luyện một cách tự động là sử dụng thuật toán Baum-
Welch, cũng nhƣ là thuật toán tiến-lùi (Forward –Backward). Thuật toán này
sử dụng từ hơn là thông tin nhãn cho sự lặp lại xây dựng một chuỗi để cải tiến
xác suất của dữ liệu huấn luyện.
Một trong những vấn đề còn lại cuả các tiếp cận là: Các từ chƣa biết nên
đƣợc xử lý nhƣ thế nào?
1.2.7 Các từ chƣa biết
Tất nhiên là các quy tắc trong các bộ gán nhãn dựa trên luật đƣợc trang
bị để giải quyết cho vấn đề này, nhƣng trong các mô hình thống kê là làm thế
nào để có thể tính toán xác suất mà một từ đã cho xuất hiện với một nhãn nếu
từ đó chƣa biết bộ gán nhãn? Có vài giải pháp tiềm năng cho vấn đề này: Một
trong những giải pháp sử dụng thông tin hình thái. Trong trƣờng hợp này, bộ
gán nhãn tính toán xác suất mà một hậu tố trên một từ chƣa biết xuất hiện với
một nhãn đặc biệt. Nếu một mô hình Markov ẩn đang đƣợc sử dụng, xác suất
mà một từ chứa đựng hậu tố mà xuất hiện với một nhãn đặc biệt trong chuỗi
đã cho đƣợc tính toán. Một giải pháp khác là gán một tập các nhãn mặc định
(các lớp mở đặc đặc biệt: Danh từ, tính từ, trạng từ, động từ ) cho các từ chƣa
biết và để giải quyết nhập nhằng sử dụng các xác suất mà các nhãn đó xuất

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn - Pdf 24

Tài liệu, ebook tham khảo khác

Học thêm