Nghiên cứu gán nhãn từ loại cho văn bản tiếng
Việt bằng phương pháp học máy không có
hướng dẫn
Trần Thu Trang
Trường Đại học Khoa học Tự nhiên
Luận văn ThS. ngành: Bảo đảm toán học cho máy tính và hệ thống tính toán
Mã số: 60 46 35
Người hướng dẫn: TS. Nguyễn Thị Minh Huyền
Năm bảo vệ: 2012 Abstract. Trình bày tổng quan về bài toán gán nhãn từ loại, các tiếp cận để giải
quyết bài toán gán nhãn từ loại, so sánh các tiếp cận, trình bày hiện trạng cùng các
phương pháp đã được dùng để giải quyết bài toán gán nhãn từ loại cho tiếng Việt,
khó khăn chưa khắc phục được. Trình bày các kiến thức toán học, các mô hình học
máy được sử dụng trong luận văn. Trình bày một số phương pháp học máy không có
hướng dẫn cho bài toán gán nhãn từ loại, để từ đó có thể xây dựng một quy trình giải
quyết bài toán gán nhãn từ loại tiếng Việt theo cách tiếp cận này.
Keywords. Toán tin; Gán nhãn từ loại; Văn bản tiếng Việt; Máy tính
Content
MỞ ĐẦU
Một trong các vấn đề nền tảng của ngôn ngữ tự nhiên là việc phân loại các từ thành các
lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ. Mỗi từ loại tương ứng với một lớp từ giữ
một vai trò ngữ pháp nhất định. Nói chung, mỗi từ trong một ngôn ngữ có thể gắn với nhiều
từ loại, và việc tự động “hiểu” đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng
từ loại hay không. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ
Chương này sẽ trình bày các kiến thức toán học, các mô hình học máy được sử dụng
trong luận văn.
Chƣơng III: Cách tiếp cận không có hƣớng dẫn cho bài toán gán nhãn từ loại
Chương này sẽ trình bày một số phương pháp học máy không có hướng dẫn cho bài
toán gán nhãn từ loại, để từ đó có thể xây dựng một quy trình giải quyết bài toán gán nhãn từ
loại tiếng Việt theo cách tiếp cận này.
Chƣơng 1 - TỔNG QUAN
1.1 Bài toán gán nhãn từ loại
Gán nhãn từ loại là việc xác định các chức năng ngữ pháp của từ trong câu hay là quá
trình gán từng từ trong đoạn văn bản với các đánh dấu từ loại hoặc cấu trúc ngữ pháp. Đây là
bước cơ bản trước khi phân tích cú pháp hay các vấn đề xử lý ngôn ngữ phức tạp khác.
Thông thường, một từ có thể có nhiều chức năng ngữ pháp, ví dụ: trong câu “con ngựa đá đá
con ngựa đá”, cùng một từ “đá” nhưng từ thứ nhất và thứ ba giữ chức năng ngữ pháp là danh
từ, nhưng từ thứ hai lại là động từ trong câu.
1.2 Tổng quan về cách tiếp cận giải bài toán
1.2.1 Quá trình gán nhãn từ loại
Gán nhãn từ loại là một quá trình gồm 3 bước xử lý:
Bước 1 (tiền xử lí): Phân tách xâu kí tự thành chuỗi các từ
Bước 2: Gán nhãn tiên nghiệm, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại
mà nó có thể có.
Bước 3: Quyết định kết quả gán nhãn
1.2.2 Ngữ liệu
Để thực hiện gán nhãn từ loại ta phải có kho ngữ liệu[2], chúng có thể là:
- Từ điển và các văn phạm loại bỏ nhập nhằng.
- Kho văn bản đã gán nhãn, có thể kèm theo các quy tắc ngữ pháp xây dựng bằng
tay.
- Kho văn bản chưa gán nhãn, có kèm theo các thông tin ngôn ngữ như là tập từ loại
và các thông tin mô tả quan hệ giữa từ loại và hậu tố.
Kho văn bản chưa gán nhãn, với tập từ loại cũng được xây dựng tự động nhờ các tính toán
thống kê
dụng các xác suất mà các nhãn đó xuất hiện tại cuối n-gram trong câu hỏi.
1.3 Bài toán gán nhãn từ loại tiếng Việt
Qua khảo sát các nghiên cứu gần đây của tiếng Việt cho bài toán gán nhãn từ loại, có
thể thấy có hai dạng tập nhãn từ loại thường được sử dụng cho các công cụ gán nhãn từ loại
tiếng Việt:
Dạng thứ nhất, xuất phát từ tập gồm 8 nhãn từ loại tiếng Việt thông dụng được các
nhà nghiên cứu ngôn ngữ học công nhận nhiều nhất (bao gồm: danh từ, động từ,
tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) để xây dựng tập nhãn “mịn” hơn bằng
cách phân nhỏ mỗi từ loại trên thành các tiểu từ loại
Dạng thứ hai, tập nhãn tiếng Việt được xây dựng thông qua việc xây dựng kho
ngữ liệu song ngữ Anh-Việt mà trong đó các câu tiếng Việt đã được gán nhãn từ
loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ loại từ Anh sang
Việt.
Như vậy, có thể thấy rằng bài toán gán nhãn từ loại cho tiếng Việt đang ngày càng
được quan tâm nghiên cứu. Tuy nhiên đây vẫn là hướng nghiên cứu đầy tiềm năng và cũng
đầy thử thách, cùng với đó là việc các nghiên cứu đã có hầu hết vẫn còn mang tính cá thể,
chưa có được sự đối chiếu so sánh khách quan, và sự thống nhất về bộ nhãn giữa các nhà
ngôn ngữ, đồng thời cũng chưa xây dựng được bộ nhãn đủ lớn để bài toán gán nhãn tiếng
Việt có thể đạt độ chính xác rất cao
Chƣơng 2 - CƠ SỞ TOÁN HỌC
2.1 Định lý Bayes
Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự
kiện liên quan B đã xảy ra. Xác suất này được ký hiệu là P(A|B), và đọc là "xác suất của A
nếu có B". Đại lượng này được gọi xác suất có điều kiện hay xác suất hậu nghiệm vì nó được
rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đó
2.2 Thuật toán cực đại hóa kỳ vọng (EM)
Thuật toán EM (Expectation Maximization) nhằm tìm ra sự ước lượng về khả năng
lớn nhất của các tham số trong mô hình xác suất (các mô hình phụ thuộc vào các biến ẩn
chưa được quan sát), nó được xem như thuật toán dựa trên mô hình.
,q
T
} sao cho xác suất có điểu kiện
P(O|λ) là cực đại.
),|'(maxarg
'
OQPQ
Q
2.3.1.3 Bài toán 3
Cung cấp dãy đầu ra, tìm tập hợp có khả năng nhất của chuyển tiếp trạng thái và các
xác suất đầu ra. Nghĩa là cho chuỗi quan sát O = {o
1
,o
2
, ,o
T
} và mô hình λ = {A, B}, ta phải
đánh giá lại các thông số của mô hình sao cho xác suất có điểu kiện P(O|λ) là cực đại. tức là
tìm
)|(maxarg'
OP
2.2.2 Mô hình n-gram
Mô hình n-gram là một mô hình sử dụng n-1 từ đằng trước đó để dự đoán từ tiếp theo
2.4 Phân cụm