So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng Việt - pdf 16

Download miễn phí Khóa luận So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng Việt



Phương pháp máy véc tơhỗtrợSVM (Support Vector Machine) ra đời từlý
thuyết học thống kê do Vapnik và Chervonekis xây dựng năm 1995 [abc] 11,12 và có
nhiều tiềm năng phát triển vềmặt lý thuyết cũng như ứng dụng trong thực tế. SVM là
một họcác phương pháp dựa trên cơsởcác hàm nhân (kernel) đểtối thiểu hóa rủi ro
ước lượng.Các thửnghiệm thực tếcho thấy, phương pháp SVM có khảnăng phân loại
khá tốt đối với bài toán phân lớp cũng nhưtrong nhiều ứng dụng khác (ước lượng hồi
quy, nhân dạng chữviết tay ).



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

ông thể nào liệt kê hết được các chuỗi W vì dữ liệu quan sát là hết sức phong
phú và đa dạng. Để giải quyết vấn đề này, HMM phải đưa ra giả thiết về sự độc
lập giữa các dữ liệu quan sát, đó là dữ liệu quan sát được tại thời điểm i chỉ phụ
thuộc trạng thái tại thời điểm đó. Tuy vậy, với các bài toán gán nhãn cho dữ
liệu dạng chuỗi, ta nên đưa ra các cách biểu diễn các dữ liệu quan sát
mềm dẻo hơn như là biểu diễn dữ liệu quan sát dưới dạng các thuộc tính
(features) không phụ thuộc lẫn nhau. Ví dụ với bài toán phân loại các câu hỏi và
câu trả lời trong một danh sách FAQ, các thuộc tính có thể là bản thân các từ
hay độ dài của dòng, số lượng các kí tự trắng, dòng hiện tại có viết lùi đầu dòng
hay không, số các kí tự không nằm trong bảng chữ cái, các thuộc tính về các
chức năng ngữ pháp của chúng… Rõ ràng những thuộc tính này không nhất
thiết phải độc lập với nhau.
• Vấn đề thứ hai mà các mô hình sinh gặp phải khi áp dụng vào các bài toán phân
lớp dữ liệu dạng chuỗi đó là chúng sử dụng xác suất đồng thời để mô hình hóa
các bài toán có tính điều kiện.Với các bài toán này sẽ thích hợp hơn nếu ta dùng
một mô hình điều kiện có thể tính toán P (T|W) trực tiếp thay vì P (T, W) như
trong công thức (2.1).
Ngoài HMM, còn rất nhiều phương pháp xác suất khác có thể sử dụng để giải
quyết bài toán gán nhãn từ loại nói chung và bài toán gán nhãn từ loại tiếng Việt nói
riêng, nhiều trong số chúng có những ưu điểm giải quyết được các hạn chế của mô
hình HMM mà ta đã nói ở trên. Cùng với đó, bên cạnh các phương pháp học máy xác
suất, còn có các phương pháp học máy khác, ví dụ phương pháp học máy dựa trên độ
đo, mà tiêu biểu là phương pháp SVM. Ở các chương sau sẽ trình bày rõ hơn về 3
20
phương pháp học máy tiêu biểu đã đạt được kết quả khả quan khi áp dụng cho bài toán
gán nhãn từ loại ở các ngôn ngữ khác, đó là mô hình Markov cực đại hóa Entropy
MEMM, mô hình miền ngẫu nhiên điều kiện CRF và mô hình máy véc tơ hỗ trợ SVM.
2.3. Phương pháp lai
Phương pháp lai là phương pháp dựa trên học chuyển đổi (transformation-based
learning), đây là một phương pháp học có giám sát, đòi hỏi một tập ngữ liệu đã được
gán nhãn.Phương pháp này sử dụng cả hai đặc tính của hai kiến trúc gán nhãn nói trên.
Giống như bộ gán nhãn dựa trên luật, nó dựa vào luật để xác định khi một từ nhập
nhằng thì nó có khả năng là một nhãn nào nhất. Giống như bộ gán nhãn xác suất, nó có
một thành phần học máy để tạo ra các luật một cách tự động từ một bộ dữ liệu huấn
luyện đã được gán nhãn trước.
Ý tưởng chính của thuật toán này là bắt đầu với một vài giải pháp đơn giản (hay
tinh vi) cho vấn đề (gọi là “baseline tagging”) và từng bước áp dụng những luật biến
đổi (luật chuyển) tối ưu (tìm ra từ tập ngữ liệu huấn luyện đã được đánh dấu chính
xác) để dần dần giải quyết vấn đề (tức là chuyển từ nhãn không chính xác sang nhãn
chính xác). Quá trình này sẽ dừng lại khi không còn luật chuyển tối ưu nào được lựa
chọn hay đã hết dữ liệu
Hình 9. Mô hình tổng quát của phương pháp lai
21
Thuật toán bao gồm 5 bước
• Bước 1: Gán nhãn cho từng từ bằng nhãn thông dụng nhất.
• Bước 2: Chọn một phép chuyển có tính quyết định thay thế nhãn đã gán bằng
nhán mới mà kết quả đem lại có hệ số đánh giá lỗi thấp hơn (Đánh giá một phép
chuyển bằng hệ số đánh giá lỗi thực chất là so sánh nó với “sự thật”).
• Bước 3: Áp dụng phép chuyển này cho cả tập huấn luyện.
• Bước 4: Thực hiện lại các bước trên
• Bước 5: Đưa ra kết quả là một bộ gán nhãn mà nhãn đầu tiên sử dụng unigrams,
sau đó áp dụng phép chuyển đã được “học” ở trên theo thứ tự.
Ví dụ: Xét từ “race” trong hai câu dưới đây
- It is expected to race tomorrow.
- The race for outer space.
Thuật toán sẽ thực hiện như sau:
• Đầu tiên, gán nhãn tất cả các từ “race” là NN (nhãn thường gặp nhất trong tập
ngữ liệu Brown corpus). Tức là:
“It is expected to race/NN tomorrow”
“The race/NN for outer space”
• Sau đó, sử dụng luật biến đổi để thay thế các nhãn NN bằng VB cho tất cả các
từ “race” mà đứng trước nó là từ được gán nhãn TO. Tức là:
“It is expected to race/VB tomorrow”
Và “The race/NN for outer space”
Ví dụ về một số luật chuyển thường được áp dụng cho phương pháp lai được cho
bởi bảng 3.
22
Bảng 3. Ví dụ về một số luật chuyển
Đại diện tiêu biểu cho phương pháp này là bộ gán nhãn từ loại Brill’s (được xây
dựng bởi Eric Brill) sử dụng cho tiếng Anh, đây là một bộ gán nhãn rất thông dụng vì
các ưu điểm của nó như miễn phí, đem lại kết quả khá khả quan (Độ chính xác là
96.6% cho tập ngữ liệu Wall Street Journal). Nhóm các tác giả Ðinh Ðiền, Nguyễn
Văn Toàn và Diệp Chí Cường trong nghiên cứu “gán nhãn từ loại tự động cho tiếng
Việt” [abc] đã áp dụng thử nghiệm mô hình này với tập nhãn đối chiếu từ tập nhãn
Brown corpus của tiếng Anh và cho kết quả bước đầu vào khoảng hơn 80%.
23
Chương 3. BA MÔ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TOÁN GÁN
NHÃN TỪ LOẠI TIẾNG VIỆT
Qua khảo sát các phương pháp học máy được áp dụng thành công cho nhiều
ngôn ngữ (chủ yếu là khảo sát các phương pháp đã được sử dụng cho 3 ngôn ngữ tiêu
biểu là tiếng Anh, tiếng Trung Quốc và tiếng Thái), em nhận thấy có khá nhiều
phương pháp học máy có thể áp dụng cho bài toán gán nhãn từ loại Tiếng Việt. Trong
khóa luận này, em lựa chọn ba phương pháp học máy điển hình đã cho kết quả khả
quan ở nhiều ngôn ngữ và có khả năng đạt kết quả tốt đối với tiếng Việt, đó là
MEMM, CRF và SVM. Trong đó MEMM và CRF là các mô hình cải tiến dựa trên mô
hình xác suất HMM truyền thống, còn SVM là thay mặt đặc trưng cho các phương
pháp học máy dựa trên độ đo, cơ sở lý thuyết ở chương này sẽ là nền tảng cho phần
thực nghiệm để đưa ra đánh giá về độ chính xác cũng như phù hợp của các phương
pháp này với Tiếng Việt. Ở đây, bài toán gán nhãn từ loại được xem là bài toán phân
lớp với các lớp chính là các nhãn từ loại đã được xác định trước.
2.1. Mô hình Markov cực đại hóa Entropy (MEMM)
Như đã nói ở phần trên, mô hình HMM tuy là một mô hình học máy khá tốt,
nhưng nó vẫn còn những mặt hạn chế khó có thể khắc phục. Mô hình Markov cực đại
hóa Entropy MEMM (Maximum Entropy Markov Model) do McCallum đề xuất [abc]
chính là đáp án cho những vấn đề còn hạn chế của mô hình Markov truyền thống.
2.1.1.Khái niệm mô hình MEMM
MEMM là một mô hình cải tiến dựa trên mô hình Markov truyền thống. So với
mô hình HMM, MEMM thay thế các xác suất chuyển trạng thái và xác suất sinh quan
sát trong HMM bởi một hàm xác suất duy nhất P (Ti|Ti-1, Oi) - xác suất để trạng thái
hiện tại là Ti với điều kiện trạng thái trước đó là Ti-1 và dữ liệu quan sát hiện tại là Wi.
Mô hình MEMM quan niệm rằng các quan sát đã được cho trước và chúng ta không
cần quan tâm đến xác suất sinh ra chúng, điều duy nhất cần qu...
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status