Nghiên cứu phương pháp tự động phát hiện lỗi trong kho dữ liệu tiếng việt được chú giải từ loại - Pdf 10

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
NHỮ VĂN KIÊN

NGHIÊN CỨU PHƯƠNG PHÁP TỰ ĐỘNG PHÁT HIỆN LỖI TRONG
KHO DỮ LIỆU TIẾNG VIỆT ĐƯỢC CHÚ GIẢI TỪ LOẠI
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01

Người hướng dẫn khoa học: TS NGUYỄN PHƯƠNG THÁI TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI – 2013

1 MỞ ĐẦU

nhãn từ loại và hướng dẫn gán nhãn trong khi phát triển
VietTreeBank.
Chƣơng 2: Phƣơng pháp gán nhãn từ loại và phát hiện lỗi
tự động trong kho ngữ liệu tiếng Việt đƣợc chú giải từ loại:
Chương này nghiên cứu và đề xuất mô hình gán nhãn từ loại và
phương pháp phát hiện lỗi tự động chú giải từ loại trong kho ngữ liệu
VietTreeBank. Các công việc mà luận văn đã tiến hành nhằm đề xuất
sử dụng mô hình gán nhãn từ loại Maximum Entropy Model (MEM)
và phương pháp entropy cực đại kết hợp với thuật toán variation N-
gram cho bài toán tự động phát hiện lỗi chú giải từ loại trong kho ngữ
liệu tiếng Việt.
Chƣơng 3. Thực nghiệm và đánh giá kết quả: Chương này
trình bày các công việc thực nghiệm mà khóa luận đã tiến hành, bao
gồm việc sử dụng công cụ gán nhãn từ loại vnTagger và xây dựng
công cụ tự động phát hiện lỗi chú giải từ loại. Từ kết quả đạt được
tiến hành đối chiếu, đánh giá và đưa ra các vị trí lỗi chú giải từ loại
trong kho ngữ liệu VietTreeBank.
Chƣơng 4. Kết luận và hƣớng phát triển: Tóm lược các kết quả đã
đạt được và đóng góp của khóa luận, đồng thời định hướng một số
hướng nghiên cứu tiếp theo trong thời gian sắp tới.
3

Chƣơng 1. TỔNG QUAN VỀ TỪ LOẠI
1.1. Vấn đề tách từ và gán nhãn từ loại tiếng Việt
1.1.1. Khái quát về bài toán tách từ
Tiếng Việt là một ngôn ngữ đơn lập, không biến hình, các ký
tự được dựa trên hệ chữ cái Latin. Cũng giống như với các thứ tiếng
khác như tiếng Trung, tiếng Nhật, tiếng Hàn thì từ trong tiếng Việt
không được xác định bởi khoảng trắng (dấu cách). Một từ tiếng Việt
có thể được tạo bởi một hoặc nhiều hình vị và mỗi hình vị phân tách

+ Input: Một chuỗi các từ (ví dụ đối với tiếng Việt: “Tôi vẽ
một bức tranh”)
+ Output: Một nhãn tốt nhất cho từng từ trong câu (Ví dụ:
Tôi/P vẽ/V một/M bức_tranh/N
1
)
1.1.2.2. Quá trình gán nhãn từ loại:
Gán nhãn từ loại là một quá trình gồm 3 bước xử lý như sau:
- Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các
từ. Giai đoạn này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và
quan niệm về đơn vị từ vựng.
- Khởi tạo gán nhãn: Tức là tìm cho mỗi từ tập tất cả các
nhãn từ loại mà nó có thể có. Tập nhãn này có thể thu được từ cơ sở
dữ liệu từ điển hoặc kho ngữ liệu đã gán nhãn bằng tay.
- Quyết định kết quả gán nhãn: Đó là giai đoạn loại bỏ nhập
nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ
cảnh trong tập nhãn khởi tạo nói trên.
Như vậy, trong gán nhãn từ loại thì bước tiền xử lý quan
trọng cho các phần tiếp theo trong quá trình xử lý ngôn ngữ tự nhiên
như phân tích cú pháp, phân tích ngữ nghĩa.
1.1.2.3. Ngữ liệu (Corpus)
Để thực hiện gán nhãn từ loại ta phải có kho ngữ liệu,
chúng có thể là:
- Từ điển và các văn phạm loại bỏ nhập nhằng. 1
Tập nhãn từ loại được dùng trong treebank tiếng Việt
5

ngôn ngữ phương Tây là:
6

- Thứ nhất, tiếng Việt là một ngôn ngữ cố định trong đó hình
thức của từ không bao giờ thay đổi. Vì thế tất cả các thông tin văn
phạm được chuyển tải thông qua thứ tự từ và cấu tạo từ. Đặc điểm cố
định làm cho một hiện tượng đặc biệt của ngôn ngữ phổ biến trong
tiếng Việt: là hình thức của từ được sử dụng một khả năng mà không
nằm trong đặc trưng của nó (một động từ được sử dụng như một danh
từ, một danh từ như một tính từ ) mà không cần bất kỳ thay đổi
hình thái.
- Thứ hai, tiếng Việt là một ngôn ngữ đơn lập, trường hợp
đặc biệt của phân tích ngôn ngữ, là mỗi hình vị là một duy nhất, âm
tiết đơn lập. Đơn vị từ vựng có thể được tạo thành bằng một hoặc
một số âm tiết, luôn có vị trí tách biệt trong văn bản. Mặc dù bộ từ
điển chứa một phần lớn các từ ghép, một âm tiết chiếm một phần lớn
của những từ xuất hiện.
- Sự khác biệt thứ ba, một hệ quả của sau này, là không có
dấu phân cách từ trong tiếng Việt: khoảng trống được sử dụng để
tách biệt giữa các âm tiết và không có dấu hiệu cụ thể phân biệt
khoảng trống giữa các từ thực tế. Ví dụ, một chuỗi đơn giản của ba
âm tiết a b c có thể tạo thành ba từ (a) (b) (c), hai từ (ab) (c), hai từ
(a) (bc) hoặc thậm chí một từ duy nhất (abc).
+ Tập nhãn từ loại tiếng Việt (Vietnamese tagset):
Theo [9] đã giới thiệu một tập nhãn hiện đang được sử dụng
trong một dự án phát triển một treebank cho ngôn ngữ này. Tập nhãn
đầy đủ được thiết kế để sử dụng trong treebank tiếng Việt gồm có 18
nhãn (xem Bảng 1.2)
Hiện nay, ở Việt Nam đã có một số tập nhãn từ loại được xây
dựng, chủ yếu ở mức thô, tiêu biểu có thể kể đến: Bộ nhãn VnPOStag

1.2.1. Giới thiệu
Tiếng Việt là ngôn ngữ đơn lập và không có ký tự tách từ
cho nên việc phân tích câu có nhiều nhập nhằng. Để giải quyết nhập
nhằng đó nhóm tác giả xây dựng treebank tiếng Việt đã vận dụng
nhiều thủ thuật ngôn ngữ học. Quá trình gán nhãn cú pháp được hỗ
trợ bằng công cụ gán nhãn tự động và công cụ soạn thảo. Nguồn ngữ
liệu thô được lấy từ báo tuổi trẻ điện tử. Độ đồng thuận mà nhóm tác
giả đạt được là khá cao, khoảng hơn 90%. Treebank thường được
dùng để xây dựng các hệ phân tích cú pháp, gán nhãn từ loại, tách từ.
8

Trong luận văn này, chúng tôi chỉ trình bày về tập nhãn từ
loại và hướng dẫn gán nhãn từ loại. Còn phần tập nhãn cú pháp và
hướng dẫn gán nhãn cú pháp, công cụ hỗ trợ người làm ngữ liệu và
qui trình gán nhãn cú pháp xem trong [18].
1.2.2. Tập nhãn từ loại
Dựa vào nghĩa khái quát. Nhóm tác giả đã xây dựng tập
nhãn từ loại chỉ chứa thông tin về từ loại cơ sở mà không bao gồm
các thông tin như hình thái, phân loại con, v.v. Tập nhãn từ loại của
chúng tôi được liệt kê trong Bảng 1.3, gồm có 18 nhãn từ loại.
1.2.3. Hướng dẫn gán nhãn
1.2.3.1. Xây dựng tài liệu hướng dẫn gán nhãn
Đây là một tài liệu rất quan trọng bao gồm không chỉ các
thông tin về tập nhãn, mà còn hướng dẫn gán nhãn cho các hiện
tượng cụ thể với các ví dụ minh họa.
1.2.3.2. Công cụ hỗ trợ
Công cụ hỗ trợ người gán nhãn làm việc hiệu quả hơn. Có
hai nội dung chính là hỗ trợ soạn thảo cây cú pháp và gán nhãn từ
loại tự động.
1.2.3.3. Quá trình gán nhãn từ loại

Theo [3], với mỗi từ xuất hiện trong một ngữ liệu thì có một
tập nhãn được xác định có khả năng được gán cho từ này. Một từ
xuất hiện nhiều hơn một lần trong một kho ngữ liệu như vậy có thể
được gán với nhiều nhãn khác nhau trong một kho ngữ liệu. Chúng
được gọi là Variation (biến thể).
Biến thể trong một ngữ liệu được chú giải gây ra bởi một trong
hai lý do:
+ Nhập nhằng: Một từ có thể được gán bằng nhiều nhãn từ loại
và ở những vị trí xuất hiện khác nhau. Trong kho ngữ liệu, từ đó ta có
nhiều lựa chọn nhãn từ loại để gán.
+ Lỗi: Việc gán nhãn một từ không nhất quán trong những lần
xuất hiện tương tự.
Tác giả sử dụng thuật ngữ variation n-gram đối với một N-
gram bao gồm n từ trong kho ngữ liệu có chứa từ được gán nhãn từ
loại khác nhau trong các lần xuất hiện khác của cùng N-gram đó
trong kho ngữ liệu. Từ thể hiện sự biến đổi đó được gọi là variation
nuclei (hạt nhân biến đổi).
10

2.1.3. Thuật toán Variation N-gram
Ðể tìm tất cả các biến thể n-gram của một kho ngữ liệu thì đầu
vào là một kho ngữ liệu đã được chú giải từ loại và kết quả đầu ra là
một danh sách các biến thể n-gram, từ n = 1 đến giá trị n lớn nhất mà
có một Variation n-gram trong kho ngữ liệu, gồm các bước sau:
Bước 1: Xác định tập các biến thể 1-gram và lưu trữ các biến
thể 1-gram cùng vị trí của chúng trong kho ngữ liệu.
Bước 2: Dựa trên các vị trí lưu trữ của Variation n-gram trong
kho ngữ liệu, mở rộng n-gram về một trong hai phía (trừ khi ngữ liệu
kết thúc ở đó). Với mỗi (n +1)-gram, kiểm tra xem nó có thể hiện
khác trong kho ngữ liệu hay không và nếu có sự thay đổi trong gán

Trong MEM, chúng ta dùng dữ liệu huấn luyện để xác định
các ràng buộc trên phân phối điều kiện. Mỗi ràng buộc thể hiện một
đặc trưng nào đó của dữ liệu huấn luyện. Mỗi ràng buộc trên quan sát
đầu vào và nhãn đầu ra có thể được xem như là đặc trưng f
i
(h,t). Vì
thế, xác suất đồng thời của lịch sử h và nhãn t được xác định bằng
các tham số mà các đặc trưng tương ứng của nó là hữu ích, ví dụ:

i
thỏa mãn f
j
(h,t) = 1. Một đặc trưng có bởi (h,t), có thể tác động vào
bất cứ từ nào hoặc nhãn nào của history h, và phải được mã hoá
thành thông tin mà có thể giúp dự đoán t, như là vần của từ hiện tại,
xác định hai nhãn phía trước. Các từ và nhãn trong một ngữ cảnh cụ
thể có sẵn đối với một đặc trưng được cho bởi định nghĩa sau của
history h
i
như công thức 2.11
h
i
= {w
i
, w
i+1
, w
i+2
, w
i-1

trước. Lúc này, việc gán nhãn từ loại được thực hiện sau khi đã có
thông tin về từ vựng và thông tin về nhãn từ loại. Kiến trúc tổng thể
của mô hình gán nhãn từ loại sẽ được sử dụng trong thực nghiệm
được thể hiện trong hình 2.6.
2.2.4.2. Thực nghiệm mô hình gán nhãn từ loại
Theo [9], kết quả thực nghiệm của một số mô hình gán nhãn
từ loại dưới đây đã đạt được từ việc sử dụng phương pháp huấn luyện
dữ liệu dựa trên mô hình entropy cực đại (xem mục 2.2). Việc thiết
lập các đặc trưng gán nhãn từ loại khác nhau tạo nên sự khác biệt
giữa các mô hình gán nhãn. Tất cả các mô hình được huấn luyện và
kiểm thử trên cùng kho ngữ liệu VietTreeBank.
+ Kho ngữ liệu đánh giá
Mô hình được huấn luyện và thử nghiệm phần gán nhãn từ
loại trên kho ngữ liệu VietTreebank gồm có 10,165 câu đã được tách
từ, gán nhãn từ loại bằng tay và phân tích cú pháp đầy đủ.
+ Mô hình cơ sở
Trước tiên chúng ta phát triển một mô hình cơ sở tương tự
như mô hình Markov có điều kiện trong đó các ngữ cảnh có sẵn để
dự đoán nhãn của từ w
i
trong một chuỗi các từ w
i
w
2
…w
n
với các nhãn
t
1
t

hình 1c. Kết quả trên tập kiểm tra của bốn mô hình trình bày được thể
hiện trong bảng 2.5 [9].
+ Đặc trưng của danh từ riêng
Một trong những nguyên nhân gây ra lỗi gán nhãn là sự nhập
nhằng giữa Danh từ riêng (Np) và Danh từ (N) . Bảng 2.6 cho thấy
kết quả của mô hình 1d khi kết hợp đặc trưng âm tiết viết hoa.
+ Mô hình tổng quát
Việc sử dụng các đặc trưng mở rộng của từ vựng trên nhiều
từ liên tiếp gần nghĩa với nhau tạo ra hiệu suất gán nhãn ở mức độ
cao. Bằng cách kết hợp tất cả các đặc trưng tốt của mô hình 1d và
thêm mẫu đặc trưng của hai từ trước vào vị trí ± 2 của từ hiện tại,
chúng ta có được mô hình 2, tạo thành mô hình tốt nhất trong các
thực nghiệm của chúng tôi thể hiện trong Bảng 2.7. Mô hình này có
độ chính xác cao của kết quả gán nhãn từ loại cho văn tiếng Việt.
Bảng 2.8 cho thấy độ chính xác của mô hình kết hợp tốt nhất với độ
chính xác câu. [9]:
Độ chính xác tổng
thể
Độ chính xác từ
chƣa biết
Độ chính xác câu
93.40%
80.69%
31.40%
Bảng 2.8. Độ chính xác của mô hình tốt nhất
14

Tuy nhiên, do tiếng Việt là ngôn ngữ đơn lập và không có ký
tự tách từ cho nên việc phân tích câu có nhiều nhập nhằng và không
có ký tự phân tách từ. Đơn vị nhỏ nhất cấu tạo nên từ là âm tiết. Từ

2.3.2. Thuộc tính phân lớp
Để tự động phát hiện được các lỗi chú giải trong kho ngữ liệu
tiếng Việt bằng cách phân lớp ngữ cảnh dựa trên nền tảng cơ bản là
việc gán nhãn cho một từ phụ thuộc vào ngữ cảnh của từ đó. Thông
tin ngữ cảnh được chúng tôi sử dụng đó là nhãn của từ phía trước và
phía sau của từ hiện tại. Mỗi ngữ cảnh xuất hiện trong ngữ liệu huấn
luyện sẽ giúp cho chúng ta chọn được nhãn đúng cho từ. Xác suất mà
nhãn xuất hiện trong ngữ cảnh đó sẽ được lưu lại, trong quá trình gán
nhãn cho ngữ liệu mới nó giúp chúng ta chọn được nhãn chính xác.
Theo [3], đã đưa ra nhận định rằng, một biến thể thì có nhiều
khả năng là lỗi hơn một sự nhập nhằng nếu nó xuất hiện trong một
đoạn dài của các câu khác nhau. Hay nói cách khác, các variation n-
gram với giá trị n càng lớn thì khả năng variation là một lỗi càng cao.
2.3.3. Cách phát hiện lỗi dựa trên kết quả phân lớp

Trong luận văn này, chúng tôi xây dựng công cụ tự động phát
hiện lỗi chú giải từ loại trong kho ngữ liệu VTB, gồm các bước sau:

Bước 1: Tiền xử lý kho ngữ liệu treebank tiếng Việt;
Bước 2: Sử dụng công cụ gán nhãn tự động vnTagger để tách
từ và gán nhãn từ loại cho kho ngữ liệu VietTreeBank. Với tập dữ liệu
đầu vào là kho ngữ liệu VTB đã loại bỏ các nhãn từ loại được gán
bằng tay trước đó;
Bước 3: Đi thống kê số lượng các variation nucleis và vị trí
của chúng trong kho ngữ liệu treebank tiếng Việt được chú giải từ loại
bằng tay ở mỗi n-grams (01 gram, 02 gram,…,n –gram) và đồng thời
đưa ra những vị trí của variation nucleis có khả năng lỗi bằng phương
pháp so sánh nhãn ở những vị trí của variation nucleis với nhãn của từ
loại (cùng vị trí) trong kho ngữ liệu VTB sử dụng vnTagger gán nhãn
từ loại ở Bước 2.

Input: Kho ngữ liệu treebank tiếng Việt đã loại bỏ nhãn từ
loại được gán bằng tay trước đó.
Output: Kho ngữ liệu VTB được gán nhãn từ loại bởi công
cụ vnTagger.
3.1.2.2. Công cụ tự động phát hiện lỗi chú giải từ loại
Công cụ được xây dựng dựa trên thuật toán variation n-gram.
Công cụ này được viết bằng ngôn ngữ lập trình C# dùng để thống kê
số lượng các variation nucleis và vị trí của từ được chú giải từ loại
trong kho ngữ liệu tiếng Việt, với:
Input: Kho ngữ liệu VTB được chú giải từ loại bằng tay.
Output: Danh sách thống kê số lượng các variation nucleis
và vị trí của chúng trong kho ngữ liệu VietTreeBank được chú giải từ
loại trong các n-grams (01 gram, 02 gram,…,n–gram) và đưa ra tập
nhãn của các vị trí variation nucleis có khả năng lỗi.
17

3.1.3. Thử nghiệm chương trình và đánh giá kết quả
3.1.3.1. Thử nghiệm chương trình
Chương trình tự động phát hiện lỗi: với mục đích kiểm
nghiệm phương pháp entropy cực đại kết hợp với thuật toán variation
n-gram để tự động phát hiện lỗi chú giải từ loại trong kho ngữ liệu
VietTreeBank có 10.165 câu được tách từ và gán nhãn từ loại bằng
tay. Tập dữ liệu này sẽ được sử dụng làm đầu vào cho việc kiểm thử
tự động phát hiện lỗi chú giải từ loại.

Hình 3.1. Giao diện chƣơng trình chính
Chương trình gồm hai chức năng chính: chức năng gán nhãn
từ loại và chức năng phát hiện lỗi chú giải.
+ Chức năng gán nhãn từ loại: gọi đến công cụ vnTagger
để tách từ và gán nhãn từ loại tự động cho kho ngữ liệu

trí của variation nucleis có khả năng lỗi dựa trên kho ngữ liệu vàng
với các từ được gán nhãn từ loại hoàn toàn chính xác.
Số n-gram
Số variation
nucleis
Số vị trí
variation nucleis
Số vị trí variation
nucleis có khả năng lỗi
1-gram
1.646
116.346
17.965
2-gram
4.661
29.270
9.547
3-gram
1.316
3.995
1.593
4-gram
269
670
313
5-gram
85
211
100
6-gram

4
14-gram
3
6
3
15-gram
2
4
2
16-gram
1
2
1
20 Hình 3.4. Kết quả đánh giá các variation nucleis
Với dữ liệu đầu vào là kho ngữ liệu vàng và tập nhãn của các
vị trí variation nucleis có khả năng lỗi (được thay bởi các nhãn của
vnTagger). Trước tiên, công cụ đánh giá tiến hành thống kê được 820
từ trong kho ngữ liệu vàng (pos_key.txt) thuộc tập variation nucleis
của VTB (từ 1-gram,…,16-gram). Tiếp theo, đem so sánh nhãn từ
loại được gán bởi vnTagger ở các vị trí của variation nucleis được
phát hiện trong kho ngữ liệu VietTreeBank với nhãn từ loại của từ đó
trong kho ngữ liệu vàng (cùng vị trí xuất hiện).
Nếu hai nhãn trùng nhau thì công cụ phát hiện lỗi đã phát
hiện sai ngược lại thì công cụ phát hiện lỗi đã phát hiện đúng đồng
thời công cụ đánh giá lỗi đưa ra đề xuất nhãn từ loại thay thế cho
nhãn lỗi. Kết quả ở 5.036 vị trí xuất hiện của 820 variation nucleis có
3.654 vị trí trùng với nhãn trong kho ngữ liệu vàng và 1.382 vị trí

chú giải từ loại và vị trí của các lỗi đó trong kho ngữ liệu tiếng Việt.
Điều đó, giúp các hệ thống tìm kiếm thông tin, hệ thống nhận dạng
tiếng nói cũng như trong các hệ thống dịch máy,…có độ chính xác và
hiệu quả hơn.
Kết quả chạy chương trình phát hiện lỗi trên kho ngữ liệu
VietTreeBank thu được: 16-grams với số variation nucleis và vị trí
của chúng được phát hiện trong kho ngữ liệu ở mỗi grams là:
22

Và chương trình đã đánh giá 5.036 vị trí xuất hiện của 820
variation nucleis có 3.654 vị trí trùng với nhãn trong kho ngữ liệu
vàng và 1.382 vị trí khác với nhãn trong kho ngữ liệu vàng (nhãn lỗi).
4.2. Hƣớng phát triển
Do còn hạn chế về thời gian nên khoá luận còn một số vấn đề
cần tiếp tục hoàn thiện và phát triển trong thời gian tới:
Tìm hiểu, nghiên cứu thêm các đặc điểm của ngôn ngữ tiếng
Việt và các phương pháp phát hiện lỗi chú giải, sửa lỗi chú giải để
xây dựng công cụ tự động phát hiện và sửa lỗi chú giải từ loại trong
kho ngữ liệu tiếng Việt.
Tiếp tục nghiên cứu xây dựng kho ngữ liệu vàng treebank
tiếng Việt.
Số n-gram
Số variation
nucleis
Số vị trí variation
nucleis
Số vị trí variation
nucleis có khả năng lỗi
1-gram
1.646

9-gram
9
25
16
10-gram
7
21
14
11-gram
5
10
5
12-gram
5
10
5
13-gram
4
8
4
14-gram
3
6
3
15-gram
2
4
2
16-gram
1

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu phương pháp tự động phát hiện lỗi trong kho dữ liệu tiếng việt được chú giải từ loại - Pdf 10

Tài liệu, ebook tham khảo khác

Học thêm