Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt - Pdf 29

Luận văn tốt nghiệp
MỤC LỤC
MỤC LỤC.........................................................................................................1
LỜI NÓI ĐẦU...................................................................................................2
Chương 1. Giới thiệu chung xử lý ngôn ngữ tự nhiên và phân tích văn bản
tiếng Việt...........................................................................................................5
1.1. Tổng quan về xử lý ngôn ngữ tự nhiên..............................................5
1.2. Một số bài toán cơ bản phân tích văn bản .........................................7
1.2.1. Một số phương pháp giải các bài toán cơ bản: tách câu, tách từ,
gán nhãn từ loại và phân tích cú pháp.......................................................8
1.2.1.1. Bài toán tách câu......................................................................8
1.2.1.2. Bài toán tách từ.........................................................................9
1.2.1.3. Bài toán gán nhãn từ loại........................................................11
1.2.1.4. Bài toán phân tích cú pháp.....................................................12
1.3. Kho ngữ liệu.....................................................................................13
2.1. Bài toán tách câu và công cụ vnSentDetector..................................14
2.2. Bài toán tách từ và công cụ vnTokenizer.........................................15
2.3. Bài toán gán nhãn từ loại và công cụ vnQtag...................................17
2.4. Bài toán phân tích cú pháp và công cụ vnParser..............................20
3.1. Giới thiệu..........................................................................................24
3.2. Nội dung và quy trình dựng kho ngữ liệu có chú giải cú pháp
(treebank).................................................................................................25
3.3. Mô hình chú giải cú pháp SynAF.....................................................29
3.3.1. Một số mô hình mã hóa cấu trúc cú pháp......................................29
3.3.2. Mô hình chú giải cú pháp SynAF..................................................33
3.3.3 Mô hình chú giải cú pháp tiếng Việt - vnSynAF...........................35
3.4. Bộ công cụ hỗ trợ xây dựng kho ngữ liệu tiếng Việt - vnSynAF ....36
KẾT LUẬN.............................................................................................41
1
Luận văn tốt nghiệp
LỜI NÓI ĐẦU

Việt, các hướng tiếp cận để giải các bài toán đó.
Chương 2 – Giới thiệu một số công cụ trong xây dựng kho ngữ liệu cho phân
tích văn bản tiếng Việt.
• Công cụ cho bài toán tách từ
• Công cụ cho bài toán gán nhãn từ loại
• Công cụ cho bài toán phân cụm
• Công cụ cho bài toán phân tích cú pháp
Chương 3 – Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích
văn bản tiếng Việt vnSynAF.
• Giới thiệu về kho ngữ liệu có chú giải ngữ pháp
• Giới thiệu về mô hình SynAF - mô hình chuẩn quốc tể chú giải cú
pháp, mã hoá dựa trên định dạng XML có thể định dạng và mã hoá kho
ngữ liệu tiếng Việt.
• Bộ công cụ vnSynAF
Thực hiện được đề tài này, em đã vận dụng những kiến thức học được
trong giai đoạn học đại học, học cao học, những kiến thức tích luỹ trong quá
trình công tác thực tế, đồng thời học hỏi và nghiên cứu thêm về lĩnh vực ngôn
ngữ học, tiếng Việt. Những công việc em đã thực hiện là sản phẩm bước đầu
của quá trình nghiên cứu, song do kiến thức bản thân còn có hạn chế, thời
gian thực hiện đề tài ít mà công việc thì lại tương đối nhiều nên không tránh
được những hạn chế thiếu sót. Em rất mong muốn các thầy cô giáo, các nhà
chuyên môn hỗ trợ chỉ bảo thêm.
Em xin được tỏ lòng cảm ơn sâu sắc tới TS.Nguyễn Thị Minh Huyền
đã tân tình hướng dẫn và giúp đỡ, tạo mọi điều kiện về phương tiện và tài liệu
để em hoàn thành bài luận văn này. Em cũng xin chân thành cảm ơn tới các
thầy cô, các anh chị trong bộ môn Tin học đã ủng hộ, động viên giúp đỡ em
trong suốt quá trình học tập và làm luận văn.
3
Luận văn tốt nghiệp
Và cuối cùng em cũng xin được cảm ơn tới bạn bè, toàn thể gia đình và

một tệp văn bản trên máy tính.
- Tóm tắt văn bản: Từ một văn bản dài, máy tính tóm tắt thành văn bản ngắn
hơn với những nội dung cơ bản nhất.
- Dịch tự động: Là việc dịch tự động từ tiếng này sang tiếng khác, chẳng hạn
dịch câu “ông già đi nhanh quá” sang tiếng Anh. Việc dịch này đòi hỏi máy
không những phải hiểu đúng nghĩa câu tiếng Việt mà còn phải tạo ra được câu
tiếng Anh tương ứng.
5
Luận văn tốt nghiệp
- Tìm kiếm thông tin trên mạng: Đây là lĩnh vực có sự chia sẻ nhiều nhất giữa
trí tuệ nhân tạo và Internet, và ngày càng trở nên hết sức quan trọng. Sẽ sớm
đến một ngày, mọi tri thức của con người được số hóa và để lên mạng hay các
thư viện số cực lớn.
- Phát triển tri thức và khai phá dữ liệu văn bản: Từ nhiều nguồn tài nguyên
khác nhau, thậm chí còn không có liên quan gì đến nhau, máy tính tìm ra
được những tri thức mới mà trước đó chưa có ai biết.
Còn nhiều bài toán và công nghệ xử lý ngôn ngữ tự nhiên khác, như giao diện
người-máy bằng ngôn ngữ tự nhiên, các hệ hỏi đáp, các hệ sinh ngôn ngữ, …
Về Công nghệ xử lý ngôn ngữ, nhất là xử lý văn bản, về đại thể bao gồm các
bước cơ bản sau:
(1) Tầng ngữ âm: Nghiên cứu về ngữ âm.
(2) Tầng hình thái: Nghiên cứu về các thành phần có nghĩa của từ (word),
như từ được tạo ra bởi các hình vị (morphemes) và từ được tách ra trong
một câu thế nào. Trong tiếng Việt, một bài toán quan trọng là phân tách từ
(word segmentation). Một thí dụ quen thuộc là câu “Ông già đi nhanh quá”
có thể phân tách thành (Ông già) (đi) (nhanh quá) hoặc (Ông) (già đi)
(nhanh quá) hoặc những cách khác nữa.
(3) Tầng ngữ pháp: Nghiên cứu các quan hệ cấu trúc giữa các từ, xem các
từ đi với nhau thế nào để tạo ra câu đúng. Quá trình này thường được cụ
thể trong các bước cơ bản sau:

bản ra thành các câu. Với mỗi câu thực hiện phân tích cú pháp để xác định
ngữ nghĩa của câu. Từ đó người ta xác định được nội dung văn bản cần phân
tích. Việc phân tích câu cũng được chia thành các bước nhỏ hơn nữa như:
tách từ, xác định từ loại, xác định các thành phần ngữ pháp trong câu. Trong
xử lý ngôn ngữ tự nhiên, người ta đưa ra các bài toán cơ bản để thực hiện các
bài toán trong các bước phân tích văn bản đó. Đó là:
7
Luận văn tốt nghiệp
- Bài toán tách câu: tách một văn bản ra thành các câu.
- Bài toán tách từ: tách một câu thành các đơn vị từ có nghĩa.
- Bài toán gán nhãn từ loại: gán cho mỗi từ trong một câu một nhãn từ
loại.
- Bài toán phân tích cú pháp: phân tích câu thành các thành phần ngữ
pháp, xác định mối quan hệ ngữ nghĩa, quan hệ ngữ pháp giữa các thành
phần đó.
Để phân tích văn bản tốt thì việc giải quyết tốt các bài toán cơ bản này là rất
quan trọng. Đây cũng là những bài toán khó đối với ngôn ngữ tiếng Việt, đã
và vẫn đang được các nhà nghiên cứu quan tâm.
Phần sau là một số phương pháp để giải các bài toán cơ bản đó.
1.2.1. Một số phương pháp giải các bài toán cơ bản: tách câu, tách từ,
gán nhãn từ loại và phân tích cú pháp
1.2.1.1. Bài toán tách câu
Vấn đề tách một văn bản ra thành các đơn vi câu độc lập dường như
được ít các nhà nghiên cứu quan tâm nhất, mặc dù nó cũng là phần việc quan
trọng trong phân tích văn bản. Để tách một văn bản ra thành các đơn vi câu
độc lập đối với tiếng Việt không đơn thuần là chỉ dựa vào các dấu hiệu kết
câu (đấu chấm ‘.’, dấu chấm than ‘.’ và dấu chấm hỏi ‘?’). Vẫn có những câu
tiếng Việt mà các dấu hiệu kết câu đó vẫn chưa phải là kết câu. Ví dụ như
“Giá xăng mới tăng lên thành 16.000 đồng/lít”, hay “Tp.Hà Nội”, “TS.Phạm
Lan”,…

trong từ điển. Do đó trong hướng tiếp cận này đòi hỏi từ điển riêng cho
từng lĩnh vực quan tâm. Hướng tiếp cận “full word / phrase” cần sử
dụng một từ điển hoàn chỉnh để có thể tách được đầy đủ các từ hoặc
ngữ trong văn bản, trong khi đó hướng tiếp cận thành phần
“component” lại sử dụng từ điển thành phần. Từ điển thành phần chỉ
chứa các thành phần của từ và ngữ như hình vị và các từ đơn giản.
9
Luận văn tốt nghiệp
Hướng tiếp cận theo từ điển vẫn còn một số hạn chế trong việc tách từ
vì thực hiện hoàn toàn dựa vào từ điển. Nếu như thực hiện thao tác tách
từ bằng cách sử dụng từ điển hoàn chỉnh thì trong thực tế việc xây dựng
một bộ từ điển hoàn chỉnh là khó thực hiện vì đòi hỏi nhiều thời gian và
công sức. Nếu tiếp cận theo hướng sử dụng từ điển thành phần thì sẽ
giảm nhẹ hạn chế, khó khăn khi xây dựng từ điển, vì khi đó chúng ta sẽ
sử dụng các hình vị từ và các từ đơn giản và các từ khác để hình thành
nên từ, cụm từ hoàn chỉnh.
• Hướng tiếp cận theo Hybrid: Với mục đích kết hợp các hướng tiếp
cận khác nhau để thừa hưởng được các ưu điểm của nhiều kỹ thuật và
các hướng tiếp cận khác nhau nhằm nâng cao kết qủa. Hướng tiếp cận
này thường kết hợp giữa hướng dựa trên thống kê và dựa trên từ điển
nhằm tận dụng các mặt mạnh của các phương pháp này. Tuy nhiên
hướng tiếp cận Hybrid lại mất nhiều thời gian xử lý, không gian đĩa và
đòi hỏi nhiều chi phí.
 Hướng tiếp cận để giải bài toán dựa trên đơn vị âm tiết
Trong tiếng Việt, hình vị nhỏ nhất là âm tiết (tiếng) được hình thành bởi
nhiều ký tự trong bảng chữ cái. Hướng tiếp cận này đơn thuần rút trích ra
một số lượng nhất định các tiếng trong văn bản như rút trích từ 1 ký tự
(unigram) hay nhiều ký tự (n-gram) và cũng mang lại một số kết qủa nhất
định được minh chứng thông qua một số công trình nghiên cứu đã được
công bố, như của tác giả Lê An Hà [2003] xây dựng tập ngữ liệu thô

đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ
pháp và các phương pháp xác suất . Ngoài ra còn có các hệ thống sử
dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất
và ràng buộc ngữ pháp, gán nhãn nhiều tầng.
Về mặt ngữ liệu, các phương pháp phân tích từ loại thông dụng hiện nay dùng
một trong các loại tài nguyên ngôn ngữ sau:
- Từ điển và các văn phạm loại bỏ nhập nhằng.
- Kho văn bản đã gán nhãn, có thể kèm theo các quy tắc ngữ pháp xây
dựng bằng tay.
11
Luận văn tốt nghiệp
- Kho văn bản chưa gán nhãn, có kèm theo các thông tin ngôn ngữ như là
tập từ loại và các thông tin mô tả quan hệ giữa từ loại và hậu tố.
- Kho văn bản chưa gán nhãn, với tập từ loại cũng được xây dựng tự
động nhờ các tính toán thống kê. Trong trường hợp này khó có thể dự
đoán trước về tập từ loại.
Các bộ gán nhãn từ loại dùng từ điển và văn phạm gần giống với một
bộ phân tích cú pháp. Các hệ thống học sử dụng kho văn bản để học cách
đoán nhận từ loại cho mỗi từ. Từ giữa những năm 1980 các hệ thống này
được triển khai rộng rãi vì việc xây dựng kho văn bản mẫu ít tốn kém hơn
nhiều so với việc xây dựng một từ điển chất lượng cao và một bộ quy tắc ngữ
pháp đầy đủ. Một số hệ thống sử dụng đồng thời từ điển để liệt kê các từ loại
có thể cho một từ, và một kho văn bản mẫu để loại bỏ nhập nhằng.
Các bộ gán nhãn thường được đánh giá bằng độ chính xác của kết quả:
[số từ được gán nhãn đúng] / [tổng số từ trong văn bản]. Các bộ gán nhãn tốt
nhất hiện nay có độ chính xác đạt tới 98%.
1.2.1.4. Bài toán phân tích cú pháp
Các hướng tiếp cận để giải bài toán phân tích cú pháp đều sử dụng văn
phạm phi ngữ cảnh để biểu diễn ngôn ngữ, sau đó dùng một số kỹ thuật phân
tích để xác định cây phân tích cú pháp. Sở dĩ vậy là vì nó biểu diễn được hầu

Bộ công cụ trong đề tài nghiên cứu luận văn này chính là để hỗ trợ xây
dựng kho ngữ liệu câu tiếng Việt có chú giải cú pháp (gán nhãn cú pháp).
Việc xây dựng kho ngữ liệu này được thực hiện bởi các chuyên gia ngôn ngữ
là các nhà nghiên cứu xử lý ngôn ngữ, các nhà ngôn ngữ học. Việc thực hiện
là thủ công bằng tay hoặc bán tự động bằng việc sử dụng các công cụ đã có
như tách câu, tách từ, gán nhãn từ loại, gán nhãn cú pháp được tích hợp vào
chương trình.
13
Luận văn tốt nghiệp
Chương 2. Các công cụ phân tích văn bản tiếng Việt
Trong chương này em giới thiệu một số công cụ phân tích văn bản
tiếng Việt đã có áp dụng cho các bài toán cơ bản: tách câu, tách từ, gán nhãn
từ loại và phân tích cú pháp. Đây là những công cụ được xây dựng bằng ngôn
ngữ Java mã nguồn mở, có thể dễ dàng mở rộng, tích hợp được vào các hệ
thống khác.
2.1. Bài toán tách câu và công cụ vnSentDetector
Đặt bài toán
Cho một văn bản tiếng Việt bất kỳ. Hãy phân tách văn bản đó ra thành
các đơn vị câu độc lập.
Bài toán tách câu đặt ra với mục đích xây dựng công cụ tự động tách các câu
trong một văn bản tiếng Việt bất kỳ một cách chính xác nhất có thể.
Công cụ tách câu vnSententDetector của hai tác giả Lê Hồng Phương và Hồ
Tường Vinh được xây dựng dựa trên mô hình xác suất với Maximum
Entropy. Mô hình này được đào tạo trên tạp dữ liệu được huấn luyện gồm có
4.800 câu tiếng Việt. Bộ dữ liệu này được các nhà ngôn ngữ học thuộc trung
tâm từ điển học Việt Nam (Vietlex) xây dựng thủ công bằng tay. Với phương
pháp này, theo bài báo mà các tác giả đã công bố thì độ chính xác đạt được
95%.
Ý tưởng của phương pháp là xây dựng mô hình xác suất ước lượng lớp b xảy
ra trong ngữ cảnh c, p(b,c).

2.2. Bài toán tách từ và công cụ vnTokenizer
Đặt bài toán
Cho một câu tiếng Việt bất kỳ, hãy tách câu đó thành những đơn vị từ
vựng (từ), hoặc chỉ ra những âm tiết nào không có trong từ điển (phát
hiện đơn vị từ vựng mới).
Giới thiệu công cụ vnTokenizer
vnTokenizer là công cụ tách từ tiếng Việt được nhóm tác giả Nguyễn
Thị Minh Huyền, Vũ Xuân Lương và Lê Hồng Phương phát triển dựa trên
phương pháp so khớp tối đa (Maximum Matching) với tập dữ liệu sử dụng là
bảng âm tiết tiếng Việt và từ điển từ vựng tiếng Việt.
15
Luận văn tốt nghiệp
Công cụ được xây dựng bằng ngôn ngữ Java, mã nguồn mở. Có thể đễ dàng
sửa đổi nâng cấp và tích hợp vào các hệ thống phân tích văn bản tiếng Việt
khác.
Quy trình thực hiện tách từ theo phương pháp khớp tối đa:
Hình 1. Quy trình tách từ
- Đầu vào của công cụ tách từ vnTokenizer là một câu hoặc một văn bản
được lưu dưới dạng tệp.
- Đầu ra là một chuỗi các đơn vị từ được tách.
- Các đơn vị từ bao gồm các từ trong từ điển cũng như các chuỗi số,
chuỗi kí từ nước ngoài, các hình vị ràng buộc (gồm các phụ tố), các dấu
câu và các chuỗi kí tự hỗn tạp khác trong văn bản (ISO, 2008). Các đơn
vị từ không chỉ bao gồm các từ có trong từ điển, mà cả các từ mới hoặc
các từ được sinh tự do theo một quy tắc nào đó (như phương thức thêm
phụ tố hay phương thức láy) hoặc các chuỗi kí hiệu không được liệt kê
trong từ điển.
Công cụ sử dụng tập dữ liệu đi kèm là tập từ điển từ vựng tiếng Việt,
danh sách các đơn vị từ mới bổ sung, được biểu diễn bằng ôtômat tối tiểu hữu
hạn trạng thái, tệp chứa các biểu thức chính quy cho phép lọc các đơn vị từ

Trích đoạn Bộ công cụ hỗ trợ xây dựng kho ngữ liệu tiếng Việ t vnSynAF

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt - Pdf 29

Tài liệu, ebook tham khảo khác

Học thêm