Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt ( Luận án tiến sĩ) - Pdf 48

Học viện Công nghệ Bưu chính Viễn thông
Phan Thị Hà

Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho
ngữ liệu từ nguồn Internet cho xử lý tiếng Việt
Chuyên ngành: Truyền dữ liệu và mạng máy tính Mã số: 62.48.15.01
Nghiên cứu sinh: Phan Thị Hà
Cán bộ hướng dẫn: 1. PGS.TS Trần Hồng Quân 2. TS. Nguyễn Thị Minh Huyền

2014

i

LỜI CAM ĐOAN
Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản
thân. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu rõ
nguồn gốc một cách rõ ràng trong danh mục tài liệu tham khảo được đề cập ở
phần sau của luận án. Những đóng góp trong luận án là kết quả nghiên cứu của
tác giả đã được công bố trong các bài báo của tác giả ở phần sau của luận án và
chưa được công bố trong bất kỳ công trình khoa học nào khác.
Tác giả luận án

Phan Thị Hà

ii

Lời cảm ơn
Trước tiên, tôi muốn gửi lời cảm ơn đến Thầy Cô giáo hướng dẫn của tôi,
PGS.TS Trần Hồng Quân, TS Nguyễn Thị Minh Huyền. Thầy, Cô đã tận tình

DANH MỤC CỤM TỪ VIẾT TẮT ...........................................................................viii

MỞ ĐẦU......................................................................................................... x
Đặt vấn đề .......................................................................................................................... x
Mục tiêu và phạm vi nghiên cứu của luận án .................................................................xiii
Kết quả đạt được .............................................................................................................xiv
Bố cục của luận án ........................................................................................................... xv

CHƯƠNG 1. TỔNG QUAN VỀ KHO NGỮ LIỆU....................................... 1
1.1

Kho ngữ liệu văn bản............................................................................................. 1

1.2

Xây dựng, chuẩn hóa và khai thác kho ngữ liệu.................................................... 5

1.2.1

Thu thập kho ngữ liệu văn bản ...................................................................... 5

1.2.2

Chú giải ngôn ngữ và vấn đề chuẩn hóa ........................................................ 7

1.2.3

Khai thác kho ngữ liệu................................................................................... 9

1.3

Thu thập địa chỉ URL .................................................................................. 21

2.2.3

Lọc nội dung chính của các trang web (URLs) ........................................... 23

2.2.4

Phát hiện sự trùng lặp gần nhau................................................................... 28

2.2.5

Xây dựng công cụ và kết quả thu thập kho ngữ liệu ................................... 32

2.3

Kết chương........................................................................................................... 32

iv

CHƯƠNG 3. CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG VIỆT............ 34
3.1

Giới thiệu ............................................................................................................. 34

3.2

Mô hình MAF của ISO/TC 37/SC 4.................................................................... 34

4.1

Giới thiệu ............................................................................................................. 51

4.1.1

Nghiên cứu từ vựng ..................................................................................... 51

4.1.2

Sketch Engine .............................................................................................. 52

4.1.3

Ngữ liệu trong Sketch Engine...................................................................... 53

4.2

Xây dựng ngữ liệu tiếng Việt cho Sketch Engine................................................ 56

4.2.1

Tách từ và gán nhãn từ loại.......................................................................... 56

4.2.2

Xây dựng bộ quan hệ ngữ pháp tiếng Việt .................................................. 57

4.2.3

Văn phạm kết nối cây (Tree Adjoining Grammar – TAG).......................... 74

5.3

Trích rút tự động văn phạm CFG cho tiếng Việt ................................................. 77

v

5.3.1

Thuật toán trích rút từ VietTreebank ........................................................... 77

5.3.2

Phân tích cú pháp tiếng Việt với văn phạm PCFG ...................................... 86

5.3.3

Thử nghiệm và đánh giá .............................................................................. 89

5.3.4

Nhược điểm của văn phạm PCFG trong phân tích ngữ pháp ...................... 90

5.4

Trích rút tự động văn phạm LTAG cho tiếng Việt .............................................. 90

5.4.1

Hình 5. 1 Biểu diễn văn phạm G dưới dạng cây.................................................................. 73
Hình 5. 2. Phép thay thế....................................................................................................... 75
Hình 5. 3. Phép kết nối ........................................................................................................ 75
Hình 5. 4.Ví dụ về dẫn xuất với phép kết nối và phép thế trong văn phạm TAG ............... 76
Hình 5. 5. Xử lý các cụm từ bằng thuật toán 5.5 ................................................................. 94
Hình 5. 6. Ví dụ minh họa việc xây dựng cây phân tích ..................................................... 94
Hình 5. 7. Cây phân tích cú pháp......................................................................................... 95
Hình 5. 8. Cây phân tích của cây cú pháp trong hình 5.7 sau khi chèn thêm nút ................ 95
Hình 5. 9.Các mẫu cây cơ sở spine (ứng với quan hệ đối–vị từ) và phụ trợ (ứng với quan hệ
phụ trợ hoặc đẳng lập) ......................................................................................................... 96
Hình 5. 10. Các cây cơ bản .................................................................................................. 97
Hình 5. 11. Ghép các nút liên kết, đường đi trung tâm được đánh dấu bởi nét đôi............. 98
Hình 5. 12. Số mẫu cây tăng dần theo kích thước của Treebank: ..................................... 100
Hình 5. 13. Sơ đồ so sánh tập cây cơ bản .......................................................................... 105
Hình 5. 14. Một cây cơ bản không hợp lệ......................................................................... 106

vii

DANH MỤC BẢNG
Bảng 1. 1. Thống kê các kho ngữ liệu đơn ngữ tiếng Việt .................................................. 13
Bảng 2. 1. Thống kê số URL thu được của thuật toán 2.1................................................... 21
Bảng 2. 2. Tỷ lệ văn bản và thẻ xuất hiện trong phần nội dung chính của một số trang web
tin tức Việt Nam .................................................................................................................. 25
Bảng 2. 3. So sánh tỷ lệ “nội dung chính văn bản cần lấy/ toàn bộ nội dung văn bản trích
rút được” .............................................................................................................................. 27
Bảng 2. 4. Kết quả thống kê thu thập tự động kho ngữ liệu từ web .................................... 32
Bảng 3. 1.Tập từ loại được đối sánh với danh mục phân loại dữ liệu chuẩn ISO 12620 .... 40
Bảng 3. 2. Tập nhãn cú pháp thành phần, nhãn phân loại câu được đối sánh với danh mục
phân loại dữ liệu chuẩn ISO 12620 ..................................................................................... 44

Application Programming

Giao diện lập trình ứng dụng

Interface
BNC

The British National Corpus

Kho ngữ liệu Anh ngữ

BTE

Body Text Extraction

Trích văn bản phần thân

CES

Copus Encoding Standard

Tiêu chuẩn mã hóa kho ngữ liệu

COCA

The Copus of Contemporary

Kho ngữ liệu Anh Mỹ hiện đại

American English

Standardization
LAF

Linguistic Annotation

Khung chú giải ngôn ngữ học

Framework
LDC

Linguistic Data Consortium

Tổ chức dữ liệu ngôn ngữ học

MAF

Morphosyntactic Annotation

Khung chú giải hình thái cú pháp

Framewor
MD5

Message Digest 5

Tóm tắt thông điệp

MDFA

Minimal deterministic nite state

Standard Generalized Markup

Ngôn ngữ đánh dấu tổng quát hóa

Language

chuẩn

SynAF

Syntactic Annotation Framework

Mô hình chú giải cú pháp

URL

Uniform Resource Locator

Định vị tài nguyên đồng nhất

WFST

Weighted Finit State Transducer

Máy chuyển hữu hạn trạng thái có
trọng số

WWW

Worl Wide Web

LTAG

Lexicalized Tree Adjoining

Văn phạm kết nội cây từ vựng hóa

Grammar
CYK

Cocke – Younger – Kasami

Thuật toán CYK

algorithm
SSL

Semi-supervised learning

Học bán giám sát

x

MỞ ĐẦU
Đặt vấn đề
Những năm gần đây, xử lý ngôn ngữ tự nhiên (XLNNTN) đã trở thành một
lĩnh vực khoa học công nghệ được coi là mũi nhọn, với một loạt ứng dụng liên
quan đến Internet và Web, như tìm kiếm và trích chọn thông tin trên Web, khai phá
văn bản, Web ngữ nghĩa, tóm tắt văn bản v.v.

Mức hình thái từ (morphology). Nhằm phân tích hình thái các từ vựng tạo
nên văn bản, từ đó kiểm tra được tính đúng đắn của âm tiết và từ;
Mức cú pháp (syntax). Mô tả quan hệ vai trò ngữ pháp của các từ, các cụm
từ (hoặc ngữ) trong câu, từ đó xây dựng cấu trúc câu;
Mức ngữ nghĩa (semantics). Mục đích của mức này là kiểm tra ý nghĩa của
câu có mâu thuẫn với ý nghĩa cả đoạn hay không. Dựa trên mối liên hệ logic về
nghĩa giữa các cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệ thống sẽ
xác định được một phần ý nghĩa của câu trong ngữ cảnh của cả đoạn;
Mức ngữ dụng (pragmatics). Mục đích là phân tích để xác định ý nghĩa của
câu dựa trên mối liên hệ của câu với hiện thực. Ý nghĩa thực tế của câu phụ thuộc
rất nhiều vào ngữ cảnh diễn ra lời nói. Do vậy, quá trình phân tích này rất khó thực
hiện được bằng máy tính. Thường thì việc phân tích câu chỉ dừng ở phân tích ngữ
nghĩa, còn việc phân tích ngữ dụng do người dùng tự quyết định;
Mức diễn ngôn (discourse). Phân tích về mặt diễn đạt và ngữ cảnh tình
huống trong một đoạn phát ngôn.
Để giải quyết các vấn đề trên, nhiều kho ngữ liệu lớn (corpora) đã được ra
đời phục vụ cho việc huấn luyện các mô hình xử lý ngôn ngữ. Tuy nhiên, mỗi mức
xử lý cần các kho ngữ liệu với những yêu cầu đặc trưng riêng, ví dụ, với mức hình
thái từ thì cần có kho ngữ liệu huấn luyện (đã được chú giải hình thái) càng lớn
càng tốt, kho ngữ liệu lớn sẽ cải thiện được độ chính xác mô tả thông tin ngôn ngữ,
với mức cú pháp, đòi hỏi phải xây dựng được kho ngữ liệu đã được chú giải từ loại
hoặc cú pháp.
Hiện nay trên thế giới đã tồn tại nhiều kho ngữ liệu chuẩn. Nhiều kho ngữ
liệu được xây dựng cho tiếng Anh tiêu biểu là BNC [37], ANC [58], Penn Treebank

xii

[79], WordNet [53] v.v. Các thứ tiếng Ấn-Âu khác cũng được nghiên cứu từ nhiều
thập kỉ và nhiều kho ngữ liệu lớn đã được xây dựng làm cơ sở dữ liệu huấn luyện

phương pháp thủ công vì như thế tốn rất nhiều thời gian và công sức, các kho ngữ
liệu như thế cho tiếng Anh các thứ tiếng khác đã được xây dựng tự động từ Internet,
chúng ta có thể học tập để xây dựng cho tiếng Việt. Hơn nữa, để dễ dàng sử dụng,
mở rộng và đối sánh ngôn ngữ thì các kho ngữ liệu tiếng Việt cũng phải hướng tới
vấn đề chuẩn hóa quốc tế. Song song với nỗ lực của đề tài này, luận án đã tập trung
vào chủ đề xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử
lý tiếng Việt.

Mục tiêu và phạm vi nghiên cứu của luận án
Như đã trình bày sơ bộ ở trên, việc hiểu tự động văn bản là một việc khó và
phức tạp, chỉ có thể làm theo nhiều bước tuần tự, bước sau chỉ thực hiện được sau
khi bước trước đã có kết quả. Chẳng hạn như các chương trình dịch tự động trên thế
giới đã được theo đuổi hàng hơn chục năm và chặng đường đến đích cuối vẫn còn
rất xa, nếu chúng ta muốn làm dịch tự động Anh-Việt, bắt buộc chúng ta đi qua các
tầng của xử lý ngôn ngữ đã đề cập ở trên.
Mục tiêu mà luận án nhắm đến là xây dựng và khai thác kho ngữ liệu tiếng
Việt, cụ thể là:
-

Xây dựng kho ngữ liệu thô có kích thước lớn

-

Xây dựng chuẩn hóa mô hình chú giải tiếng Việt.

-

Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng.

-

Nghiên cứu và phát triển thuật toán trích rút tự động các luật văn phạm
từ kho ngữ liệu đã chú giải cú pháp hoặc cung cấp thông tin cú pháp
phục vụ cho phân tích cú pháp sử dụng hệ hình thức văn phạm phi ngữ
cảnh kết hợp xác suất (PCFG) và văn phạm kết nối cây (TAG).

Kết quả đạt được
Luận án đã đạt được các kết quả sau.
1.

Phát triển thuật toán thu thập văn bản tiếng Việt từ web để xây dựng kho
ngữ liệu. Xây dựng công cụ thu thập tự động kho ngữ liệu từ Internet có
tên là Vncopus, triển khai thu thập kho ngữ liệu thô tiếng Việt từ
Internet (100 triệu từ), công cụ này được công bố tại địa chỉ
/>
2.

Xây dựng, triển khai các mô hình chuẩn hóa quốc tế về quản lý tài
nguyên ngôn ngữ được phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4
cho tiếng Việt: Xây dựng mô hình chú giải mức hình thái-cú pháp
(MAF- Morphosyntactic Annotation Framework) và mô hình chú giải
mức cú pháp (SynAF-Syntactic Annotation Framework) cho tiếng Việt.

3.

Xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt (37 quan hệ ngữ
pháp) cho hệ thống nghiên cứu từ vựng; Tích hợp kho ngữ liệu xây dựng
từ Internet (kho ngữ liệu thô được gán nhãn từ loại bằng cách sử dụng
công cụ sẵn có) cùng bộ quan hệ ngữ pháp cho nghiên cứu từ vựng tiếng

địa

chỉ

Tham gia triển khai
thuật toán trích rút cây cơ bản của văn phạm kết nối cây (TAG) từ
VietTreebank. Xây dựng và triển khai thuật toán trích rút cây cơ bản cho
văn phạm TAG từ từ điển tiếng Việt. So sánh tập cây cơ bản trích rút từ
VietTreebank và từ điển tiếng Việt để lọc ra các cây cơ bản không hợp
lệ với cấu trúc ngữ pháp tiếng Việt và đánh giá độ tốt của VietTreebank
cũng như từ điển.

Bố cục của luận án
Ngoài mở đầu và kết luận, luận án được chia thành năm chương.
Chương 1. Tổng quan về kho ngữ liệu: Trình bày khái niệm về kho ngữ
liệu; Giới thiệu một số kho ngữ liệu đã chú giải từ loại và cú pháp trên thế
giới, phương pháp chung cho việc xây dựng các kho ngữ liệu này. Trình bày
một số chuẩn hóa mô hình chú giải được phát triển bởi tiểu ban kỹ thuật
ISO/TC 37/SC 4 [114]. Trên cơ sở đó xác định mục tiêu cho việc xây dựng
và khai thác kho ngữ liệu từ Internet cho tiếng Việt.
Chương 2. Xây dựng kho ngữ liệu thô từ Internet:Trong chương này
trình bày cụ thể việc xây dựng kho ngữ liệu thô tiếng Việt từ Internet thông
qua các trang Web.

xvi

Chương 3. Chuẩn hóa mô hình chú giải tiếng Việt: Nghiên cúu mô hình
chú giải MAF và SynAF được phát triển bởi ISO/ TC 37/ SC 4, từ đó xây
dựng và triển khai chuẩn hóa mô hình chú giải hình thái cú pháp (MAF) và

văn hóa, kỹ thuật v.v. Đa số, kho ngữ liệu có nguồn gốc từ tạp chí, báo, sách giáo
khoa, báo điện tử, web….Những năm gần đây đã chứng tỏ Web là nguồn tài nguyên
ngôn ngữ khổng lồ, việc thu thập dữ liệu Web lại có ưu điểm là cho phép cập nhật
ngữ liệu thường xuyên, phát hiện những hiện tượng ngôn ngữ đa dạng và phong phú
một cách khách quan hơn so với thu thập dữ liệu truyền thống. Phương pháp thu
thập kho ngữ liệu từ web cho tiếng Anh và một số ngôn ngữ phổ biến khác đã được
giới thiệu trong một số nghiên cứu [20, 24, 25, 88].
Mỗi kho ngữ liệu được xây dựng, định dạng theo tiêu chí riêng nhưng vẫn phải
tuân thủ theo một số tiêu chuẩn chung. Chẳng hạn, xây dựng kho ngữ liệu cho việc
nghiên cứu từ vựng và xây dựng từ điển thì kho ngữ liệu phải có kích thước càng
lớn càng tốt. Để có thể sử dụng hữu ích trong lĩnh vực thống kê, các kho ngữ liệu
văn bản phải được tách từ và chú giải ngôn ngữ ở các mức: mức từ loại (POS) mức
cú pháp nông hoặc đầy đủ. Các kho ngữ liệu chú giải ở mức cú pháp còn được gọi
là ngân hàng cây cú pháp (treebank).
Treebank - kho văn bản mà trong đó mỗi câu được chú giải cấu trúc cú pháp,
thông thường dưới dạng cấu trúc cây phân cấp, là nguồn tài nguyên rất hữu ích
trong lĩnh vực xử lý ngôn ngữ tự nhiên. Treebank có nhiều ứng dụng quan trọng
như đánh giá, kiểm định các công cụ xử lý ngôn ngữ tự động, các phần mềm dịch

2

máy, tóm tắt văn bản, các hệ thống hỏi đáp… Các hệ thống treebank [18] cho các
thứ tiếng được nghiên cứu nhiều như Anh, Pháp, Hoa… đã được xây dựng từ lâu.
Các treebank có thể được chú giải 2 dạng cấu trúc cú pháp, đó là cấu trúc phụ thuộc
và cấu trúc thành phần.
Các cây cú pháp thường được mã hóa theo hai cách. Cách thứ nhất đơn giản sử
dụng cấu trúc dấu ngoặc, theo cách này mỗi thành phần cú pháp sẽ có một cặp dấu
ngoặc bao quanh. Cách thứ hai là sử dụng lược đồ mã hóa XML (eXtended Markup
Language). Cách này đã được nghiên cứu kỹ lưỡng và được áp dụng vào một số dự

nguyên hữu ích phục vụ cho giáo dục, cho nghiên cứu ngôn ngữ và phát triển công
nghệ. Kho ngữ liệu bao gồm văn bản của tất cả các thể loại và bảng dịch của dữ liệu
nói được sản xuất từ năm 1990 trở đi.
Kho ngữ liệu Anh Mỹ hiện đại (COCA - The Copus of Contemporary
American English)
Kho ngữ liệu hiện đại COCA [106] là kho ngữ liệu lớn nhất cho tiếng Anh Mỹ,
có khoảng hơn 425 triệu từ và dữ liệu được lấy đều từ các nguồn tiểu thuyết, nói,
các tạp chí nổi tiếng, báo chí, và các văn bản học thuật, được xây dựng từ năm
1990-2011, kho ngữ liệu được cập nhật một đến hai lần trong một năm (các văn bản
gần đây nhất là từ tháng 3 năm 2012), mỗi năm lấy khoảng 20 triệu từ. Do cách cập
nhật, thiết lập dữ liệu, đây có lẽ là kho ngữ liệu tiếng Anh phù hợp để nhìn vào hiện
tại, thay đổi đang diễn ra trong ngôn ngữ.
Ngân hàng cây cú pháp PENN
Kho ngữ liệu này [18] được xây dựng trong 8 năm (1989-1996), có khoảng 7
triệu từ đã được gán nhãn từ loại, 3 triệu từ đã được phân tích cú pháp cơ bản, trên 2
triệu từ của văn bản đã phân tích cú pháp cho cấu trúc đối vị từ, 1.6 triệu từ là dữ
liệu tiếng nói (phiên âm). Dữ liệu văn bản định dạng dưới dạng đặt ngoặc, mỗi câu
trong kho ngữ liệu sẽ được đặt ngoặc - mỗi thành phần cú pháp sẽ có một cặp dấu
ngoặc bao quanh, ngay sau dấu ngoặc đầu tiên là ký hiệu ngữ pháp và các thuộc
tính (nếu có), tiếp theo là danh sách các thành phần cú pháp con.
Kho văn bản này được lấy từ các nguồn sách máy tính của IBM, tạp chí tài
chính phố Wall, các cuộc đàm thoại .v.v.

4

Ngân hàng cây cú pháp TIGER tiếng Đức
Kho ngữ liệu Tiger (Tiger Treebank, phiên bản 2.1) [101] có khoảng 900,000 từ
(50,000 câu) được lấy từ báo Frankfurter Rundschau của tiếng Đức. Kho ngữ liệu
này đã được gán nhãn từ loại và chú giải cú pháp cho các câu, việc chú giải được

nhà nghiên cứu và xử lý ngôn ngữ.

1.2

Xây dựng, chuẩn hóa và khai thác kho ngữ liệu
Việc xây dựng kho văn bản chú giải cú pháp [18] đã bắt đầu khoảng 50 năm

trước cho tiếng Anh, với phương pháp thủ công. Mục đích là để cung cấp một lược
đồ chú giải hoàn chỉnh nhất có thể (theo kinh nghiệm), và kiểm chứng lược đồ này
trên một kho văn nhỏ. Ngoài ra, cùng với sự phát triển hoàn thiện hơn của các mô
hình ngôn ngữ, mục đích của một số kho ngữ liệu chú giải cú pháp là áp dụng cho
một lý thuyết ngôn ngữ cho trước. Nhưng mục đích phổ biến nhất là để cung cấp
một nguồn tài nguyên mới, không phụ thuộc trực tiếp vào lý thuyết ngôn ngữ cụ
thể, mà có thể thay đổi đối với các mô hình ngôn ngữ khác nhau. Gần đây, các kho
ngữ liệu văn bản có chú giải được xây dựng tự động từ Internet cho tiếng Anh và
các thứ tiếng khác [129], và đã được sử dụng trong việc nghiên cứu ngôn ngữ và
các mô hình học máy để nâng cao hiệu suất của các ứng dụng trong xử xử lý ngôn
ngữ [31, 67, 68], các kho ngữ liệu này thường có kích thước rất lớn. Để cộng đồng
thế giới dễ dàng sử dụng, chia sẻ, trao đổi và đối sánh ngôn ngữ thì đòi hỏi các nhà
nghiên cứu phải xây dựng các kho ngữ liệu theo những nguyên tắc, chuẩn mực nhất
định, kéo theo nhu cầu xây dựng các chuẩn quốc tế.
1.2.1 Thu thập kho ngữ liệu văn bản
Các kho ngữ liệu chính là nguồn cung cấp tri thức ngôn ngữ cho các ứng dụng
của xử lý ngôn ngữ tự nhiên như là hiểu tự động văn bản, tóm tắt văn bản, làm dữ
liệu huấn luyện cho các mô hình học máy… Qua việc nghiên cứu một số kho ngữ
liệu văn bản (kho ngữ liệu) lớn trên thế giới cho thấy nội dung của các kho ngữ liệu
chủ yếu là chứa văn bản đã được phân tích để gán thêm các nhãn ngôn ngữ như từ
loại, cụm từ, các thông tin về văn bản và các thẻ định dạng mã hoá dữ liệu v.v.
Các kho ngữ liệu truyền thống như BNC, ANC, PENN,… chủ yếu được thu thập
từ nhiều nguồn tạp chí, sách báo, báo điện tử, sách giáo khoa v.v., dung lượng của

Bước 2: Thu thập dữ liệu từ Web bằng cách sử dụng các từ hạt giống để tạo ra
truy vấn thông qua các cổng tìm kiếm như Yahoo và Google và tải các trang
kết quả về.

7

Bước 3: Làm sạch văn bản, loại bỏ các thông tin quảng cáo và các thông tin
nhiễu khác.
Bước 4: Loại bỏ các văn bản trùng lặp.
Bước 5: Chú giải ngôn ngữ và chuẩn hóa.
Các kho ngữ liệu có kích thước lớn có thể sử dụng trong một số ứng dụng
nghiên cứu ngôn ngữ [25, 26, 69] hoặc nâng cao hiệu suất của các mô hình học máy
[31, 67, 68]. Trong các ứng dụng trên kho ngữ liệu truyền thống chưa đủ lớn để đáp
ứng được, đòi hỏi phải xây dựng được các kho ngữ liệu có kích thước càng lớn càng
tốt (có thể thô hoặc chú giải ngôn ngữ), công việc này được thực hiện dễ dàng hơn
thông qua Internet.
1.2.2 Chú giải ngôn ngữ và vấn đề chuẩn hóa
1.2.2.1.

Chú giải ngôn ngữ

Quá trình phân tích và chú giải một câu trong kho ngữ liệu gồm ba bước: Tách
từ, gán nhãn từ loại và phân tích cú pháp. Quy trình thực hiện phân tích và chú giải
cho mỗi ngôn ngữ là tương tự nhau, tuy nhiên ở mỗi bước (tầng) mỗi ngôn ngữ yêu
cầu những kiến thức và có những đặc trưng riêng. Chẳng hạn ranh giới giữa các từ
trong mỗi ngôn ngữ là khác nhau, hoặc tập nhãn từ loại, nhãn chức năng cũng khác
nhau trong mỗi ngôn ngữ, tuy nhiên chúng có thể ánh xạ sang nhau. Bài toán tách từ
và gán nhãn từ loại trên thế giới hiện nay đã có quá trình nghiên cứu lâu dài, chẳng
hạn như với nghiên cứu của Foo & Lin [51] cho thấy quá trình phát triển của bài

giới hiện nay đều đặt tiêu chí chuẩn hoá lên đầu [18, 58, 59, 60, 90, 91].
Để cung cấp một cơ sở hạ tầng cho việc phát triển và sử dụng nguồn ngôn ngữ,
tổ chức quốc tế về chuẩn hóa đã thành lập tiểu ban SC 4 thuộc Ủy ban kỹ thuật 37
(TC 37) dành cho việc quản lý tài nguyên ngôn ngữ. Mục tiêu mà ISO/TC 37/SC 4
nhắm tới là chuẩn bị các tiêu chuẩn và các tài liệu hướng dẫn quản lý hiệu quả
nguồn tài nguyên ngôn ngữ trong các ứng dụng của xã hội thông tin đa ngôn ngữ.
Nhằm đạt được mục tiêu này, ủy ban kỹ thuật đã phát triển các nguyên tắc và
phương pháp để thiết lập, mã hóa, xử lý và quản lý nguồn tài nguyên ngôn ngữ như
là kho ngữ liệu văn bản, kho ngữ liệu từ vựng, từ điển,...Trong đó, vấn đề chuẩn hoá
mô hình chú giải là vấn đề quan trọng, nhằm mở rộng đến mức tối đa phạm vi sử
dụng và khai thác tài nguyên đặc biệt là trên máy tính, đây chính là vấn đề đang
được quan tâm bởi tiểu ban kĩ thuật TC 37/SC 4 [114]. Một số mô hình chú giải
được phát triển bởi tiểu ban ISO/TC 37/SC 4 như mô hình chú giải hình thái cú
pháp (MAF - Morphosyntactic Annotation Framework), mô hình chú giải cú pháp

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt ( Luận án tiến sĩ) - Pdf 48

Tài liệu, ebook tham khảo khác

Học thêm