Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt (TT) - Pdf 31

1
PHẦN MỞ ĐẦU
Những năm gần đây, xử lí ngôn ngữ tự nhiên đã trở thành một lĩnh
vực khoa học công nghệ được coi là mũi nhọn, với một loạt ứng
dụng liên quan đến Internet và Web, như tìm kiếm và trích chọn
thông tin trên Web, khai phá văn bản, v.v. Vấn đề phân tích và hiểu
tự động văn bản là một vấn đề lớn và phức tạp trong việc hiểu ngôn
ngữ tự nhiên, được tích hợp trong hầu hết các ứng dụng xử lí văn bản
tự động. Quá trình này thường được chia thành các mức cơ bản: mức
ngữ âm; mức hình thái; mức cú pháp; mức ngữ nghĩa, mức ngữ dụng
và mức diễn ngôn. Để giải quyết các vấn đề trên, nhiều kho ngữ liệu
lớn đã được ra đời phục vụ cho việc huấn luyện các mô hình xử lý
ngôn ngữ. Hiện nay khi dữ liệu trên Internet rất nhiều thì các mô
hình thống kê dựa trên dữ liệu đã cho thấy tính vượt trội so với cách
tiếp cận dựa trên luật. Hiện tại, các kho ngữ liệu lớn phục vụ cho
tiếng Việt còn hiếm. Vì vậy việc xây dựng, chuẩn hóa và khai thác
kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt là rất cần thiết.
Mục tiêu. Xây dựng, chuẩn hóa và khai thác kho ngữ liệu tiếng Việt:
- Xây dựng kho ngữ liệu thô có kích thước lớn (hàng GB) từ
Internet.
- Xây dựng chuẩn hóa mô hình chú giải tiếng Việt.
- Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng.
- Khai thác kho ngữ liệu đã chú giải cú pháp phục vụ bài toán
phân tích cú pháp tiếng Việt.
Phạm vi nghiên cứu của luận án. Để đạt được mục đích trên, phạm
vi nghiên cứu của luận án tập trung vào mức hình thái và mức cú
pháp, cụ thể là:
- Nghiên cứu về phương pháp và thuật toán xây dựng kho ngữ
liệu thô tiếng Việt từ Internet.
- Nghiên cứu xây dựng và triển khai một số chuẩn hóa mô hình
chú giải được phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4

khoa, Ineternet thông qua các trang web.
1.2 Xây dựng kho ngữ liệu văn bản
Qua khảo sát một số kho ngữ liệu lớn có chú giải trên thế giới cho
thấy việc xây dựng các kho ngữ liệu được thực hiện thông qua hai
phương pháp chính:

3
Thứ nhất: Thủ công hoặc bán thủ công, thực hiện qua hai bước
chính: Bước 1.Thu thập kho văn bản thô: Nguồn gốc thu thập dữ liệu
từ tạp chí, sách báo, báo điển tử, sách giáo khoa... Bước 2. Chú giải
ngôn ngữ: Công việc này có thể thực hiện thủ công hoặc sử dụng các
công cụ đã tồn tại.
Thứ hai. Xây dựng tự động từ Internet, thực hiện qua 5 bước
chính: Bước 1.Lựa chọn một danh sách các từ hạt giống có tần suất
xuất hiện trung bình. Bước 2.Thu thập dữ liệu từ Web bằng cách sử
dụng các từ hạt giống để tạo ra truy vấn thông qua các cổng tìm
kiếm như Yahoo và Google và tải các trang kết quả về. Bước 3.Làm
sạch văn bản, loại bỏ các thông tin quảng cáo và các thông tin nhiễu
khác. Bước 4.Loại bỏ các văn bản trùng lặp. Bước 5.Chú giải ngôn
ngữ và chuẩn hóa.
1.3 Chuẩn hoá kho ngữ liệu
Vấn đề chuẩn hoá mô hình chú giải kho ngữ liệu là vấn đề quan
trọng, nhằm mở rộng đến mức tối đa phạm vi sử dụng và khai thác
tài nguyên đặc biệt là trên máy tính, đây chính là vấn đề đang được
quan tâm bởi tiểu ban kĩ thuật ISO/TC 37/SC 4. Một số mô hình chú
giải kho ngữ liệu được phát triển bởi tiểu ban kĩ thuật ISO/TC 37/SC
4 như như mô hình chú giải hình thái cú pháp (MAF Morphosyntactic Annotation Framework), mô hình chú giải cú pháp
(SynAF - Syntactic Annotation Framework), mô hình chú giải ngôn
ngữ (LAF - Linguistic Annotation Framework), mô hình chú giải ngữ

Khai thác kho ngữ liệu: Trong luận án tác giả đi sâu vào khai thác
kho ngữ liệu cho nghiên cứu từ vựng và phân tích cú pháp tiếng Việt:
- Luận án lựa chọn nghiên cứu hệ thống truy vấn kho ngữ liệu
Sketch Engine phục vụ cho việc nghiên cứu từ vựng, bởi hai lý do;
Thứ nhất: Skech Engine - Hệ thống truy vấn kho ngữ liệu cho phép
người sử dụng xem xét ngữ cảnh theo quan hệ ngữ pháp và cung cấp
thống kê về tần suất xuất hiện các từ theo mỗi quan hệ ngữ pháp, tra
cứu các từ đồng và phản nghĩa, so sánh thông tin của hai từ tương tự
nha v.v. Hệ thống đã được sử dụng cho nhiều ngôn ngữ khác nhau
nhưng chưa được sử dụng cho tiếng Việt. Thứ 2: Đối với tiếng Việt,
các nhà làm từ điển hiện nay thường mới chỉ có công cụ để tra cứu
ngữ cảnh của một từ trong kho ngữ liệu, chưa có các thống kê tự
động để so sánh, chọn lọc các ngữ cảnh. Việc sử dụng một bộ công

5
cụ như hệ thống Sketch Engine sẽ là rất hữu ích, giúp cải thiện quy
mô và chất lượng từ điển
- Mọi bộ phân tích cú pháp đều cần một bộ luật cú pháp, hay còn
gọi là văn phạm, được biểu diễn bởi một hệ văn phạm hình thức cụ
thể nào đó. Đối với tiếng Việt, với dự án KC01.01/06-10 đã tồn tại
một số kho ngữ liệu tiếng Việt như ngân hàng câu chú giải cú pháp
(VietTreeBank), từ điển điện tử…Trong luận án đã đi sâu vào nghiên
cứu và xây dựng thuật toán trích rút tự động văn phạm phi ngữ cảnh
(CFG) và văn phạm kết nối cây (TAG) từ VietTreebank và từ điển
cho tiếng Việt bởi lý do sau: Thứ nhất, từ điển và VietTreebank có
một cơ sở ngôn ngữ học vững chắc, nó bao gồm lý thuyết văn phạm
cảm sinh được khởi xướng bởi Chomsky và lý thuyết ngữ pháp chức
năng. Đây là những lý thuyết có ảnh hưởng lớn trong cả nghiên cứu
ngôn ngữ học lẫn ngôn ngữ học tính toán. Trong tiếng Việt, sự ảnh

Phương pháp thu thập kho ngữ liệu sử dụng ở đây được dựa trên
phương pháp của Aidan Finn và A.Kilgarriff, nhưng thuật toán thu
thập kho ngữ liệu chi tiết từng bước đã được lựa chọn và phát triển
để phù hợp phù hợp với tiếng Việt. Về cơ bản, quá trình thu thập kho
ngữ liệu từ Internet được phát triển trong 5 bước đã giới thiệu ở mục
1.5.
2.2.1 Lựa chọn danh sách từ hạt giống
Từ hạt giống đóng vai trò là từ khóa tìm kiếm trong việc thu thập
kho ngữ liệu văn bản của mỗi ngôn ngữ. Đây phải là các từ đặc trưng
cho mỗi ngôn ngữ, tức là phải có tần suất xuất hiện đáng kể và có
tính phân biệt so với các từ trong ngôn ngữ khác. Đối với tiếng Việt,
danh sách từ hạt giống được thu thập từ việc phân đoạn từ của các
câu trong các trang Wiki tiếng Việt. Thuật toán phân đoạn từ đơn
giản được sử dụng là duyệt theo từng câu từ trái sang phải, chọn ranh
giới từ sao cho từ thu được có nhiều âm tiết nhất có thể so sánh với
danh sách từ đúng là từ tiếng Việt (word list). Cách lựa chọn này rõ
ràng không phải bao giờ cũng chính xác, nhưng sai số là chấp nhận
được cho mục đích lập danh sách tần suất từ; Sau đó lựa chọn từ hạt
giống từ danh sách tần suất; tiêu chí chọn từ hạt giống của mỗi ngôn
ngữ là khác nhau, đối với tiếng Việt tiêu chí được chọn là từ hạt
giống phải có ít nhất 1 kí tự Unicode không thuộc phạm vi ASCII,
các từ khác sẽ không được xét, các chữ số hoặc các mục không phải
kí tự cũng sẽ bị loại trừ. Danh sách từ hạt giống, được sắp xếp theo
chiều giảm dần của tần suất, trong đó 1000 từ có tần suất cao nhất

7
được bỏ qua vì chúng thường được coi là các từ dừng (stop word)
đối với các máy tìm kiếm, 5000 từ tiếp theo trong danh sách tần suất
thuộc nhóm từ có tần suất trung bình được sử dụng làm từ hạt giống.

8
HTML) và -1 (dấu hiệu văn bản);Tokens[] là mảng gồm các phần tử
là các dấu hiệu văn bản/thẻ tương ứng với các phần tử trong
binary_tokens[]; Gộp các phần tử liền nhau có giá trị giống nhau
trong mảng binary_tokens[] lại làm thành một phần tử lưu vào mảng
encode[];
Bước 2: Xác định vị trí hai điểm i, j từ mảng binary.tokens[]vừa
thu được ở bước 1 sao cho số phần tử -1 (tương ứng với dấu hiệu văn
bản) giữa [i,j] là lớn nhất và số phần tử 1 (tương ứng với thẻ) ngoài
khoảng [i,j] là lớn nhất. Tiến hành bóc tách dữ liệu trong đoạn [i,j] và
loại bỏ các thẻ HTML.
Chỉ thu thập nội dung văn bản các trang web có đủ độ lớn và đã
kiểm tra tính kết nối.Các trang web thu về sẽ được kiểm tra xem có
độ lớn thỏa mãn (>5KB và
dựng công cụ tự động thu thập kho ngữ liệu từ Internet có tên là
Vncopus; Thử nghiệm và đánh giá thuật toán cải tiến.
3. CHƯƠNG 3.CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG
VIỆT
3.1 Mô hình MAF của ISO/TC 37/SC 4
Phần này trình bày mô hình chú giải hình thái cú pháp MAF
được phát triển bởi ISO/TC 37/SC 4.
3.2 Mô hình SynAF của ISO/TC 37/SC 4

Phần này trình bày mô hình chú giải hình thái cú pháp SynAF
được phát triển bởi ISO/TC 37/SC 4.
3.3 Chuẩn hóa mô hình chú giải tiếng Việt
3.3.1 Chuẩn hóa theo mô hình MAF
Thông tin hình thái cú pháp tiếng Việt chủ yếu dựa vào hình thái
từ, phân loại từ, phân loại cụm, cú pháp (ví dụ từ loại của từ có thể là
danh từ, động từ, tính từ…) mà không phụ thuôc vào giống, số, cách

1

http://search.cpan.org/~janpom/Text-DeDuper 1.01/lib/Text/DeDuper.pm#NAME

10
…như đối với các thứ tiếng khác. Do đó chúng ta có thể lựa chọn
chú giải nhúng cho tiếng Việt để đơn giản và tiện dụng. Ngoài ra,
việc phân chia tài liệu ra thành các từ riêng biệt (word Form), trong
tiếng Việt có đặc điểm khác với tiếng Anh và một số tiếng khác là
không thể dựa vào khoảng trắng (từ ghép), phải xây dựng phần mềm
tách từ riêng dựa vào đặc trưng của tiếng Việt để tách tài liệu ra
thành các thành phần, mỗi thành phần tương ứng với 1 từ tiếng việt.

tế SynAF. Mô hình VnSynAF là một lược đồ mã hóa dựa trên định
dạng XML có thể sử dụng trong việc định dạng và mã hoá treebank
cho tiếng Việt. Về cấu trúc chung của mô hình này trong luận án sử
dụng tương tự như trong SynAF:
- Mỗi nút T Node biểu diễn một từ vựng tiếng Việt tương ứng
trong một wordform.
- Nút NT dùng để biểu diễn các thành phần không kết thúc như
từ loại, cụm từ, nhãn quy ước cho các dấu. Sử dụng các hạng
mục nhãn hình thái (từ loại), nhãn cú pháp thành phần, nhãn
phân loại câu để gán nhãn cho các nút NT.
- Các cung (edge) dùng để liên kết giữa các nút, biểu diễn chức
năng của một thành phần cú pháp, cho biết vai trò của nó trong
thành phần cú pháp mức cao hơn, nhờ đó giúp chúng ta biết
được quan hệ ngữ pháp giữa các nút, như là chủ ngữ, vị ngữ,
tân ngữ. Sử dụng hạng mục nhãn chức năng cú pháp để gán
nhãn cho các cung.
Trong phần này tác giả xây dựng bảng danh sách các hạng mục dữ
liệu, nhãn từ loại, nhãn cú pháp thành phần, nhãn phân loại câu, nhãn
chức năng cú pháp cho tiếng Việt tham chiếu tới DCR (ISO 12620)
dựa trên tài liệu “Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn”
3.4 Kết luận
Xây dựng và triển khai các mô hình chú giải kho ngữ liệu tiếng
Việt ở mức hình thái-cú pháp (MAF) và mức phân tích cú pháp cho
tiếng Việt có tên là VnSynAF tương thích với mô hình MAF và
SynAF được phát triển bởi ISO/TC 37/SC 4.
4. CHƯƠNG 4. KHAI THÁC KHO NGỮ LIỆU THÔ CHO
NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT
4.1 Giới thiệu
Chương này trình bày việc khai thác kho ngữ liệu thô tiếng Việt có
khối lượng lớn đã được tách từ và gán nhãn từ loại cho hệ thống truy

nghĩa và Sketch Difference. Cho phép so sánh thông tin của hai từ
tương tự nhau.
Hiện thời, Skech Engine đã trở thành một hệ thống truy vấn kho
ngữ liệu đã được thử nghiệm trên nhiều ngôn ngữ khác nhau (Anh,
Séc, Nhật, Trung, Nga, Xlôven...) và được đánh giá là có hiệu quả tốt
trong việc xây dựng từ điển, việc nghiên cứu và thực hành ngôn ngữ.

13

4.1.3 Ngữ liệu trong Sketch Engine
Sketch Engine đòi hỏi phải xây dựng được ngữ liệu của mỗi ngôn
ngữ cụ thể cho hệ thống, đó là bộ quan hệ ngữ pháp cơ bản của mỗi
ngôn ngữ được biểu diễn thông qua ngôn ngữ truy vấn kho ngữ liệu
bên cạnh kho ngữ liệu lớn của các văn bản đã được chú giải ít nhất ở
mức từ loại. Để xác định quan hệ ngữ pháp giữa các từ, Sketch
Engine cần biết làm thế nào tìm được các từ kết nối với nhau theo
một quan hệ ngữ pháp trong ngôn ngữ đang xét.
4.2 Xây dựng ngữ liệu tiếng Việt cho hệ thống Sketch Engine
Để sử dụng được cho nghiên cứu từ vựng tiếng Việt, Sketch
Engine đòi hỏi phải xây dựng được: Kho ngữ liệu tiếng Việt có kích
thước lớn được tách từ và gán nhãn từ loại. Bộ quan hệ ngữ pháp cơ
bản tiếng Việt được biểu diễn thông qua ngôn ngữ truy vấn kho ngữ
liệu.
4.2.1 Tách từ và gán nhãn từ loại
Đối với tiếng Việt, để thu được kho ngữ liệu chú giải mức từ loại
và hướng tới chuẩn mã hóa XML, trong luận án đã sử dụng phần
mềm gán nhãn từ loại tiếng Việt có tên là vnTagger 2 của nhóm tác
giả Lê Hồng Phương.
4.2.2 Xây dựng bộ quan hệ ngữ pháp cho tiếng Việt

ngữ pháp xuất hiện xung quanh hai tính từ có nghĩa gần tương tự
nhau ”đẹp” và ”xinh”, trong đó mỗi danh sách thống kê tần suất và
tính trội của các từ lân cận với 2 từ này trong mỗi quan hệ ngữ pháp
(tương ứng tần suất là cột thứ 2,3; tính trội là cột thứ 4,5). Ngoài ra
trong bảng còn có một số danh sách quan hệ ngữ pháp chỉ xuất hiện
xung quanh duy nhất một từ (”đẹp” only patterns) hoặc (”xinh” only
patterns), trong đó mỗi danh sách liệt kê các từ cùng tần xuất và tính
trội xuất hiện xung quanh chỉ tính từ ”đẹp” hoặc chỉ tính từ ”xinh”.
Các thông tin này có thể giúp người nghiên cứu từ vựng, xây dựng từ
đưa ra được sự giống nhau, khác nhau khi sử dụng 2 từ này; Hình
4.3, minh họa cho việc khai thác kho ngữ liệu và bộ quan hệ ngữ
pháp- cho phép liệt kê một số danh sách quan hệ ngữ pháp xuất hiện
xung quanh từ khóa (ví dụ tính từ “đẹp”). Trong đó, mỗi danh sách
liệt kê các từ và cùng tần suất và tính trội của các từ trong cùng mối
quan hệ ngữ pháp với từ khóa. Sau đây là liệt kê mộ số danh sách:
Danh sách N_front_modifier_A: Danh sách các danh từ ở phía trước
mà tính từ “đẹp” bổ nghĩa; Danh sách A_after_modifies_A: Danh
sách các tính từ phía sau bổ nghĩa cho tính từ “đẹp”; Danh sách
R_front_modifies_A: Danh sách các phụ từ phía trước bổ nghĩa cho

15
tính từ “đẹp”; Danh sách predicate_of: Danh sách các từ mà tính từ
"đẹp" làm vị ngữ.

Hình 4. 1 Danh sách tần suất và tính trội của các từ lân cận với tính
từ “đẹp”

Hình 4. 2 Phác thảo thông tin của 2 từ ”đẹp”, ”xinh”

rút tự động văn phạm CFG, LTAG từ VietTreebank và từ điển điện
tử phục vụ cho phân tích cú pháp tiếng Việt, cài đặt thử nghiệm và
đánh giá.
5.2

Văn phạm hình thức

Phần này trình bày định nghĩa văn phạm hình thức; Phân loại văn
phạm của Chomsky; Văn phạm phi ngữ cảnh (CFG) và văn phạm kết
nối cây (LTAG) trong xử lý ngôn ngữ tự nhiên.
5.3 Trích rút tự động văn phạm CFG cho tiếng Việt
5.3.1 Thuật toán trích rút từ VietTreebank
Phương pháp trính rút văn phạm phi ngữ cảnh kết hợp xác suất từ
VietTreebank sử dụng được tương tự như phương pháp của Roberto
Valenti và D.Jurafsky and Martin, về cơ bản quá trình trích rút được
thực hiện qua 3 bước chính: Trích rút các luật cho văn phạm CFG từ
Treebnk; Chuyển CFG thành phi ngữ cảnh kết hợp xác suất (PCFG);
Chuyển PCFG thu được thành văn phạm PCFG theo chuẩn
Chomsky. Tuy nhiên trong Bước 1 có một thay đổi về cài đặt: Sử
dụng Stack sẽ để lưu trữ tạm thời các luật trích rút từ mỗi cây phân
tích, độ phức tạp là O(n+m). Nếu đỉnh của Stack là 1 luật đầy đủ thì
lấy luật ra khỏi stack, nếu là luật đơn sinh ra từ kết thúc thì lấy ra
khỏi stack và tự động hủy luôn, ngược lại nếu không phải luật đơn
thì luật thu được đưa vào một mảng lưu trữ. Nếu luật không đầy đủ
thì tiếp tục bổ sung thêm vế phải. Xử lý bằng Stack dễ hiểu và đơn
giản hơn sử dụng đệ quy theo cách tiếp cận của Roberto Valenti và
D.Jurafsky and Martin.
5.3.2 Phân tích cú pháp tiếng Việt với văn phạm PCFG
Dựa theo phương pháp của Martin phần mềm phân tích cú pháp
cho tiếng Việt được phát triển thông qua 2 giai đoạn: Giai đoạn 1.

(KB)
nk)
CNF
Recall

Precision

F1

129

0.01858

1274

0.6871

0.64117

F2

137

0.01973

1325

0.6593

0.68266

3007

0.7694

0.76071

F6

800

0.11523

5271

0.7808

0.79865

F7

867

0.12488

6409

0.7536

0.65968

27577

0.8175

0.71505

19
Kết quả chạy chương trình cho thấy, trong VietTreebak vẫn còn
một số câu mắc lỗi định dạng. Số lượng luật CNF và độ chính xác
của bộ PTCP tăng dần theo kích thước của VietTreebank chứng tỏ
VietTreebank vẫn chưa đủ độ lớn. Điều này cho thấy VietTreebank
cần được mở rộng thêm.
5.4 Trích rút tự động văn phạm LTAG cho tiếng Việt
Phần này trình bày thuật toán rút trích tự động văn phạm LTAG từ
Treebank, đồng thời cũng trình bày kết quả chạy chương trình trích
rút tự động một văn phạm LTAG cho tiếng Việt từ VietTreebank và
từ điển điện tử tiếng Việt
5.4.1 Thuật toán trích rút từ VietTreebank
Về cơ bản, quá trình trích rút tự động văn phạm LTAG từ treebank
gồm ba bước. Thứ nhất, chuyển các cây cú pháp của treebank thành
các cây phân tích của hệ hình thức LTAG. Thứ hai, phân rã các cây
phân tích thu được ở bước một thành các cây cơ bản tương ứng với
ba mẫu cây được xác định trước. Cuối cùng là sử dụng tri thức ngôn
ngữ để lọc bỏ các cây cơ bản không hip lệ. Cách tiếp cận trích rút
văn phạm LTAG mà trình bày ở đây tương đối giống với phương
pháp trích rút văn phạm được đề xuất bởi Xia. Tuy nhiên, có một số
điểm khác nhau về phương pháp thiết kế và cài đặt thuật toán giữa
hai cách tiếp cận:

Hình 5.12 trục x biểu diễn phần trăm kho văn bản được sử dụng để
trích rút văn phạm, trục y biểu diễn số lượng mẫu cây tổng thể( Δ ),
mẫu cây khởi tạo (о) và mẫu cây phụ trợ ( ) thu được

5.4.2 Xây dựng cây cơ bản LTAG từ từ điển tiếng Việt
Quan sát về cấu trúc từ điển tiếng Việt cho thấy, hiện tại, cú pháp
mỗi mục từ trong từ điển ở một trong hai dạng: Nếu là các từ không
phải là động từ thì chỉ tồn tại thông tin hạng mục từ loại và tiểu từ
loại của từ đó (danh từ, tính từ..);

21
Dựa vào đặc điểm của từ điển chúng ta có thể xây dựng các cây cơ
sở (cây khởi tạo) cho văn phạm LTAG tiếng Việt thông qua thông tin
hình thái, cú pháp của mỗi mục từ (một từ vựng có thể có nhiều mục
từ, mỗi mục từ tương ứng với một nghĩa, từ loại riêng).
Phần tiếp theo sẽ trình bày thuật toán trích rút cây cơ sở (ứng với
quan hệ vị từ-đối) của LTAG từ từ điển tiếng Việt.
Thuật toán trích rút cây cơ sở: Dựa vào thông tin của mỗi mục từ
Entry, kiểm tra xem trong thẻ cú pháp (<Syntactic>) có tồn tại thành
phần vị từ-đối (Subcategorization Frame) không? Nếu tồn tại thì xây
dựng 3 dạng cây cơ sở: 1.cây cơ sở là cụm từ cùng với từ loại, từ
vựng (ví dụ: “(VP (V đi))”), 2. các cây cơ sở là cụm từ tương ứng
cùng từ loại, từ vựng và các đối phía sau của từ loại đó (Ví dụ: “(VP
(V đi) (+PP))”, 3. cây cơ sở là một câu đơn (cú pháp thành phần) (ví
dụ: “(S (+NP) (VP (V đi) (+PP)))”). Nếu không tồn tại thì chỉ xây
dựng cây là cụm từ cùng với từ loại và từ vựng (ví dụ: “(AP (A đế
quốc))” hoặc “(AP (Ap đế quốc))”)
5.4.3 So sánh, đánh giá tập cây khởi tạo trích rút từ

4

5

6

7

8

1469

6355

3701

1481

40.02%

23.30%

0.999

1469

6963

3701

khá chính xác. Bởi vậy sẽ tốt hơn cho bộ phân tích cú pháp nếu
chúng ta kết hợp văn phạm LTAG thu được từ từ điển và văn phạm
LTAG thu được của VietTreebank.

23
5.5 . Kết luận
Trong chương này luận án đã xây dựng thuật toán, hệ thống trích
rút tự động các luật văn phạm PCFG từ VietTreebank, đồng thời xây
dựng hệ thống phân tích cú pháp các câu tiếng Việt theo phương
pháp thống kê trên văn phạm PCFG, trong đó thuật toán phân tích cú
pháp đã được cải tiến từ thuật toán PCYK của D.Jurafsky and
Martin, hệ thống này có tên là VNNLP; Nghiên cứu về văn phạm
LTAG, thuật toán trích rút tự động các luật văn phạm LTAG. Thực
hiện trích rút tập cây cú pháp LTAG tiếng Việt. Triển khai và xây
dựng thuật toán trích rút cây cơ bản của LTAG từ từ điển tiếng Việt.
So sánh, đánh giá tập cây cơ bản trích rút từ VietTreebank, lọc ra các
cây cơ bản không hợp lệ với cấu trúc ngữ pháp tiếng Việt.
6. KẾT LUÂN
1.Các kết quả đã đạt được
Kết quả nghiên cứu của luận án có ý nghĩa về khoa học và thực tiễn
với các đóng góp mới như sau:
- Phát triển thuật toán thu thập văn bản tiếng Việt từ web để xây
dựng kho ngữ liệu. Xây dựng công cụ thu thập tự động kho
ngữ liệu từ Internet có tên là Vncopus, triển khai thu thập kho
ngữ liệu thô tiếng Việt từ Internet (100 triệu từ).
- Xây dựng mô hình chú giải mức hình thái-cú pháp (MAFMorphosyntactic Annotation Framework) và mô hình chú giải
mức cú pháp (SynAF-Syntactic Annotation Framework) cho
kho ngữ liệu tiếng Việt.
- Xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt (37 quan hệ

vấn đề phân tích cú pháp. Nghiên cứu và triển khai hệ thống
phân tích cú pháp trên văn phạm LTAG kết hợp xác suất.
- Nghiên cứu xây dựng và khai thác kho ngữ liệu ngôn ngữ ở
mức cao hơn đó là ngữ nghĩa.
- Ứng dụng các chuẩn quốc tế về chú giải ngữ liệu cho tiếng Việt
ở các mức hình thái-cú pháp, cú pháp, ngữ nghĩa, v.v.

1
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN
CỨU SINH LIÊN QUAN ĐẾN LUẬN ÁN
[1] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Lưu
Văn Tăng, Xây dựng sơ đồ mã hóa và công cụ trợ giúp gán nhãn
tiếng Việt, Proceedings of ICT.rda'08. Hanoi Aug. 8-9, 2008.
[2] Lê .H.Phương, Ng.T.M. Huyền, Nguyễn Phương Thái, Phan thị
Hà, Trích rút tự động văn phạm LTAG cho tiếng Việt, Tạp chí
Tin học và Điều khiển học, Tập 26 số 2, 2010.
[3] Phan Thị Hà, Nguyễn Thị Minh Huyền, Rút trích tự động văn
phạm CFG từ VietTreebank cho phân tích câu tiếng Việt, Tạp
chí Khoa học Công nghệ các trường đại học, Số 80, 2011.
[4] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Adam
Kilgarriff, Siva Reddy, Nghiên cứu từ vựng tiếng Việt với hệ
thống Sketch Engine, Tạp chí Tin học Và Điều khiển học, Tập 27
số 3, 2011.
[5] Phan Thị Hà, Trịnh thị Vân Anh, Một số vấn đề trong phân tích
tự động cú pháp tiếng Việt, Hội thảo Khoa học công nghệ, Học
viện CNBCVT, Hà nội. 16-9, 2011.
[6] Phan Thị Hà, Hà Hải Nam, Automatic main text extraction from
web pages, Tạp chí Khoa học và Công nghệ, Viện Khoa Học
Việt Nam, Tập 51, Số 1, 2013.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt (TT) - Pdf 31

Tài liệu, ebook tham khảo khác

Học thêm