NGHIÊN cứu xây DỰNG từ điển CHO hệ THỐNG DỊCH tự ĐỘNG UNL – TIẾNG VIỆT - Pdf 18

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010

208
NGHIÊN CỨU XÂY DỰNG TỪ ĐIỂN
CHO HỆ THỐNG DỊCH TỰ ĐỘNG UNL – TIẾNG VIỆT
A CASE STUDY ON THE BUILDING OF A DICTIONARY FOR MACHINE
TRANSLATION USING UNL - VIETNAMESE

Nguyễn Hữu Siêu
Trường THPT chuyên
Lê Quý Đôn – Đà Nẵng
Lâm Tùng Giang
Trung tâm Tin học –
Văn phòng UBND
Thành phố Đà Nẵng
Võ Trung Hùng
Trường Đại học Bách khoa,
Đại học Đà Nẵng TÓM TẮT
Trong bài báo này chúng tôi giới thiệu những thông tin tổng quát về hệ thống UNL và
đề xuất giải pháp xây dựng từ điển UNL – tiếng Việt phục vụ cho hệ thống dịch đa ngữ UNL.
UNL (Universal Networking Language) là ngôn ngữ máy tính nhằm mục đích xử lý thông tin và
tri thức mà không bị cản trở bởi rào cản ngôn ngữ. Đây là ngôn ngữ nhân tạo cho phép đặc tả
ngôn ngữ tự nhiên theo cách truyền thông của con người. Mục đích cu
ối cùng là cho phép con
người diễn đạt ngôn ngữ tự nhiên thông qua ngôn ngữ này. Nó cũng cho phép các máy tính
liên lạc được với nhau nhờ các tính năng gửi, nhận và hiểu được thông tin đa ngữ. Chúng tôi
sẽ tập trung trình bày những nghiên cứu về cấu trúc từ điển UNL, từ điển UNL- Tiếng Pháp, từ
điển Anh - Việt và trên cơ sở đó đề xuất giải pháp xây dựng từ điển UNL – tiếng Việt.

nội dung bất kỳ nào trên máy tính dưới dạng ngôn ngữ. UNL có ý nghĩa quan trọng
trong việc đơn giản hóa việc phát triển các hệ thống dịch tự động. Ví dụ cho trường hợp
tiếng Việt, thay vì phải phát triển các hệ thống dịch tự động cho các cặp tiếng Việt –
Nga, Việt – Anh, Việt – Pháp,… ta chỉ cần phát triển một cặp Việt – UNL để có thể
dịch sang tất cả các ngôn ngữ khác đã được hỗ trợ bởi UNL (Nga, Anh, Pháp,…).
Trong bài báo này, chúng tôi sẽ giới thiệu kiến trúc hệ thống và cấu trúc từ điển của
UNL, sau đó đề xuất giải pháp tự động xây dựng từ điển UNL – tiếng Việt dựa trên từ
điển UNL – Pháp và từ điển Anh – Việt theo Dict Format (tiêu chuẩn định dạng từ điển
đề xuất bởi DICT Development Group và được sử dụng rộng rãi cho các từ điển mã
nguồn mở).
2. Giới thiệu về hệ thống UNL
UNL là ngôn ngữ nhân tạo nhằm mục đích mô tả ý nghĩa của các câu thông qua
khái niệm lược đồ của mạng ngữ nghĩa. Nó cho phép biểu diễn tất cả các câu viết trong
các ngôn ngữ tự nhiên theo cùng cách thức thông qua việc sử dụng một đồ thị ngữ nghĩa
đơn. Khi một đồ thị kiểu này được xây dựng, nó có thể được chuyển đến bất kỳ một
ngôn ngữ nào khác. Hệ thống UNL cho phép viết lại một câu trong bất kỳ ngôn ngữ nào
trên Internet đến định dạng của UNL trước khi dịch nó sang một một ngôn ngữ khác.
Nó là cơ sở để xử lý ngữ nghĩa của ngôn ngữ tự nhiên bằng máy tính và ý nghĩa của nó
không chỉ phục vụ việc dịch tự động mà còn hỗ trợ nhiều hoạt động xử lý ngôn ngữ
khác từ những ứng dụng e-learning cho đến quản trị những tài liệu đa ngữ.
UNL là một ngôn ngữ độc lập, nó cung cấp những nền tảng và công cụ để làm
việc ở mức độ ngữ nghĩa, nó cho phép sử dụng lược đồ của cấu trúc mạng ngữ nghĩa
tương đương, trong đó các nút là các từ và các cung là quan hệ ngữ nghĩa giữa các từ
này. Nó là một ngôn ngữ trung gian dành cho dịch tự động [8].
Ví dụ, câu “John, who is the chairman of the company, has arranged a meeting at
his residence” sẽ được viết trong ngôn ngữ UNL như sau:
[S]
mod(chairman(icl>post).@present.@def,company(icl>institution).@def)
aoj(chairman(icl>post).@present.@def, John(icl>person))
agt(arrange(icl>do).@entry.@present.@complete.@pred,John(icl>person))

buộc:
<UW> ::= <headword> [<constraint list>]
<headword> ::= <character>…
<constraint list> ::= “(“ <constraint> [ “,” <constraint>]… “)”
<constraint> ::= <relation label> { “>” | “<” } <UW> [<constraint list>] |
<relation label> { “>” | “<” } <UW> [<constraint list>]
[ { “>” | “<” } <UW> [<constraint list>] ] …
<relation label> ::= “agt” | and” | “aoj” | “obj” | “icl” |
<character> ::= “A” | | “Z” | “a” | | “z” | 0 | 1 | 2 | | 9 | “_”
| ” “ | “#” | “!” | “$” | “%” | “=” | “^” |
“~” | “|” | “@” | “+” | “-“ | “<” | “>” | “?”
Trong đó, headword (từ mục) là một từ đơn/từ ghép/câu/cụm từ tiếng Anh mà
nó được xem như là nhãn của một tập các khái niệm, là tập được tạo nên các khái niệm
tương tự với nhau trong tiếng Anh. Từ vựng mở rộng chỉ các khái niệm mới mà nó
không có trong tiếng Anh. Vì thế từ mục giúp tổ chức các khái niệm một cách có hệ
thống và dễ nhớ hơn.
Các constraint (ràng buộc) là sự giải nghĩa của từ vựng thành các tập con hoặc
là các khái niệm đặc biệt chứa trong từ vựng cơ bản tạo thành “từ vựng ràng buộc”. Ví
dụ : từ vựng cơ bản “drink” không có ràng buộc bao gồm các khái niệm “cho chất lỏng
vào miệng”, “chất lỏng được cho vào miệng”, “chất lỏng với cồn”, “hút”,… Từ vựng
ràng buộc “drink (agt>thing, obj>liquid)” chỉ tập con của các khái niệm “cho chất
lỏng vào miệng” và nó phù hợp với động từ “uống (drink)”, “nuốt (gulp)”, “slurp”,
“chug” trong tiếng Anh.
Ràng buộc của từ vựng được tạo nên bởi cặp các quan hệ và từ vựng được định
nghĩa (còn gọi là thành phần biểu diễn của từ vựng). Nếu có nhiều ràng buộc thì các
ràng buộc phân cách nhau bởi dấu phẩy. Một từ vựng ràng buộc được định nghĩa thông
qua Master Definition. Trong Master Definition, nghĩa đầy đủ của từ vựng được định
nghĩa phải được miêu tả trong ràng buộc.
Các relation label (nhãn quan hệ) sử dụng trong danh sách ràng buộc phải được
định nghĩa trong UNL specifition và nên được sắp xếp theo thứ tự ABC nếu có nhiều

nhiều bộ từ điển thông dụng đã được cộng đồng phát triển. Trong các nghiên cứu của
mình, chúng tôi sử dụng bộ từ điển Anh – Việt của tác giả Hồ Ngọc Đức
( để trích phần nội dung tiếng Việt. Về
chuẩn chính tả tiếng Việt, tác giả vẫn tuân theo chuẩn chính tả như trong từ điển Hoàng
Phê. Về mã tiếng Việt, tác giả sử dụng bộ mã Unicode.
Định dạng Dict được mô tả như sau: toàn bộ cơ sở dữ liệu được chứa trong 2 tập
tin, một tập tin chứa nghĩa của từ và một tập tin index (chỉ mục). Tập tin index bao gồm
tên từ, vị trí nghĩa của từ bắt đầu trong tập tin chứa nghĩa và độ dài của nghĩa.
Cấu trúc tổng quát của file chứa nghĩa gồm các phần như sau:
@headword
* tu loai (noun, verb )
- dinh nghia 1
= cau vi du cho dinh nghia 1 + nghia cua cau do
- dinh nghia 2
= cau vi du cho dinh nghia 2 + nghia cua cau do
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010

213
* tu loai
- dinh nghia 3
Ví dụ cấu trúc mục từ “abalone” như sau:

Hình 5. Chi tiết mục từ “abalone” trong từ điển Anh – Việt
Chúng tôi sử dụng trường headword nằm sau ký tự @ để so sánh với
headword_tiếng Anh của mục từ tiếng Pháp trong từ điển UNL-FR.
6. Giải pháp đề xuất
Qua nghiên cứu cấu trúc từ điển UNL-FR và từ điển Anh-Việt theo chuẩn Dict,
chúng tôi đề xuất các bước xây dựng tự động dữ liệu từ vựng UNL - tiếng Việt như sau:
Bước 1 : Trích một mục từ tiếng Pháp trong từ điển UNL-FR
Bước 2 : Trích headword_tiếng Anh và các thuộc tính đi cùng như CATV,CATN,

=to assign reason to (for) something+ cho cái gì là có lý do; đưa ra lý do để
giải thích cái gì
- (pháp lý) nhượng lại
=to assign one's property to somebody+ nhượng lại tài sản cho ai
• Vì CATV tương ứng với động từ nên hệ thống tự động trích lấy nội dung các động
từ tiếng Việt tương ứng là: phân việc, phân công, ấn định, định, chia phần, cho là,
quy cho, nhượng lại.
• Kết quả các mục từ UNL – tiếng Việt do hệ thống tự động tạo ra:
[phân_việc]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
[phân_công]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
[ấn_định]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
[định]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
[chia_phần]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
[cho_là]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
[quy_cho]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
[nhượng_lại]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)}
"assign(icl>do,obj>human)";
Với các bước tiến hành như trên, chúng tôi đề nghị mô hình hệ thống tự động
xây dựng từ điển UNL – Việt như sau:

Hình 6. Mô hình hệ thống
(
2

thích bởi các nguyên nhân như sau:
- Hệ th
ống chưa xử lý hết cấu trúc chi tiết bên trong của mỗi mục từ trong từ điển
Anh – Việt. Ví dụ trong từ điển UNL-FR có headword là “hurry_up”, nhưng
trong từ điển Anh – Việt headword chỉ có “@hurry”, còn “hurry_up” là các chi
tiết bên trong của động từ “hurry”.
- Từ trong Anh – Việt chưa đầy đủ hoặc chưa khai thác hết các thuộc tính nằm
trong các CAT của UNL-FR.
8. Kết luận
Những kết quả đạt được mặc dù vẫn còn một số hạn chế nhưng đã đạt được một
số thành công nhất định. Kết quả lớn nhất mà chúng tôi đạt được là nghiên cứu có hệ
thống về UNL và tính khả thi của giải pháp xây dựng từ điển tự động cho UNL – tiếng
Việt dựa vào những nguồn dữ liệu đã có. Đây chính là tiền đề quan trọng cho việc
nghiên cứu xây dựng các môđun tiếp theo trong quá trình ứng dụng UNL cho dịch tự
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010

216
động tiếng Việt. Do UNL hiện nay chưa được phổ biến ở Việt Nam nhưng chúng tôi
may mắn kế thừa những kết quả tốt nhất có được từ nguồn dữ liệu của UNL-FR và từ
điển Anh – Việt của tác giả Hồ Ngọc Đức. Chúng tôi chỉ tập trung xây dựng một hệ
thống minh họa về giải pháp của mình và tiến hành trên các từ loại phổ biến như động
từ (Verb), danh từ (Noun), tính từ (Adjective) và phó từ (Adverb). Kết quả đạt được
khoảng 247.763 mục từ UNL – tiếng Việt ở dạng thô, công việc hoàn thiện từ điển cần
có sự đầu tư và nghiên cứu nghiêm túc để thực hiện. Bên cạnh đó, dữ liệu từ điển rất
lớn, nên vấn đề xây dựng từ điển là lựa chọn số một và khâu chỉnh sửa sai sót vẫn còn
đặt ra nhiều vấn đề cần được tiếp tục giải quyết.
Trên cơ sở nghiên cứu một cách đầy đủ và có hệ thống về UNL, cũng như giải
pháp xây dựng hệ thống tự động tạo từ điển UNL - tiếng Việt sẽ tạo tiền đề cho việc
nhanh chóng xây dựng thành công hệ thống dịch tự động đa ngữ cho tiếng Việt trong
tương lai.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status