Báo cáo nghiên cứu khoa học: " ĐÁNH GIÁ ẢNH HƯỞNG CỦA NHÀ MÁY THUỶ ĐIỆN A VƯƠNG ĐẾN CÁC CHẾ ĐỘ VẬN HÀNH CỦA HỆ THỐNG ĐIỆN VIỆT NAM" - Pdf 19

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009
1
NGHIÊN CỨU VÀ ỨNG DỤNG UNL CHO XỬ LÝ TIẾNG VIỆT
UNL STUDY AND APPLICATION
TO THE VIETNAMESE LANGUAGE PROCESSING

Võ Trung Hùng
Trường Đại học Bách khoa, Đại học Đà Nẵng

TÓM TẮT
Trong bài báo này chúng tôi giới thiệu những thông tin tổng quát về UNL và chỉ ra cách
thức làm thế nào để ứng dụng nó cho tiếng Việt. UNL được viết tắt từ Universal Networking
Language, nó là ngôn ngữ máy tính nhằm mục đích xử lý thông tin và tri thức mà không bị cản
trở bởi rào chắn ngôn ngữ. Đây là ngôn ngữ nhân tạo cho phép đặc tả ngôn ngữ tự nhiên theo
cách truyền thông của con người. Mục đích cuối cùng là cho phép con người diễn đạt ngôn ngữ
t
ự nhiên thông qua ngôn ngữ này. Nó cũng cho các phép máy tính liên lạc được với nhau nhờ
các tính năng gửi, nhận và hiểu được thông tin đa ngữ. Chúng tôi đề xuất hai mô hình để ứng
dụng UNL cho tiếng Việt. Mô hình thứ nhất, chúng ta sẽ chuyển đổi các văn bản tiếng Việt sang
dạng dữ liệu UNL và sau đó sử dụng các bộ dịch ngược của UNL để dịch đến các ngôn ngữ
khác. Trong mô hình thứ hai, chúng ta sẽ phát triển các mô-đun cầ
n thiết để tích hợp tiếng Việt
vào UNL nhằm tạo ra một hệ thống dịch đa ngữ.
ABSTRACT
In this paper, we introduce general information about UNL and how to apply it to the
vietnamese language processing. UNL (Universal Networking Language) is a computer
language that enables computers to process information and knowledge across language
barriers. It is an artificial language that replicates, in the cyber world, the functions of natural
languages in human communication. As a result, it enables people to express their ideas
through natural languages. It also enables computers to intercommunicate; thus, providing
people with a linguistic infrastructure for distributing, receiving and understanding multilingual

động để dịch từ một ngôn ngữ con người đang dùng đến một ngôn ngữ khác bằng cách
sử dụng đầy đủ các thông tin ngữ nghĩa và ngữ cảnh. Dịch ngữ nghĩa cho phép tham
chiếu đến cấu trúc ngữ pháp và mục đích của chúng là thiết lập một ngữ nghĩa tương
đương giữa 2 ngôn ngữ. Nếu việc dịch dựa vào sự trình bày về mặt ngữ nghĩa thì nó có
thể chỉ ra rằng làm thế nào để các câu trong ngôn ngữ nguồn và ngôn ngữ đích có mối
quan hệ về mặt cấu trúc. Trong phương pháp này, bản dịch máy sẽ sản sinh lại ý nghĩa
theo bối cảnh cho trước của tác giả mà không bị cản trở bởi cú pháp và các ràng buộc về
mặt ngữ nghĩa của ngôn ngữ đích. Phương pháp dịch theo ngữ nghĩa làm nổi bật nội
dung của thông điệp và hiệu quả dịch sẽ tốt hơn [3].
Tuy nhiên, người ta không mong muốn rơi vào tình trạng quá phức tạp của sự đa
dạng về ngữ nghĩa. Có một cách tiếp cận khác đó là dịch bằng cách sử dụng một ngôn
ngữ trung gian (ngôn ngữ biểu đạt riêng cho máy tính). Ngôn ngữ trung gian này cho
phép biểu diễn về mặt ngữ nghĩa ở mức đơn giản nhất có thể (giảm thiểu những rắc rối
do vấn đề ngữ nghĩa). Một trong những dự án đi theo cách tiếp cận này gọi là Universal
Networking Language (UNL). UNL được đề xuất và triển khai thực hiện bởi United
Nations University, Tokyo, Nhậ
t Bản.
Đối với tiếng Việt, việc phát triển một hệ thống dịch tự động từ tiếng nước ngoài
ra tiếng Việt được bắt đầu nghiên cứu vào những năm 60 thế kỉ XX. Năm 1969, công ty
Logos đã được thành lập bởi Bernard E. Scott với mục đích thực hiện các nghiên cứu để
phát triển hệ thống dịch tự động từ tiếng Anh ra tiếng Việt và vào tháng 6 n
ăm 1970 hệ
thống dịch tự động Anh–Việt Logos I ra đời với từ điển khoảng hơn 1000 từ [5]. Ngoài
Logos, hiện nay còn có một số phần mềm dịch tự động cho tiếng Việt như Google,
EVtrans, VietTrans nhưng chất lượng dịch còn rất thấp, chưa đáp ứng được yêu cầu tối
thiểu của người dùng.
Vấn đề đặt ra là làm thế nào để có thể phát triển nhanh nhất hệ thống dịch tự
động cho tiếng Việt dựa trên những kết quả sẵn có và UNL là một trong những khả
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009
3


TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009
4
Hình 1. Biểu diễn một câu dưới dạng đồ thị theo UNL
Trong lược đồ này, một câu trong ngôn ngữ nguồn được dịch đến ngôn ngữ
UNL bằng cách sử dụng một công cụ gọi là EnConverter. Enconverter là một bộ phân
tích độc lập với ngôn ngữ, nó cung cấp đồng bộ một môi trường dành để phân tích hình
thái, cú pháp và ngữ nghĩa. Ngoài ra, trong UNL còn hiện diện một bộ chuyển đổi từ
một câu viết bằng ngôn ngữ UNL đến ngôn ngữ đích bằng một công cụ gọi là
DeConverter. DeConverter là một bộ phát sinh độc lập với ngôn ngữ, nó cung cấp một
môi trường dành để phát sinh ra một tài liệu mô tả cú pháp, hình thái, sự lựa chọn từ
thích hợp cũng như việc sắp xếp các từ theo đúng thứ tự. Nó có thể chuyển một biểu
thức UNL đến nhiều ngôn ngữ đích khác nhau bằng cách sử dụng các dữ liệu ngôn ngữ
như từ điển, tiêu chuẩn ngữ pháp dành cho từng ngôn ngữ.

Hình 2. Qui trình dịch tự động trong UNL
Mục đích của việc đưa UNL vào sử dụng trên các mạng truyền thông là nhằm
gia tăng việc trao đổi thông tin giữa các ngôn ngữ khác nhau và giới thiệu một giải pháp
để vượt qua bức tường ngăn cách do sự khác biệt về ngôn ngữ trên thế giới. Kiến trúc
hệ thống UNL dựa trên 2 tiến trình chính là chuyển văn bản từ ngôn ngữ tự nhiên sang
ngôn ngữ trung gian UNL (EnConverter) và chuyển từ UNL về ngôn ngữ tự nhiên
(DeConverter). Ngoài ra, chúng ta cần có các dữ liệu về ngôn ngữ như từ điển, qui tắc
ngữ pháp và mỗi một ngôn ngữ được nhúng vào hệ thống chung theo sơ đồ hoạt động
như hình 3.
Về mặt khoa học, UNL đề xuất một cách tiếp cận mới về dịch tự động thông qua
ngôn ngữ trung gian (ví dụ, thay vì dịch trực tiếp từ tiếng Anh sang tiếng Pháp, ta dịch
từ tiếng Anh sang UNL và sau đó từ UNL sang tiếng Pháp). Ngôn ngữ trung gian này
được xem như một ngôn ngữ “nhân tạo” và có thể biểu đạt được ý nghĩa của một nội
dung bất kỳ nào trên máy tính dưới dạng ngôn ngữ. Nó có ý nghĩa quan trọng trong dịch
đa ngữ. Ví dụ, thay vì phát triển các hệ thống dịch tự động cho các cặp tiếng Việt –

Và từ đây ta có thể dịch nó sang những ngôn ngữ (hiện nay là 15 ngôn ngữ) đã
được hỗ trợ bởi UNL như tiếng Anh, tiếng Pháp, tiếng Nhật,…
Đối với mô hình 1, ưu điểm là nhanh chóng ứng dụng UNL mà không cần phải
phát triển bất cứ công cụ bổ sung nào. Nó phù hợp với việc phổ biến nhanh những dữ
liệu cơ bản và thiết yếu (hướng dẫn du lịch, các mẫu hộ
i thoại đơn giản, quảng cáo…)
ra nhiều thứ tiếng đã hỗ trợ bởi UNL. Hạn chế là phải có đội ngũ am hiểu ngôn ngữ
UNL để chuyển những dữ liệu đang có sang UNL [2].
b. Mô hình 2 : Tích hợp tiếng Việt vào UNL. Để tích hợp được tiếng Việt vào
UNL, chúng ta cần phát triển mô-đun dịch xuôi (tiếng Việt – UNL) và dịch
ngược (UNL – tiếng Việt). Để làm được việc này, cần phát tri
ển các dữ liệu
ngôn ngữ và công cụ dựa trên kiến trúc của UNL. Những công việc cụ thể
gồm :
- Xây dựng từ điển các từ, các luật văn phạm, từ điển định nghĩa các khái
niệm cơ bản của Tiếng Việt.
- Xây dựng các luật mã hóa, các luật phân tích từ trong câu. Khi chuỗi đầu
vào được nạp thì EnConverter sẽ tiến hành phân tích các từ trong câu, mỗi
từ được xem như là một nút, nạp luật mã hóa và tiến hành kiểm tra luật. Áp
dụng luật mã hóa cho danh sách các nút. Quá trình xử lý của ứng dụng luật
là để tìm ra luật thích hợp và áp dụng trên danh sách nút để tạo chức năng
cú pháp và mạng UNL sử dụng các nút trong cửa sổ phân tích. Nếu một
chuỗi xuất hiện trong cửa sổ, hệ thống sẽ xây dựng từ điển từ và áp dụng
luật lên các phần tử từ. Trong tr
ường hợp, nếu một từ đáp ứng đủ các điều
kiện yêu cầu cho cửa sổ của luật, từ này sẽ được lựa chọn và ứng dụng luật
tiếp tục. Quá trình xử lý này sẽ tiếp tục cho đến khi chức năng cú pháp và
mạng UNL được hoàn thành và chỉ còn lại các phần tử nút trong danh sách
nút. Cuối cùng EnConverter hiển thị mạng UNL thành file dữ liệu đầu ra là
quan hệ nhị phân theo định dạng của biểu thức UNL.

Các thử nghiệm, đánh giá của chúng tôi hiện nay cũng chỉ mới giới hạn trong
phạm vi khối lượng dữ liệu nhỏ nhằm mục đích kiểm chứng khả năng ứng dụng của
UNL cho tiếng Việt. Để tạo ra một hệ thống dịch đa ngữ cho tiếng Việt bằng UNL thì
chúng ta cần phải triển khai nhiều công việc như đã chỉ ra ở trên.
Chúng tôi nhận thấy rằng, UNL mở ra một cơ hội to lớn để phát triển hệ thống
dịch tự động đa ngữ một cách nhanh nhất có thể cho tiếng Việt. Trong thời gian đến,
chúng tôi sẽ tiếp tục nghiên cứu một cách đầy đủ hơn về UNL và hy vọng sẽ xây dựng
thành công hệ thống dịch tự động đa ngữ cho tiếng Việt. TÀI LIỆU THAM KHẢO

[1] Blanchon H., Boitet Ch., Brunet-Manquat F., Tomokiyo M., Hamon A., Vo-Trung
H. et Bey Y.: “Toward fairer evaluations of commercial MT systems on Basic
Travel Expressions Corpora”, Proceedings of International Workshop on Spoken
Language Translation IWSLT 2004, Kyoto, Japan, pp. 21-27, Oct. 2004.
[2] Boitet Ch.: “A rationale for using UNL as an interlingua and more in various
domains”, Proceeding of the First International Workshop on UNL, LREC2002,
Las Palmas, Spain, 2002.
[3] Hutchins W. J. and Somers, H. L.: “An Introduction to Machine Translation”,
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009
8
Academic Press, 1992.
[4] H. Uchida, M. Zhu, T. Senta: “Universal Networking Language”, ISBN-10 2-8399-
0128-5, Edition II, Published 2006.
[5] Lale Yurtseven, Logos machine translation system, ,
Logos Corporation.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status