Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy - pdf 16

Download miễn phí Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy



Trong những năm gần đây, nhiều nhà nghiên cứu quan tâm đến việc rút trích cụm
danh từsong ngữ. Yarowsky [2] phát triển mô hình chiếu đểthu nhận mã từloại, cụm
danh từcơsở, tên thực thểvà phân tích hình vịcủa ngôn ngữ đích thông qua ngôn ngữ
nguồn. E.Riloff [3] xây dựng hệthống rút trích thông tin cho ngôn ngữmới thông qua mô
hình chiếu. Mô hình của chúng tôi thực hiện trên phương pháp của Yarowsky với một số
cải thiện đểkhắc phục vấn đềchống chéo, xung đột trong mô hình của chiếu.



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN
TRONG DỊCH MÁY
TS. Nguyễn Chí Hiếu
Khoa CN Thông tin – Trường ĐH Công nghiệp Tp. HCM
TÓM TẮT
Bài báo này đề xuất một mô hình nhận biết và rút trích tự động cụm danh từ song
ngữ từ ngữ liệu song ngữ Anh-Việt bằng các công cụ nổi tiếng như GIZA++ -2003 [10]
và GATE – 2005 [1]. Bài báo cũng trình bày phương pháp cải thiện chất lượng đối sánh
từ trong bước tiền xử lý bằng cách chuyển đổi cấu trúc câu nguồn theo trật tự của câu
đích để rút trích cụm danh từ song ngữ, đề xuất phương pháp xây dựng bảng từ và cụm
từ song ngữ từ ngữ liệu song ngữ với các nét ngữ nghĩa, xác suất xuất hiện và luật
chuyển đổi [8]. Ngoài ra, các thành phần cơ bản của một hệ thống dịch máy trên cơ sở
cụm từ cũng được trình bày trong bài báo này. Thực nghiệm ban đầu cho kết quả khả
quan.
ABSTRACT
This paper proposes the method Extracting English – Vietnamese Noun Phrases
automatically which is building from Bilingual Corpus by well-known tools as GIZA++ -
2003 [10], GATE – 2005 [1]. In this method, the paper presents methods to improve the
quality of word alignment in the pre-processing phase of Machine Translation by
transferring sentence structures from the source language to target language and then
using heuristics to extract noun phases. It also proposes the method of building the Phase
and Word tables from Bilingual Corpus including semantics, probability and transfer
rules [8]. The other components of the English – Vietnamese machine translation also
are described in this paper. The result of the experiment was satisfactory.
MỘT SỐ TỪ VIẾT TẮT
NLP: Natural Language Processing
MT: Machine Translation
RBMT: Rule Based Machine Translation
EBMT: Example Based Machine Translation
SMT: Statistical Machine Translation
PBMT: Phrase Based Machine Translation
1. GIỚI THIỆU
Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệ thống
máy tính hiểu và xử lý được ngôn ngữ con người. Dịch máy là một trong những ứng dụng
chính của xử lý ngôn ngữ tự nhiên. Mặc dù dịch máy đã được nghiên cứu và phát triển
hơn 50 năm qua, song vẫn tồn tại nhiều vấn đề cần nghiên cứu. Ở Việt nam, dịch máy đã
được nghiên cứu hơn 20 năm, nhưng các sản phẩm dịch máy hiện tại cho chất lượng dịch
còn nhiều hạn chế [5]. Hiện nay, dịch máy được phân chia thành một số phương pháp
như: dịch máy trên cơ sở luật, dịch máy thống kê và dịch máy trên cơ sở ví dụ [18]. Do
những khác biệt về ngữ hệ, khác biệt về văn hóa và thiếu vắng nguồn tài nguyên, nên các
phương pháp dịch máy hiện hữu thường gặp trở ngại khi áp dụng vào cặp ngôn ngữ Anh
– Việt.
Phương pháp dịch máy trên cơ sở luật cần xây dựng hệ thống luật cú pháp,
ngữ nghĩa và phải có một từ điển khá đầy đủ thông tin cho các mục từ như ngữ nghĩa,
ngữ dụng,... Để thực hiện phương pháp dịch máy dựa trên cơ sở luật, người ta cần nhiều
thời gian và tiền bạc nhưng sản phẩm dịch vẫn không đạt độ chính xác như mong đợi.
Dịch máy bằng phương pháp thống kê chưa có nhiều nghiên cứu áp dụng cho cặp Anh –
Việt và kết quả nghiên cứu của N.P.Thai [20] cũng hết sức khiêm tốn. Do sự khác biệt
khá lớn về cấu trúc cú pháp của câu và nguồn ngữ liệu song ngữ chuẩn, nên ảnh hưởng
đến chất lượng đối sánh từ Anh – Việt, mà kết quả của đối sánh từ lại quyết định đến chất
lượng dịch. Hiện nay, đối sánh từ cho cặp Anh – Trung [17] chỉ đạt được độ chính xác
50% - 60%. Kết quả này có thể tương tự khi áp dụng đối sánh từ cho cặp tiếng Anh –
Việt [20]. Phương pháp dịch máy trên cơ sở ví dụ truyền thống sử dụng các câu mẫu hay
còn gọi là câu ví dụ. Các câu này được lưu trữ trên cơ sở dữ liệu với đầy đủ các thông tin
như cây chú giải, các liên kết giữa các thành phần của hai câu thuộc hai ngôn ngữ.
Phương pháp này cũng cần tập luật cú pháp của các câu ngôn ngữ nguồn để xây dựng cơ
sở dữ liệu cho mẫu câu ví dụ. Sự khác biệt từ sẽ được xác định thông qua từ điển phân
lớp, câu nhập sẽ được phân tích bằng tập luật cú pháp và xác định cặp cây cú pháp của
câu nguồn và câu đích. Một tiếp cận khác với phương pháp dịch máy trên cơ sở ví dụ là
xây dựng ngân hàng mẫu câu ví dụ. Câu nguồn chỉ cần so trùng từng phần với mẫu câu ví
dụ bằng các giải thuật phù hợp (có sử dụng từ đồng nghĩa trong từ điển phân lớp).
Phương pháp này cần khá nhiều thời gian tìm kiếm, xử lý thông tin để so trùng mẫu. Độ
chính xác của phương pháp phụ thuộc vào số mẫu được lưu trữ nhiều hay ít. Trong thực
tế thật khó để có thể lưu trữ đầy đủ các câu mẫu trên cơ sở dữ liệu vì số câu song ngữ
trong kho ngữ liệu là nhiều vô kể. Với hai ngôn ngữ khác biệt như tiếng Anh và tiếng
Việt với nguồn tài nguyên khá cùng kiệt nàn, thì việc xây dựng kho câu mẫu sẽ càng cần
nhiều thời gian và tiền bạc và là công việc của nhiều nhà ngôn ngữ học thực hiện trong
nhiều năm.
Dịch máy dựa trên ngữ liệu đang được áp dụng vào nhiều hệ thống dịch tự động
trong những năm gần đây, việc lấy đúng được cặp ánh xạ đích và nguồn một cách tự
động là một yêu cầu thiết yếu cho các phương pháp dịch dựa trên ngữ liệu. Phương pháp
dịch thống kê hiện tại đang cải thiện được chất lượng dịch bằng các mô hình huấn luyện
không chỉ dựa trên cơ sở các từ đơn mà còn dựa trên các cụm từ. D.Marcu và W.Wong
[7], Kenji Yamada và Kevin Knight [11], P.Koehn, F.J.Och, và D.Marcu, [15, 16] đã cho
kết quả khả quan. Tuy nhiên các cụm từ trong các nghiên cứu này không thực sự là cụm
từ của ngôn ngữ học.
2. CỤM DANH TỪ TIẾNG VIỆT
Cụm từ tiếng Việt được nhiều nhà ngôn ngữ học trong và ngoài nước quan tâm
nghiên cứu như Nguyễn Tài Cẩn [14], Hồ Lê [9], Nguyễn Kim Thản [13], Diệp Quang
Ban [6] và gần đây nhất là luận văn tiến sĩ của Tuong Hung Nguyen [19].
2.1 Những công trình nghiên cứu ở nước ngoài
Shum biểu diễn cụm danh từ tiếng Việt cả ở dạng luật sinh và dạng cây như sau:
Beatty đưa ra hai khả năng có thể có của cụm danh từ tiếng Việt được biểu diễn
qua cấu trúc cây như sau:
Tuy nhiên Beatty đã không xem xét đến các mạo từ (articles : một, những, các), và
từ chỉ xuất cái (cái con mèo này – this cat).
2.2 Những công trình nghiên cứu trong nước
Nguyễn Tài Cẩn cho rằng cụm danh từ (danh ngữ) gồm có ba phần: phần đầu,
phần trung tâm và phần cuối như sơ đồ sau:
Phần đầu Phần trung tâm Phần sau
Ba
Cả hai
Tất cà những cái
người
tỉnh
chủ trương
này
nhỏ ấy
chính xác đó
Nom → NP Mod
NP → Nu N Dem
NP → Pron
NP → Npr
Nu → PL CL
Nu → Q CL
Nu → Num CL
N → N’ N”
Trong đó:
Nom: Chủ ngữ
Mod: Bổ ngữ
Nu: Số đếm
Dem: Chỉ định từ
Pron: Đại từ
Npr: Danh từ riêng
N: Danh từ
N’: danh từ phân loại
N”: danh từ không phân loại
PL: Số nhiều
Q: Lượng từ
Nom
NP Mod
Nu N Dem
PL
Q
Num
CL
Nom
NP Mod
Pron
Npr
Hình : Cấu trúc cụm danh từ tiếng Việt của Shum [19]
(b) (a)
NP
Num NP
CL N’
N’ Dem
N AP
NP Dem
N’ AP
Num N’
CL N
NP
Trong đó:
AP: Cụm tính từ
Hình 2: Cấu trúc cụm danh từ tiếng Việt của Beatty [19]
(a) (b)
Trong thực tế danh ngữ còn có thể xuất hiện...
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status