ĐẠI HỌC DUY TÂN
TIỂU LUẬN
XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Đề tài:
DỊCH MÁY DỰA TRÊN CƠ SỞ CỤM TỪ
KHÔNG LIÊN TỤC
Giảng viên: TS. NGUYỄN THỊ THANH HUYỀN
Học viên : LÊ VĂN TỊNH
ĐOÀN SINH CÔNG
NGÔ MINH CƯỜNG
Lớp : K7MCS
Đà Nẵng, 4/2014
MỤC LỤC
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 2
1. MỞ ĐẦU
Xử lý ngôn ngữ là một kĩ thuật quan trọng nhằm giúp máy tính hiểu được ngôn
ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người
trong những công việc có liên quan đến ngôn ngữ như : dịch thuật, phân tích dữ liệu
văn bản, nhận dạng tiếng nói, tìm kiếm thông tin
Dịch máy là một trong những ứng dụng chính của xử lý ngôn ngữ tự nhiên.
Mặc dù dịch máy đã được nghiên cứu và phát triển trong hơn 50 năm qua, song vẫn
tồn tại nhiều vấn đề cần nghiên cứu đối với từng loại ngôn ngữ, đối với từng chuyên
ngành khác nhau (ví dụ: Y tế, luật )
Do chất lượng chưa thật tốt nên hầu hết các sản phẩm dịch tự động đều chỉ
mang tính tham khảo, các bản dịch chỉ cho biết đại ý và nó hoàn toàn có thể dịch sai
một phần hoặc toàn bộ nội dung cốt lõi của văn bản. Trong quá trình dịch thuật nếu
lạm dụng dịch tự động sẽ làm ảnh hưởng nghiêm trọng đến văn phong, bởi vì người
dịch giữ nguyên cách hành văn của bản dịch nhưng cách hành văn này thường
không chính xác, máy móc và thiếu "chất người".
So sánh giữa các thể loại văn bản khác nhau cho thấy dịch tự động dịch tài liệu
chuyên ngành có chất lượng tốt nhất, nguyên nhân là vì các tài liệu này từ vựng có
tài nguyên, nên các phương pháp dịch máy hiện hữu thường gặp trở ngại. Phương
pháp dịch máy trên cơ sở luật cần phải xây dựng hệ thống luật cú pháp, ngữ nghĩa
và phải có một từ điển khá đầy đủ thông tin cho các mục từ như ngữ nghĩa, ngữ
dụng Để thực hiện phương pháp dịch máy dựa trên cơ sở luật, người ta cần nhiều
thời gian và tiền bạc nhưng sản phẩm dịch vẫn không đạt độ chính xác như mong
đợi. Dịch máy bằng phương pháp thống kê chưa có nhiều nghiên cứu áp dụng cho
một sô ngôn ngữ phổ biến. Do sự khác biệt khá lớn về cấu trúc cú pháp của câu và
nguồn ngữ liệu song ngữ chuẩn, nên ảnh hưởng đến chất lượng đối sánh, mà kết quả
của đối sánh từ lại quyết định đến chất lượng
Phương pháp dịch máy trên cơ sở ví dụ truyền thống sử dụng các câu mẫu hay
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 4
còn gọi là câu ví dụ. Các câu này được lưu trữ trên cơ sở dữ liệu với đầy đủ các
thông tin như cây chú giải, các liên kết giữa các thành phần của hai câu thuộc hai
ngôn ngữ. Phương pháp này cũng cần tập luật cú pháp của các câu ngôn ngữ nguồn
để xây dựng cơ sở dữ liệu cho mẫu câu ví dụ. Sự khác biệt từ sẽ được xác định
thông qua từ điển phân lớp, câu nhập sẽ được phân tích bằng tập luật cú pháp và xác
định cặp cây cú pháp của câu nguồn và câu đích. Một tiếp cận khác với phương
pháp dịch máy trên cơ sở ví dụ là xây dựng ngân hàng mẫu câu ví dụ. Câu nguồn chỉ
cần so trùng từng phần với mẫu câu ví dụ bằng các giải thuật phù hợp (có sử dụng từ
đồng nghĩa trong từ điển phân lớp). Phương pháp này cần khá nhiều thời gian tìm
kiếm, xử lý thông tin để so trùng mẫu. Độ chính xác của phương pháp phụ thuộc
vào số mẫu được lưu trữ nhiều hay ít. Trong thực tế thật khó để có thể lưu trữ đầy
đủ các câu mẫu trên cơ sở dữ liệu vì số câu song ngữ trong kho ngữ liệu là nhiều vô
kể.
Dịch máy dựa trên ngữ liệu đang được áp dụng vào nhiều hệ thống dịch tự
động trong những năm gần đây, việc lấy đúng được cặp ánh xạ đích và nguồn một
cách tự động là một yêu cầu thiết yếu cho các phương pháp dịch dựa trên ngữ liệu.
Phương pháp dịch thống kê hiện tại đang cải thiện được chất lượng dịch bằng các
mô hình huấn luyện không chỉ dựa trên cơ sở các từ đơn mà còn dựa trên các cụm từ
đã cho kết quả khả quan. Tuy nhiên các cụm từ trong các nghiên cứu này không
English NIST test sets).
- Đầu vào: văn bản ngôn ngữ tự nhiên của một ngôn ngữ bất kỳ.
- Đầu ra: văn bản ngôn ngữ tự nhiên của một ngôn ngữ bất kỳ.
Việc đánh giá chất lượng bản dịch thường sử dụng phương pháp BLEU
(BiLingual Evaluation Understudy) hoặc NIST (National Institute of Standards and
Technology)
Dịch dựa vào cụm từ không liên tục xác định đơn vị dịch thuật như bất kỳ tập
hợp con của những nghĩa của một câu, tức là , một cụm từ không liên tục. Việc khái
quát đa chùm chuỗi dựa trên giải mã thông thường (Koehn, 2004) để cho phép gián
đoạn biến kích thước trong cả hai dữ liệu cụm từ ở ngôn ngữ nguồn và cụm từ ở
ngôn ngữ đích. Vì mỗi cặp câu có thể được linh hoạt hơn phân hủy thành các đơn vị
dịch, nó có thể khai thác bối cảnh phong phú của ngôn ngữ nguồn (có thể không liên
tục ) cụm từ để cải thiện chất lượng bản dịch. Bộ giải mã của cung cấp hai phần mở
rộng cho Moses:
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 6
(a) Để đối phó với những khoảng trống ở câu nguồn, chúng tôi làm theo
( Lopez , 2007) để tìm một cách hiệu quả tất cả các cụm từ liên tục trong dữ liệu
huấn luyện cũng xuất hiện trong câu ngôn ngữ nguồn ( Koehn et al , 2007. )
(b) Để cho phép gián đoạn ngôn ngữ xuất, chúng tôi tăng thêm giả thuyết dịch
không chỉ ghi lại bản dịch một phần hiện tại, mà còn là một tập hợp các nhóm cụm
từ có thể được nối vào dịch một phần ở một số giai đoạn sau của giải mã.
3.2. Rút trích cụm từ không liên tục:
Mục tiêu của dịch máy là tự động chuyển ý nghĩa của
một câu từ ngôn ngữ nguồn
sang ngôn ngữ đích . Trong dịch máy thống kê các điều kiện xác suất để mô tả sự
tướng ứng giữa 2 câu (theo Och and Ney, 2004). Mỗi cụm từ được đặc trưng bởi một
giá trị chỉ số, tức là một tập hợp các chỉ số từ. Giả định rằng cặp câu (f, e) được phân
rã thành K cụm từ không liên tục, ta có: và Để lần lượt đại diện cho sự phân hủy
của câu ngôn ngữ nguồn và ngôn ngữ đích với K tập con từ đó được bổ sung và
không chồng lấn. Một cặp giá trị chỉ số phù hợp (s
al., 2010), là một bộ giải mã đa ngăn xếp tương tự như Moses ( Koehn, 2004), Việc
mở rộng để hỗ trợ khoảng cách biến kích thước trong các ngôn ngữ nguồn và ngôn
ngữ đích. Trong Moses , giả thuyết dịch một phần được sắp xếp vào ngăn xếp khác
nhau tùy theo tổng số từ đầu vào. Từng bước dịch, ngăn xếp được chia bằng cách sử
dụng điều kiện dịch một phần và thấp hơn ràng buộc về điều kiện ước tính trong
tương lai.
Đề xuất mới giải thích cho sự gián đoạn ngôn ngữ nguồn, cụm từ có chứa
những khoảng trống trong các ngôn ngữ nguồn được nối vào một giả thuyết dịch
một phần trong nhiều bước. Cụ thể, mỗi giả thuyết dịch trong bộ giải mã là không
chỉ biểu diễn như là một tiền tố dịch và giá trị phù hợp thiết lập như trong Moses,
nhưng nó cũng chứa một tập hợp các cụm từ bị cô lập (hiển thị chữ in nghiêng trong
hình. 1) phải được bổ sung vào dịch tại một số lần sau đó . Ví dụ , con số này cho
thấy cách cặp cụm từ được thêm vào đoạn dịch.
Tiền tố (arrangements) được nối vào để tạo thành (he said arrangements), và cô lập
cụm từ (made) được lưu lại để sử dụng sau.
• Các bước rút trích cụm từ:
Bước 1: Phân tích câu nguồn để xác định các cụm từ không liên tục
Bước 2: Giá giá trị phù hợp cho câu nguồn.
Bước 3: Sắp xếp lại trật tự từ của câu nguồn theo trật tự từ của câu đích dựa vào cặp
giá trị phù hợp.
Bước 4: Đối sánh từ của câu nguồn sau khi đã được sắp xếp với câu đích.
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 8
Bước 5: Viết lại luật sinh cho ngôn ngữ nguồn từ ngữ liệu đã đối sánh và gán
nhãn.
Bước 6: Rút trích cụm danh từ
• Thuật toán tìm kiếm cụm từ không liên tục
Bảng 1 – Thuật toán tìm kiếm cụm từ không liên tục
Thuật toán sử dụng 2J + 1 ngăn xếp và trong đó mỗi ngăn xếp chứa đến N giả
thuyết H
j1
được tính toán cho các cụm từ (s
1,
s
2
,s
3
) bao gồm cụm từ s
2
không liên tục.
Hình 2: Biến dạng tuyến tính tính toán sử dụng cụm từ liên tục
và không liên tục
4. KẾT QUẢ:
4.1 Môi trường thử nghiệm:
Hệ thống dịch dựa trên cụm từ không liên tục được tích hợp trong bộ công cụ
dịch dựa trên cụm từ của đại học Standford (Stanford Phrasal is a state-of-the-art
statistical phrase-based machine translation system). Thử nghiệm thực hiện trên
phiên bản 3.3.1, phát hành ngày 04/01/2014 có thể tải về tại địa chỉ:
/> />Hướng dẫn cài đặt và thực nghiệm chi tiết:
/>Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 10
4.2. Kết quả thử nghiệm:
Mô hình đưa ra bởi Joshua, Moses, và hệ thống dịch dựa trên cụm từ không
liên tục. Các mũi tên màu xanh đại diện cho sự sắp xếp giữa các cụm từ không liên
tục, trong khi màu đỏ phân đoạn mũi tên sắp xếp cụm từ liên tục như hình dưới.
Hình 3 – Mô tả các cụm từ không liên tục mũi tên màu xanh
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 11
Kết quả cho ba hệ thống ở đây được hiển thị trong hàng 2, 4, và 8 của Bảng 2.
Bảng 2 – So sánh với các mô hình của (Joshua) và (Moses) các giá trị đều tăng đối
với BLEU.
Lợi ích của hệ thống dịch dựa trên cụm từ không liên tục được phép sử dụng
các đơn vị dịch lớn hơn khi bị giới hạn ở những cụm từ liên tục.