Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê - pdf 25

Link tải luận văn miễn phí cho ae Kết nối
Tổng quan về khái niệm, sơ đồ, phân loại, phương pháp và các hệ thống dịch máy trên thế giới. Trình bày Corpus và gióng hàng câu, dịch máy bằng phương pháp thống kê. Xây dựng chương trình dịch Anh-Việt bằng thống kê, chương trình đã khắc phục được nhược điểm của cách tiếp cận dựa trên luật là tận dụng được dữ liệu đã có sẵn
Luận văn ThS. Công nghệ thông tin -- Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội, 2005

MỞ ĐẦU
Dịch máy là một vấn đề quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Trên
thế giới dịch máy đã đƣợc nghiên cứu từ thập kỉ 50 và đƣợc phát triển mạnh vào
thập kỉ 80. Hiện nay, đã có rất nhiều hệ dịch máy thƣơng mại nổi tiếng trên thế giới
nhƣ Systrans, Kant, ... [30][13]và nó hỗ trợ loài ngƣời rất nhiều trong một thế giới
với lƣợng thông tin trao đổi ngày càng lớn, tốc độ càng nhanh với nhiều ngôn ngữ
khác nhau. Trong sự phát triển của dịch máy, các cách tiếp cận dịch máy chính là
dựa vào: dịch chuyển đổi, dịch liên ngữ và dịch dựa vào dữ liệu.
Mặt khác, với việc bùng nổ Internet nhƣ hiện nay, có một khối lƣợng văn bản
lớn trên Internet mà phần lớn là bằng tiếng Anh. Do tính đa dạng của nó mà
việc hiểu các văn bản này hoàn toàn không dễ chút nào. Do đó việc có một hệ dịch
tự động Anh-Việt là hết sức cần thiết.
Hơn nữa, Ở Việt Nam có một vài nhóm nghiên cứu về dịch tự động Anh-Việt. Hiện
nay mới chỉ có một sản phẩm EVtrans đƣợc thƣơng mại hóa. Tuy nhiên, chất lƣợng
dịch và phạm vi sử dụng của sản phẩm này vẫn còn nhiều hạn chế. Thêm vào đó,
cách tiếp cận của các nhóm này mới chỉ dựng lại bằng phƣơng pháp chuyển đổi
(dựa trên luật). Với cách tiếp cận này thì sẽ bị hiện tƣợng “thắt nút cổ trai” trong trí
tuệ nhân tạo đồng thời phải chi phí rất tốn kém cho việc xây dƣng trí thức dịch.
Vì vậy, trong luận văn này, chúng tui đã tập chung nghiên cứu một hƣớng dịch mới,
đó là phƣơng pháp dịch bằng thống kê và đồng thời áp dụng phƣơng pháp này vào
bài toán dịch Anh -Việt. Trên thế giới, cách tiếp cận này là một loại trong cách tiếp
cận dựa vào dữ liệu đƣợc phát triển khá mạnh vào các năm của thập kỉ 90[17][18].
Có khá nhiều hệ dịch dựa trên cách tiếp cận này đã đƣợc thƣơng mại hóa và chất
lƣơng dịch của các hệ này là khá cao nhƣ CANDIDE của IBM [9], hệ dịch Trung -
Anh của đại học Hoskin 2003 [10], .... Quan trọng hơn cả là nó đã khắc phục đƣợc
nhƣợc điểm của cách tiếp cận dựa trên luật đó là: tận dụng đƣợc dữ liệu đã có sẵn.
Cách làm này đỡ tốn rất nhiều công sức của các nhà ngôn ngữ và nguời làm trí thức
dịch. Luận văn đƣợc chia làm bốn chƣơng:
Mở đầu
Chƣơng 1: Tổng quan về dịch máy.
Chƣơng 2: Corpus và gióng hàng câu.
Chƣơng 3: Dịch máy bằng phƣơng pháp thống kê.
Chƣơng 4: Xây dựng chƣơng trình dịch Anh-Việt bằng thống kê.
Kết luận
1.1. Khái niệm về dịch máy,vai trò, vị trí của dịch máy
1.1.1 Khái niệm về dịch máy
Định nghĩa: Các hệ dịch máy (machine translation system-MT) là các hệ thống sử
dụng máy tính để dịch từ một thứ tiếng (trong ngôn ngữ tự nhiên) sang một hay vài
thứ tiếng khác.
Ngôn ngữ của văn bản cần dịch đƣợc gọi là ngôn ngữ nguồn, ngôn ngữ của văn bản
đã dịch ra đƣợc gọi là ngôn ngữ đích.
1.1.2 Vị trí, vai trò của dịch máy
Hiện nay trên thế giới có khoảng 5650 ngôn ngữ khác nhau, với một số lƣợng ngôn
ngữ lớn nhƣ vậy đã gây ra rất nhiều khó khăn trong việc trao đổi thông tin, trong
giao tiếp, đồng thời ngăn cản sự phát triển của thƣơng mại và mậu dịch quốc tế.
Với những khó khăn nhƣ vậy ngƣời ta đã phải dùng đến một đội ngũ phiên dịch
khổng lồ, để dịch các văn bản, tài liệu, lời nói từ tiếng nƣớc này sang tiếng nƣớc
khác. Những công việc đó mang tính chất thủ công, nặng nhọc trong khi khối lƣợng
văn bản cần dịch ngày càng nhiều.
Để khắc phục những nhƣợc điểm trên con ngƣời đã nghĩ đến việc thiết kế một mô
hình tự động trong công việc dịch, do đó ngay từ khi xuất hiện chiếc máy tính điện
tử đầu tiên ngƣời ta đã tiến hành nghiên cứu về dịch máy. Công việc đƣa ra mô hình
tự động cho việc dịch đã và đang đƣợc phát triển, mặc dù chƣa giải quyết đƣợc triệt
để lớp ngôn ngữ tự nhiên. Nhƣng sự ra đời của chúng đã khẳng định đƣợc ích lợi to
lớn về mặt chiến luợc và kinh tế, đồng thời các vấn đề liên quan đến dịch máy cũng
là những chủ đề quan trọng của ngành khoa học máy tính, bởi chúng liên quan đến
vấn đề xử lí ngôn ngữ tự nhiên-một trong những vấn đề có ý nghĩa nhất mà trí tuệ
nhân tạo có khả năng giải quyết. Ngƣời ta tin rằng việc xử lí ngôn ngữ tự nhiên
trong đó có dịch máy sẽ là giải pháp cho việc mở rộng cánh cửa đối thoại ngƣời-


4IUU20ZJj63t8dr
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status