Hệ thống dịch và tóm tắt văn bản Anh - Việt - Pdf 25

ĐẠI HỌC QUỐC GIA HÀ NỘI
HỆ THỐNG DỊCH VÀ TÓM TẮT
VĂN BẢN ANH-VIỆT
- - - - •
(Báo cáo tổng hợp đề tài nghiên cứu khoa học cấp Đại học Quốc gia Hà Nội
do Khoa Công nghệ quản lý)
Mã số: QC.03.02
Chủ nhiệm đề tài: ThS. Lẽ Anh Cường
Đ A I HOC QUỐC GIA HÀ NÒI
TRUNG TẨM THÔ NG TIN THƯ VIÊN
DT/ Ồ U
Hà Nội - 2004
MỤC LỤC
CHƯƠNG 1. GIỚI THIỆU 4
1.1 Đặt vấn đ ề 4
1.2 Nội dune của đề tà i 4
1.3 Cấu trúc của báo cáo 4
CHƯƠNG 2. TỔNG QUAN VẼ DỊCH MẢY VÀ TÓM TẮT VÃN BÀ N

6
2.1 Tồng quan vè dịch máy 6
2.1.1 Thế nào là dịch máy, vai trò và vị trí
6
2.1.2 Các chiến lược dịch máy cơ bản 7
2.1.3 Một sổ tiếp cận mới 10
2.1.4 Tiếp cận xây dựnơ hệ thòng dịch cùa chúng tỏi

13
2.2 Tòns quan về tóm tăt văn bàn 14
2.2.1 Tons quan về tóm tẳt văn bàn 14
2.2.2 rỏm Tnch lọc (extraction) 15

PGS. TS. Đinh Mạnh Tường, Trường ĐH Cônơ nghệ
TS. Nguvễn Lè Minh, Viện Khoa học và Công nghệ Tiên tiến của Nhật Bàn
(JAIST)
ThS. Nguyễn Phương Thái, Trường ĐH Công nghệ
CN. Nguyễn Văn Vinh, Công ty Lạc Việt
Danh mục các bảng số liệu
Bans 1. Bans đánh 2Ìá két quà dịch m áy 28
Báns 2. Sự phàn bố của dừ liệu học đối với các kiêu lớp 37
Burm 3. So sánh Liiừa phương pháp của chuns tôi và phươrm pháp cùa Kniaht và
Marcu (2002) 41
Danh mục các hình
Hình 2.1 Sơ đồ tồng quan một hệ dịch m áy 7
Hình 272 Hệ thốns dịch trực tiếp 8
Hình 2.3 Hệ thống dịch chuyển đồi
9
Hình 2.4 Lược đồ quan hệ giừa mô hình chuyên đôi và liẻn n s ữ

10
Hình 3.1 Kiến trúc hệ thốns dịch chuyển đồi 18
Hình 3.2 Cônơ cụ biên soạn từ điển song n2ử 19
Hình 3.3 Sơ đồ các thành phần của một bộ phàn tích hình thái hai m ức

21
Hình 3.4 Một cây cú pháp 23
Hình 2.5 Mô hinh một hệ dịch Anh Việt 25
Hình 4.1 Mồ tả một quá trình chuyèn đôi một câu dài thành một câu ngấn hơn 34
Hình 4.2 Các ĩhuộc tính ngừ nghĩa 35
2
Hình 4.3 Mô tả hiệu nãng của Co-MEM sử dụng một phàn cùa dữ liệu học và
MEM sử dụng toàn bộ dừ liệu học 39

siới thiệu ve từnơ thành phan của nó. Tronơ khi trình bày chúng tỏi sẻ nhấn mạnh
các côns việc mới mà chúnơ tôi đã thực hiện cùnơ với kết quả đạt được trona
khuôn kho dự án nghiên cứu này. Thèm vào đó chủns tôi cùn® đề cập đến tình
hình nghiên cứu dịch máy ờ nước ta hiện nay trong phần tảng quan các vấn đề
nghiẻn cưu. Vàn dê tóm tat ván ban tiếng Anh dược trình bay tương dối độc lập
4
với vấn đề dịch máy. Tiếp cận chính của chúng tỏi là sừ dụne học máy đê tóm tăt
văn bản.
Báo cáo gồm 5 chương:
- Chươns 1: Đặt vấn đề và các mục tiêu của đề tài
- Chương 2: Giới thiệu tông quan vè dịch máy và tóm tăt văn ban
- Chương 3: Trình bày về hệ thống dịch chuyển đổi, các thành phần của nó
và các kỹ thuật cơ bản.
- Chươne 4: Trình bày một số phưome pháp tóm tát văn bản mứi như tóm tắt
văn bản điều khiến bời cú pháp, tóm tát văn bản sử dụns SVM, hay tóm tắt
văn bản với cây quyết định.
Chươns 5: Kêt luận và kiên nghị
Phụ lục: Một sò báo cáo khoa học và khoá luận được thực hiện trons khuôn
khồ đề tài
5
CHƯƠNG 2. TỎNG ỌUAN VÈ DỊCH MÁY
VÀ TÓM TẮT VĂN BẢN
2.1 Tổng quan về dịch máy
2.1.1 Thế nào là dịch máy, vai trò và vị trí
Trải qua mấy thập kỉ, vắn đề dịch máv đà được rất nhiều nhà khoa học quan
tâm. họ đã đưa ra nhiều khái niệm về dịch máy, tuy nhiên ý tưởng chính của họ
vẫn là như nhau (Hutchins và Somers. 1992): Các hệ dịch máy (machine
translation system-MT) là các hệ thống sử dụng mảy tính đẽ dịch tài liệu từ một
thứ tiêng (trong ngôn ngữ tự nhiên) sang một hoặc vài thứ tiêng khác.
Neỏn ngừ của vãn bản cằn dịch được gọi là ngôn neừ nguồn hay ngôn nsử vào.

Hâu xử
bản ra

Hình 2.1 Sơ đồ tỏng quan một hệ dịch máv
Đầu vào cùa một hệ dịch máv thông thườnơ là một văn bàn viết trong nsôn
n£ừ neuôn. Văn bủn này có thê được lâv từ một hệ soạn tháo văn bản. một hệ nhận
dạng chừ viết hay tiêng nói. Sau dó văn bủn có thẻ dược kiêm tra lại nhờ khỏi soạn
tháo, kiêm tra chính tả. trước khi đưa ra máy dịch. Trons quá trình dịch máy. hè
thống thường phái sử đụng đên một lượn" lớn trí thức dịch. Tri thức dịch bao 2ồm
các loại từ điển hình thái, từ diên từ vựns, từ điên luật. v.v. Đẩu ra ià văn bàn
thuộc nsôn nsữ đích. Với văn ban này ta phai hiộu chình và soạn thào cho phù hợp
với việc sử dụns.
2.1.2 Các chiến lirợc dịch máy cơ bán
Các hệ thốns dịch máy thông thường được phản loại theo các chiến lược cơ
ban sau đâv (Hutchins và Somers. 1992):
2.1.2.1 Dịch trực tiếp
Các hệ thons dịch trực tièp liên quan đẽn việc đối sánh các mẫu xâu và việc
sáp xếp lại xâu đích cho thích hợp với ngôn ngử đích. Rất nhiều hệ thốns trước
đây củns như một số phàn mèm dịch máy hiện nay cho các máy tính cá nhản đã
dùng chièn lược này. Các hệ thòng theo tièp cận này được thiẻt kè cho từng cặp
nsôn nsừ cụ thè. tiẻn trinh dịch là trực tiẻp từ ngòn n2ừ nouòn sans nsòn ngừ
đích. Hệ ihòns bao 2ÒĨĨ1 một từ điẻn song ngừ lớn. một sô qui tăc từ \ạrn2 được sư
dụns cho phàn tích tư đièn và các thu tục xư lý đặc trims cho việc chuyèn đỏi aiừa
7
hai ngôn ngừ. Sau đây là tồng kết bốn giai đoạn thường được dùng cho các hệ
thống dịch máy trực tiếp:
1. Phân tích hình thái câu nguồn: Công việc của giai đoạn này là phân câu thành
các từ và phân tích hình thái cho những từ nàv.
2. Chuyên đôi nội duns từ vựng từ nsôn nsừ n2uồn sans nsỏn n2ừ đích: chọn nội
dung dịch tương đương của các từ ưong ngòn ngữ đích. Công việc này sử dụng từ

vựng và cấu trúc như Anh-Việt. Nó chì đạt chất lượng tươne đối cho các cặp neòn
ngừ có nhiều sự tươns đồne như Anh-Pháp. Thực tế phương pháp này ít được
dùn£ độc lập mà thường được kết hợp với các phương pháp dịch dựa rrèn luật đề
xử lý những câu mà bộ phân tích không nhận được.
2.1.2.2 Dịch chuyển đổi
Một hệ thống dịch chuyển đổi được thiết kế để dịch một cặp rmỏn ngử nhảt
định, các hoạt động chính của hệ thống bao gồm: phản tích, chuyển đối và sinh
cảu. Thône thườne quá trình dịch diễn ra như sau: câu vào được phàn tích hinh
thái, sau đó được nhận dạna bơi bộ phàn tích cú phap ma kết qua thương được
biếu diễn dưới dạng cây cú pháp, tiếp đó câv cú pháp này sẽ được chuvén đôi sana
dạng tương đươnơ ờ ngòn nsừ đích và từ đó máy sẽ sinh cáu thuộc n
2Òn nsừ đích.
Hìnlĩ 2.3 Hệ í hỏng dịch chuyên đói
Các hệ thòrm dịch chuvèn đôi có im diêm là chuvẻn tai dược càu trúc cu phap
và I12Ừ nshĩa từ vựng tuy nhiên khỏ khăn là nhập nhăns từ vựng (một lừ co thè có
nhiều từ loại và nhiêu nghĩa) và nhập nhăns câu trúc (một càu co thê co nhiêu càv
cú pháp). Do vậv naười ta thưởng kêt hợp phương pháp này với các phươns pháp
khác như dịch trực tiếp troQơ việc xử lý các trường hợp càu có cấu trúc khòns tốt
(khònơ nhận dược băns bộ phân tích cú pháp).
2.1.2.3 Dịch liên ngử
Trorm hệ thông dịch liên ngữ. trước tièn càu nsuôn được phân tích thanh một biểu
diễn chuns, sau đó từ biẻu diễn nàv sinh ra càu đích. Dịch liên nsừ do đó bao 2Òm
hai íiai đoạn: từ ngòn neừ nsuòn tới neòn nsừ chung, và từ nsòn ngừ chuns tới
nsòn nsừ đích. Như vậv các hệ thỏns dịch liên nsừ dùnơ một bộ kí hiệu dừ liệu
mò tà hạt nhàn ìiọi là một liên nsữ. Liên n2ừ được định nghĩa như một tập các
khái niệm và các quan hệ iỉiừa các khái niệm. Liên rmừ biêu thị V níihĩa cua càu
9
dưới dạng mạng ngữ nghĩa, trong đó mỗi nút biểu diễn một khái niệm và mỗi cung
biểu thị một quan hệ. Vì thế, nó cỏ thể được xem là đặc tả về cấu trúc khái niệm.
Các hệ thống dịch liên ngữ được thiết kế theo các bước của hệ thống chuyển

quá dịch của câu s trong ngôn ngừ nguồn. Ta mong muôn chươnơ trinh dịch sỗ xác
định được giá trị P(tịs) là rất bé với cặp càu như (She is a teacher ; Tôi thích một
quvén sách màu xanh) và có giá trị cao trons cặp càu như (I like a blue book i Tỏi
thích một quyên sách màu xanh). Như vậy với xâu thuộc nsôn nsữ nsuồn s hệ
thống dịch xác suàt phai tìm được xảu đích t sao cho cực đại 2Ìá trị P(t!s). Sử dụnơ
Cỏn2 thức Bayes ta có thè viẻt:
P(tỊs) = P(t)*P(s t)/ P(s)
Vi P(s) ỉà £Ĩá trị khỏns đôi nẻn theo còna thưc trẻn. thav vì việc tìm siá trị cực đại
cho P(tỊs) chúnsỉ ta sẽ tìm 2Ìá trị cực dại cùa biẻu thức P(t)*P(sit). Nhiệm vụ dịch
sẽ la um:
tA=argmax P(t)*P(sit)
t
Theo bhki thức trèn. chủng ta thấy còna việc cua hệ dịch xác suất bao gồm:
(a) Tính toán khả nãns của một xâu sẽ thuộc n2Òn nsừ đích, hay nói cách khác là
tính toan khá nãna một xâu sẽ có dạna tòi trone nsòn n<zừ đó.
( b) Tính toán khá nãna cua xâu n2uỏn sẽ là xàu dịch của một xâu ngỏn nsừ đích,
hay tồng quát là kha năng một xâu là xâu dịch cua một xâu thuộc nơòn nsừ khác.
(c) Một kỹ thuật tim kiêm xâu nsôn n2ử đích làm cực đại biẻu thức trẻn.
Y nghĩa cùa bièu thức P(t)*P(sịt) là duns hoà hai yếu tò: t là xàu dịch cùa s và t
cỏ khuòn dạn« tòt trons nsòn ngừ đích.
Như vậy hệ thốns dịch xác suàt liên quan đên mô hình đơn n2ử và mô hinh
dịch. Vlô hình đơn nsừ thườniĩ dựa trên mò hình neram (thực tẻ là bi gram hoặc
trisram). Mô hinh này xác định kha năna xuãt hiện cua một từ phụ thuộc vào các
11
từ đứng liền trước nó (2 từ đối với mô hỉnh bigram, 3 từ đối với mô hình trigram).
Nhờ đó ta có thề tính khả năng một xâu có khuôn dạng tốt trong ngôn ngừ đích.
Mô hình dịch sử dụng tần suất cùng xuất hiện của các từ trong ngôn ngừ neuồn và
các từ trong ngôn ngữ đích, chiều dài của xâu chứa các từ đó, vị trí của các từ
trong xâu, số lượng các từ thuộc xàu đích tươnơ ứng với từ thuộc xâu n2uỏn.
Các hệ thống dịch máy thống kê được huấn luyện trên một lượng lớn dữ liệu

câu đích đã được dóng hàng. Thông thường thì cấu trúc câu phi được lưu
dưới dạng cấu trúc phụ thuộc.
Một thuật toán tìm các ví dụ tương ứng với câu vào được hiểu là các ví dụ
này sẽ phủ lên càu cằn dịch.
- Một thuật toán kết hợp dùne để xây dựng lại cảu vào bang cách kết hợp các
thành phần con (các phằn phủ) tuơne ÚT12 với càu vào từ các ví dụ.
- Một thuật toán chuyển đồi và kết hợp từ các thành phần dịch trons các ví
dụ đế tạo ra câu đích.
Tiếp cận dịch dựa trèn ví dụ có nhiều ưu điềm và thực nehiệm cho thâv kết quà
khá tốt. tuy nhiên chi trons phạm vi hạn chế. Điểm mạnh của nó là tránh được xây
dựns luật chuvền đổi một cách thủ công, thứ hai là cỏ thể đạt được chất lượng dịch
cao nèu câu càn dịch 2ân sùi với các ví dụ. Tuy nhièn các hệ thònơ theo tiêp cận
này vẫn đòi hỏi các thành phàn phàn tích và sinh đê sản xuất ra cấu trúc phụ thuộc
cho dừ liệu ví dụ, và duns đê phàn tích càu vào. Một vân đê nữa mà tiẻp cận này
gặp phái là thời gian tính toán quá lâu do câu vào phải được đôi sánh với tàt cả các
mẫu tronơ ví dụ.
2.1.4 Tiep cận xây dựng hệ thông dịch của chúng tôi
rỏm lại. có hai ticp cận chính dê giãi quyêt bài roán dịch máv là liẻp cận dựa
irèn luật mà điên hinh nhàt là phươrm pháp dịch chuyên đòi và tiẻp dựa trèn
corpus mà tiêu biêu là hai phương pháp dịch dựa trẽn ví dụ và dịch thònơ kẻ. Mỗi
phươns pháp dẽu có nhữnư điỏm mạnh và nnửrm nhược điẻm riêng. Tiẻp cận dựa
trên luật thè hiện tính tòna quát hoá của các qui rác nsòn n2ừ. nhimơ làm này sinh
nhièu nhập nhẳns và khó khăn trone xử lý một sô hiện tượns nsỏn naử. Trong khi
tiẻp cận dựa trèn corpus, đo khai thác nhửrm két quà dịch trẻn một sò lượns lớn
các ví dụ nèn sẽ cho kết quà tòt néu gặp những càu có nhiẻu tiromơ đông với tập
huân luvện. và như vậv siài quvèt được nhièu trương hợp cụ thê cua ngòn ngừ.
Tuy nhièn đặc đièm này sẽ khòns còn ưons trươnơ hợp dữ liệu thưa. Mặt khác khi
chúng ta cẩn dịch nhừnơ mién dừ liệu mới. hệ thônơ dựa trẽn corpus phải được
huấn luyện lại trèn tạp dừ liệu mới.
Vì nhừns đặc điẻm đó mà da sô các hệ thònơ dịch thương mại hiện nav vần có

nhiên, thỏns tin quan trọng thường phàn bô không đồng đểu ở các càu, ví dụ nội
dung chính của một văn bản thường xuyèn được mô tà ở các câu đầu tiên. Trước
khi đi sâu vào chí tiết phằn nghiẻn cứu trong đê tài này, chủnơ tôi trinh bày một
cách tóm tắt nhất về các thè loại văn bản và các cách tiêp cận tóm tắt vân bản gần
đây (xem chi tiết trong (Mani và Maybury, 1999), (Neggemeyer, 1998)).
Tóm tãt biẻu lộ [indicative summaries) cuno càp một hướns nshiẻn cứu về sự
mỏ tả nội duns của văn bản mà khòng đòi hỏi sự chuyèn đôi vê các nsừ cảnh xác
14
định. Trong khi đó tóm tăt cung cap (informative summaries) một phiên bản ngăn
hơn của nội dung vãn ban. Cuối cùng, tóm tất dựa ưẻn cảu hỏi tập trung vào mục
đích của người đọc để xác định nội dune bản tóm tất.
Trích lọc íextraction) là một quá trinh xác định các yèu tô quan trọng càu
thành nèn một văn ban cho trước, abstraction là quá trinh biểu diễn vãn ban vơi
khuôn dạng cô đọng trong khi vẫn chuyền tải được nội dung chính của vãn bản.
Tóm tăt văn bàn là một vấn đề hết sửc khó khăn bời nó vêu cầu phải hiẻu cả nội
dung của vãn ban và những thong tin liên quan đến vẩn đề naừ nshĩa. tu từ học.
quan hệ giữa các câu trong một đoạn ván cho trước.
2.2.2 Tóm Trích lọc (extraction)
Tronơ các phươna pháp trích lọc văn ban. trích lọc càu được sư dụng đẻ xác định
các càu hay mệnh dẻ quan trọns nhàt tronơ một vãn ban hay một tập các văn ban.
Các phươnơ pháp nshien cứu trước đây vẻ tóm tăt vãn bán có thẻ được chia thành
các hướne chính sau đây:
a) Phương pháp heurisctic
Dựa trẻn vị trí: Phương pháp đơn 2Ìàn nhàt là dựa trên vị trí với quan niệm
rune các càu xuàt hiện ơ đâu vãn bàn thườna quan trọne hơn những càu
xuàt hiện ơ ỉiiừa hay ừ cuỏi cùng cua văn ban. Với phươníi phap nàv. cách
tóm íãt Jon iiãn nhàt dô tạo ra một ban tóm tãt là chunn ta chọn ra nhừns
càu đâu tièn irons vãn ban tùv theo kích ihươc và <JỘ dãi ìnona muòn cua
ban tóm tất. VIặc dâu hiệu nãne cua phươnư phap này thav đôi ràt nhiêu
theo kiểu cua vãn ban (văn ban khoa học, tin tưc. V.V.). tuv nhiên nó iuòn

xảy dựns các luật cho việc phân lớp kè trẻn. Các phươns pháp học máy đà được
áp dune thành cõng cho việc tóm tãt vãn ban bao gòm mans Bayes, support vector
machines, maximum entropy models, v.v.
2.2.3 Tóm tắt cô đọng (abstraction)
Các nghiên cứu sần đây đã tập trung vào các van đề về sinh càu tronơ tóm tẳt
vãn bản. Kỹ thuật sinh càu được xem như là chìa khóa đẽ có thề thu được một hệ
tóm tắt văn bản đúnơ naử pháp và bô cục chặt chẽ. Trong khi xây dựng một bản
tóm tắt cô đọns là một còng việc hết sức khó khăn, các phương pháp sinh câu ở
mức đơn giản horn đã thu được những kẽt quả nhât định. Các phương pháp sinh
câu ở đây bao gòm:
a) Rút gọn cảu
Đe tích hợp các kv thuật sinh cảu vào vẩn đề tóm tất vãn bàn, nhiều phương
pháp đã được nơhiẻn cứu. Trước hết, Jing (Jing, 2002) mô tả một phương pháp
tóm tẩt vãn bản dựa trẻn các kỹ thuật cãt và dán, trong đó một vài phép toán cat
dán bao 2ồm rút gọn. kết hợp. và đồng nghĩa đã được sử dụng như là nhừng kỷ
thuật chinh cho việc nàng cao chât lượng của một hệ tóm tăt văn bản. Knight và
Marcu (Knisht và Marcu. 2002) cùng trình bày một phương pháp rút gọn câu khác
16
trong đó bài toán rút gọn câu được mô tả như một dãv các phép toán nhàm chuyến
đôi câu thành câu ngăn hơn.
Trong báo cáo này, việc rút gọn câu được xem như là một nhiệm vụ chính,
trong đó chúne tôi đề xuất một phươne pháp rút ơọn càu mới là một phươne pháp
mờ rộng của Knight và Marcu (2002), cho phép rút 2ọn càu với độ chinh \íc cao
2.3 Kết luận chương
Trong chươnơ này, ờ phần đầu (mục 2.1) chúnơ tòi đã giới thiệu tổn2 quan về
dịch máv. sau đó chúnơ tòi đã đề cập đến tiếp cận xàv dims hệ thốrm dịch của
mình, đó là một hệ thòng dịch chuyển đối giàu tri thức trong đó tims mòđun có thè
là (iựa trên luật hoặc học máy. Chương 3 sẽ mò tả kỹ hơn về hệ thốrm dịch này. ơ
phàn sau (mục 2.2) chủns tòi đã 2ĨỚĨ thiệu tònơ quan vẻ tòm tăt vãn ban tronơ đó
đáng chú V là hai kiêu tóm tăt văn bản: tóm tat trích lọc và tóm tất cô đọne.

nsừ nehĩa sẽ xử lý nhập nhàns nsử nơhĩa băne cách lựa chọn nơhĩa đúng hay loại
bo các nghĩa khòns thích hợp cho các từ trong cảu. Cưòi cùng lả bước sinh càu
tiếng Việt. Cơ sở tri thức của hệ thốnơ này khá đa dạns với hai phần chính là từ
điển sons nsòr Anh-Việt và bộ luật củ pháp tièng Anh.
18
3.2 Từ điển song ngữ
Từ điển song ngừ là cơ sờ dừ liệu rất quan trọng cùa một hệ thống dịch chuyển
đồi. Từ điển này là từ điển dịch máy và khác với từ điển điện tử thône thườns
dùng cho con người. Nó bao gồm rất nhiều loại tri thức từ vựns; như hinh thái, cú
pháp và naừ nghĩa. Mỗi tư đẻníi Anh có một mục từ tươii2 ứna tron li lừ diên. Mục
từ chứa các thông tin vê hình thái, từ loại, luật củ pháp đi với từ. phản loại nsừ
nahĩa. nghĩa tiênơ Việt. Dưới đây là hình chụp Cỏn2 cụ soạn thảo từ điển của
chúng tôi:
FBEE
Pile 6úit '.V * Toots rtto
íri

«ou-
iWord 4 Rule ot Wofd
•felt ‘tjraora
Contertf ,r"** I Find I
Tyoe r> the keypad to
latie
Harted
i(«mg
Ị' jếc* m joe
'■9ÉQI oece
I f*ểo«*<3
1 'oểmeii
'lAÉOirNg

OJCE Diacr
-UTX i kjOJC
aiot i àjoK ai iC o i
■ưx ỉtU l _uc
UKC ÌHH jne t3 í«n
•JJX oa iC b '
■c nkra Ui
JLTX i j f i XI
UET — iiiC.
tLKt rccto
1 « rcorosca-a
-'Ui'?
<Syntaxruie>
ĩoncọt =t3ké "íẮcrc.
</Synraxruie>
<Pnor>
</Pnor>
<Transferrule>
:5? ttiO dóc''
< u ran sterrulo
/RUớ->
Mcic.
'3awẾ' 1
a*mniz22T
' 1ÍY
'rời rõ ''
'<ửi itTÍQoáacũD '?
* ỉ i n */1 n r n n '
ỉia VS1 kn cnia cBo '4
‘a i u pr.\r. ió a ve sua''

ứng trực tièp giữa dạng từ vựnơ của nó và chính từ đó. hay còn 2ỌÌ là dạnư bên
dưới và dạne bề mật. Đây cùng chính là lý do vi sao mò hinh này dược gọi là mò
hình hai mức. Ví dụ. từ chased dược xem như !à biêu diễn hai mức sau:
Dạno bèn dươi: chas e ^ ed
Dạne bè mặt: chas 0 0 ed
Trorm đó kí hiệu - là biên của hình vị. 0 là kí hiệu cho kí tự tròng.
Một bộ phàn tích hình thái theo mỏ hình hai mức có hai thành phàn dừ liệu chinh
là thành phần luật và thành phàn từ diên. Thanh phàn luật bao 2ÒIĨ1 các luật hình
thái hai mức. thành phàn từ điẻn bao £ỏm tât cả các hình vị ( từ «ốc và phụ tố). Bộ
phàn tích có hai hoạt động là "sinh đạnơ” từ (Generator) và "nhận dans” cừ
(Recognizer). Hoạt độna sinh dạng từ sẽ chàp nhận đâu vào là một khuòn dạns tư
vựnơ, hay là dạns bèn dưới và tra vè dạnơ bẻ mặt của nó. ví dụ: nhận vào spv - s
và trả về spies. Trong khi hoạt độns nhận dạne có đâu vào là dạns bè mặt và trả về
dạng từ vun2 bèn đưỡi. ví dụ: nhận vào spies và trả vẻ spv - s. và kèt qua nàv có V
nghĩa như Danh từ - sỏ nhiều. Sơ đồ các thanh phàn của một bộ phân tích hình
thái hai mức như ở hinh 2.3. Chi tiẻt vé khuòn dạnơ luật hinh thái hai mức và các
kỹ thuật được sử dụng trong phàn tích hình thái hai mức xin xem trono I Graeme.
1992).
:o
Rules
Lexical
input : spies
Recogniser
oulpul: spv-s
ouput : spies
Generator
input: spv + s
Hinh 3.3 Sơ đô các thành phản cùa một bộ phàn tích hình thái hai mức
3.4 Gán nhàn từ loại
Giai đoạn này còn gọi là xử lý nhập nhẩng từ loại. Có nhiều cách để giải quyết

xác của phân tích cú pháp lại khòna cao.
Thứ hai là tiếp cận học máy hay còn 2ỌÌ là tiếp cận dựa trẽn corpus (Manning
và Schutze, 1999). Tiếp cận này khai thác các kỹ thuật trons lĩnh vực học máy hay
xác suẩt thống kẻ như cây quyết định, HMM. ME, v.v. Tiếp cận này chi yêu cầu
tài nsuvèn là corpus, có thẻ dã được gán nhãn hoặc chưa. Nhìn chunơ việc xảy
dựn
2 corpus ít tốn kém hơn xày dựns bộ luật cú pháp, hơn nữa nó có thẻ dược sử
dụne dê nshièn cứu nhièu mô hinh phàn tích khác nhau.
Tiẻp cận thứ ba có thẻ kê đên là incremental parsing. Lây ví dụ phưcms pháp
incremental deep parsing chia quá trình phàn tích cú pháp ra thánh nhiêu siai
doạn. bẳt đẩu là phản tích hình thái, ròi dẽn xử lý nhập nhăna từ loại, nhận dạng
thực thẻ tên. phàn tích cú pháp nònơ ròi cuòi cùns mới là phàn tích cú phap. Từnu
mỏ đun là dộc lập với nhau, có thè mô đun 2án nhãn từ loại là dựa tròn luật (CG
chảna hạn) nhưns IT1Ỏ đun nhận dạne thực thẻ tẻn lại lã HMM. v.v. Nhiêu bộ phàn
tích cu pháp rất mạnh dược xâv dựns theo tièp cận này.
Chúng tòi thực hiện tièp cận dựa trên luật. Thuật toán phàn tich cu phap dược
chung tôi sử duns là Earlev (Jurafskv và Martin. 2000), một thuật toan phàn tích
cú phap dựa vào bans hiệu quá. Hai vàn đc khó của phàn tích củ pháp là nhập
nhăns cú phap và thiếu luật. Nhập nhầns cú pháp dược xử lý bans cách sư dụng
một số heuristics như ưu tiẻn từ vựng, liên kẻt tòi thiêu, ưu tiên quan hẻ nsữ phap.
Trons đó dừ liệu về quan hệ nsữ pháp được rút ra từ các corpus lớn. Vàn đề thiêu
luật dược xử lý bans cách phàn tích sần đúnơ. muỏn vậy mọi thành phàn cú pháp
tronư càu đều được phàn tích sau đó chọn ra các thành phàn tòt nhài phu lèn Làu
vào. Dưới dây là hinh chụp một cày cú pháp:
Input sentence: He has a lot of books
Syntax tree:
-> $s
I—> SSI
I—> NULL
I—> SSubj

- Thử nhất là khi đã được xử lý ngừ nghĩa, mỗi một từ vựnơ được xác định một
phản loại và một nghĩa duy nhàt ưong tiếng Anh thì nỏ vẫn còn cỏ thẻ có nhièu
khả năng tương ứng trong tiếng Việt. Ví dụ như danh từ bank với nghĩa là
"mound" thì tương ứng với nó ưong tiếng Việt vẫn bị nhập nhàns bởi bờ,
đỏng, bãi, . . .
- Thứ hai là khi muốn áp dụng các kết quả xử lý nsữ nshĩa trên tiếns Anh thì
chúnơ ta phái xây dựng một từ điến dịch Anh - Anh - Việt với mỗi một n2hĩa
(sense) trons tiẻnơ Anh phải được dịch tươns ứns với các trườns hợp trone
tiêng Việt. Trong khi các từ diên của chúns ta hiện nav không có sự đối sánh
tươns ứng này. Mặt khác sự đối sánh về mật nsừ nshĩa này nhièu khi khòng
tương ứng. ví dụ như một nsữ nehĩa xác định trong tiếna Anh lại có thẻ tươnơ
ime với nhiêu n«ừ nshĩa trons tiẻns Việt và ngược lại.
Chính hai lý do trèn và muôn khône phải bò quá nhiỏu côna sức đê xâv dựng lại
một từ diên tươns úm 2 n2ử niihĩa Anh - Việt như vậy mà chúns tòi nìihiên cứu xứ
lv nhập nhãns naừ nshĩa trons các hệ thôn2 dịch tự độns Anh - Việt theo hưcms
từ một từ \ựniì dà dược xác định phàn loại chún2 ta có thê xác định !uòn imử
nizhTa cua từ đỏ (mà chính xác hơn là từ dịch tươne ứns) trona tiẽna Việt dựa vào
nuử canh ma khonsz qua việc xác định n«ừ nơhĩa trons nsòn n
2ữ nuuỏn.
Nhấc lại rẩrm cỏ hai tiếp cận chính tron" dịch máy là tiẻp cận dựa trèn luật và tièp
cận thống kè. Tuy nhiên các hệ thông dịch máv hiện nav đêu khònsĩ được thièt kè
thuần túy theo một tiếp cận nào cả. Đe bỏ suns các điẻm mạnh của cà hai tiẻp cận.
các hệ thốns dịch máv hiện nay đều là các hệ thòns lai. phàn tích n2Òn ngừ nsuòn
dựa trẽn các luật hình thái, cú pháp, nsừ nghĩa và áp dụng phương pháp thòng kè
trons xử lý nhập nhẳnơ. Sau đâv chúng tôi trinh bày một sơ đô tỏna quát của một
hệ dịch máy. mà chi tiết hơn vào phần xử lý nhập nhăng ngừ nghĩa:


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status