Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
MỤC LỤC
MỤC LỤC............................................................................................................ 1
MỞ ĐẦU .............................................................................................................. 3
Chương 1: TỔNG QUAN................................................................................... 5
1.1
Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval): ..............5
1.2
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR):...............................9
1.2.1
Khái niệm:................................................................................................9
1.2.2
Các vấn đề của CLIR:...........................................................................10
1.3
Các hướng tiếp cận:......................................................................................11
1.3.1
Giới thiệu về MRD (Machine Readable Dictionary).................................35
2.1.1
Sơ lược lịch sử phát triển MRD trên thế giới:....................................35
2.1.2
Vai trò và cấu trúc của MRD:..............................................................39
2.1.3
Khai thác tài nguyên từ điển:...............................................................41
2.1.4
Xây dựng từ điển tự động:....................................................................42
2.1.5
Cấu trúc vĩ mô và vi mô của từ điển MRD:........................................43
2.1.6
Một số từ điển MRD: ............................................................................43
2.2
Các phương pháp tách từ: ...........................................................................51
3.1.1
Phát biểu bài toán: ................................................................................72
3.1.2
Mô hình hệ thống: .................................................................................72
3.1.3
Phát sinh quản lý:..................................................................................73
3.2
Phân tích – thiết kế hệ thống:......................................................................76
3.2.1
Mô hình Usecase:...................................................................................76
3.2.2
Đặc tả usecase:.......................................................................................77
3.2.3
Sơ đồ tuần tự: ........................................................................................78
3.2.4
Cài đặt:.........................................................................................................112
4.1.1
Tiền xử lý: ............................................................................................112
4.1.2
Cấu trúc dữ liệu:..................................................................................112
4.1.3
Dịch từ từ điển:....................................................................................113
4.1.4
Khử nhập nhằng :................................................................................113
4.1.5
Tìm kiếm: .............................................................................................116
4.2
Thử nghiệm:................................................................................................117
4.2.1
Module dịch và khử nhập nhằng:......................................................117
5.2.2
Đối với IR Engine:...............................................................................123
5.2.3
Mở rộng ngôn ngữ tìm kiếm cho hệ thống: ......................................124
PHỤ LỤC ......................................................................................................... 125
TÀI LIỆU THAM KHẢO .............................................................................. 132GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
2
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
MỞ ĐẦU
Với sự phát triển nhanh chóng của công nghệ tin học, khối lượng thông tin được lưu
trữ trên máy tính ngày càng nhiều. Vì vậy cần có các hệ thống tìm kiếm thông tin
(Information Retrieval) cho phép người dùng tìm kiếm một cách chính xác và nhanh
nhất các thông tin mà họ cần trên kho tư liệu khổng lồ này. Hơn nữa, trong xu thế toàn
cầu hóa như hiện nay, rất nhiều các tổ chức, các công ty quốc tế hình thành, lại xuất
hiện một nhu cầu mới trong việc tìm kiếm thông tin đó là tìm kiếm thông tin đa ngữ để
người dùng có thể khai thác một cách hiệu quả nhất kho tài liệu đa ngữ mà họ có. Một
ví dụ cụ thể về kho tư liệu đa ngữ là Internet. Các trang Web bằng nhiều ngôn ngữ
khác nhau xuất hiện ngày càng nhiều, trong khi các công cụ tìm kiếm đơn ngữ (search
engine) chỉ có thể trả về các tài liệu được viết cùng ngôn ngữ với ngôn ngữ của câu
•
Chương 1 – TỔNG QUAN : giới thiệu tổng quan về hệ thống tìm kiếm
(IR), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR), các hướng tiếp cận
và các vấn đề cần giải quyết của hệ thống.
• Chương 2 – CƠ SỞ LÝ THUYẾT: trình bày cơ sở lý thuyết và các
phương pháp đã nghiên cứu trong luận văn.
• Chương 3 – PHÂN TÍCH VÀ THIẾT KẾ: phân tích và thiết kế hệ
thống.
• Ch
ương 4 – CÀI ĐẶT VÀ KIỂM TRA: cài đặt, kiểm thử chương trình.
• Chương 5 – KẾT LUẬN và HƯỚNG PHÁT TRIỂN: trình bày các kết
quả đạt được, các đánh giá về hệ thống và hướng phát triển trong tương lai.
• Phần TÀI LIỆU THAM KHẢO và PHỤ LỤC: trình bày các thông tin có
liên quan được sử dụng trong luận văn.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
4
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Chương 1: TỔNG QUAN
Trong chương này, chúng tôi sẽ trình bày khái quát về các hệ thống tìm kiếm
(Information Retrieval), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (Cross-Language
Information Retrieval) và một số khảo sát về tình hình nghiên cứu trong và ngoài
nước. Cuối chương chúng tôi sẽ rút ra kết luận chung và lựa chọn hướng tiếp cận cho
hệ thống của mình. Nội dung trình bày bao gồm:
9 Giới thiệu mô hình tìm kiếm thông tin.
9 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ.
9 Một số công trình nghiên cứu trong và ngoài nước.
9 K
ết luận.
ễn giải).
Để giải quyết vấn đề này hệ thống đã tạo ra các hàm biểu diễn xử lý các câu truy vấn
và các tài liệu một cách khác nhau để đạt đến một độ tương thích nào đó.
d
Hàm biểu diễn
câu truy vấn
Không gian
biểu diễn
R
[
0,1
]
Xử lý của con người
j
Hàm biểu
diễn tài liệu
Câu truy vấn
Biểu diễn 2
Tài liệu
c
Hàm so sánh
xếp. Mô hình trên đây có thể mô tả cả 2 cách tiếp cận. Trong hệ thống tìm kiếm dựa
trên so khớp chính xác, miền giá trị của c được giới hạn từ 0 đến 1, và nó được chuyển
sang nhị phân để quyết định liệu 1 tài liệ
u có thỏa biểu thức bool được xác định bởi
câu truy vấn hay không? Các IR dựa trên so khớp chính xác thường cung cấp các tài
liệu không sắp xếp thỏa câu truy vấn của người dùng, hầu hết các hệ thống tìm kiếm
hiện nay đều dùng cách này. Cách hoạt động chi tiết của hệ thống sẽ được mô tả ở
phần sau.
Đối với hệ thống IR dựa trên sắp xếp, thì các tài liệu sẽ được sắp xếp theo th
ứ tự giảm
dần về mức độ liên quan. Có 3 loại hệ thống tìm kiếm dựa trên sắp xếp: “ranked
Boolean”, “probabilistic” và “similarity based”. Trong 3 cách trên miền giá trị của c là
[0,1], tuy nhiên chúng khác nhau ở cách tính “giá trị trạng thái tìm kiếm” (“retrieval
status value”):
• Trong hệ thống dựa trên “ranked Boolean” giá trị này là mức độ mà
thông tin thỏa mãn biểu thức bool được chỉ ra bởi các thông tin còn lại.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
7
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
• Trong hệ thống dựa trên “probabilistic” , khái niệm này hơi khác một
chút, giá trị này là xác suất mà thông tin có liên quan đến một câu truy vấn. Rất
nhiều hệ thống tìm kiếm dựa trên xác suất được thiết kế để chấp nhận câu truy
vấn được diễn tả bằng ngôn ngữ tự nhiên hơn là một biểu thức bool.
• Trong hệ thống tìm kiếm dựa trên sự giống nhau, giá trị trạng thái tìm
kiếm được tính bằ
ng cách tính mức độ giống nhau của nội dung thông tin.
Trong các hệ thống tìm kiếm dựa trên so khớp chính xác, việc đánh giá hệ thống chủ
yếu dựa trên việc đánh giá mức độ liên quan. Giả sử j là giá trị nhị phân và được cho
=Re
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
8
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Bảng 1.1: Tính độ hiệu quả của hệ thống tìm kiếm thông tin
Việc đánh giá tính hiệu quả của hệ thống tìm kiếm dựa trên sắp xếp thì phức tạp hơn.
Một cách tính độ hiệu quả phổ biến cho các hệ thống này là “độ chính xác trung bình”.
Nó được tính bằng cách chọn một tập lớn hơn các tài liệu ở đầu danh sách có giá trị
bao phủ giữa 0 và 1. Phương pháp thường được sử d
ụng là phương pháp tính dựa trên
5, 7, 11 điểm theo độ bao phủ. Độ chính xác sau đó sẽ được tính cho từng tập một. Qui
trình sẽ được lặp lại cho từng câu truy vấn, và tương ứng mỗi độ chính xác trung bình
sẽ cho một độ bao phủ. Mỗi giá trị trung bình của những số này sau đó sẽ được tính
toán và ghi nhận như là một đặc trưng của hệ thống. Độ chính xác trung bình càng lớn
thì càng tốt, và việc so sánh chỉ thực sự có ý nghĩa khi chúng ta sử dụng cùng một tập
tài liệu và câu truy vấn. Tuy nhiên độ chính xác trung bình cũng làm giảm đi mức độ
thay đổi của các câu truy vấn có các đặc tính khác nhau (ví dụ như số lượng tài liệu có
liên quan khác nhau). Hơn thế nữa, các tài liệu có liên quan thường tập trung ở đầu
danh sách sắp xếp nên thông thường độ chính xác sẽ giảm mỗi khi tập tài liệu được mở
rộng để tăng độ
bao phủ.
1.2
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR):
1.2.1 Khái niệm:
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR) là hệ thống tìm kiếm (IR) cho
phép người dùng nhập câu truy vấn bằng một ngôn ngữ để tìm kiếm các tài liệu trong
của các hệ thống dịch máy . Hệ thống CLIR có thể loại bỏ một vài cách dịch và giữ lại
một số khác bằng cách khử nhập nhằng. Tuy nhiên, việc giữ lại một số cách dịch nhập
nhằng giúp cho hệ thống tìm kiếm gia tăng độ bao phủ của nó.
Vấn đề thứ
ba của CLIR có liên quan đến cách xử lý các bản dịch tương đương, là điều
giúp chúng ta phân biệt CLIR với dịch máy và tìm kiếm thông tin đơn ngữ. Giả sử
rằng câu truy vấn ban đầu có hai từ phân biệt. Nếu từ đầu tiên có thể được dịch sang
nhiều cách khác nhau, và nếu từ thứ hai chỉ có thể được dịch sang một cách duy nhất,
thì hệ thống tìm kiếm sẽ không tăng trọng số cho từ đầu tiên, bởi vì nó có nhi
ều lựa
chọn khi dịch. Điều này minh họa cho vấn đề tính trọng số của các cách dịch, đặc biệt
là đối với hệ thống CLIR. Một tài liệu chứa một cách dịch của mỗi từ trong câu truy
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
10
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
vấn có thể sẽ có độ liên quan nhiều hơn một tài liệu chứa nhiều cách dịch khác nhau
của từ đầu tiên trong câu truy vấn nhưng không chứa cách dịch nào của từ thứ hai.
1.3 Các hướng tiếp cận:
Việc phân loại các hướng tiếp cận của CLIR dựa trên phương pháp được sử dụng
trong quá trình chuyển ngữ.
1.3.1 Dịch máy (Machine Translation for Text Translation):
Giữa tìm kiếm xuyên ngữ và dịch máy hoàn toàn tự động có mối quan hệ gần gũi.
Hình 1.2 minh họa cách dịch tự động hoàn toàn và hỗ trợ dịch máy có thể được tích
hợp trong hệ thống tìm kiếm xuyên ngữ. Với một hệ thống như thế, các câu truy vấn
có thể được dịch sang bất cứ ngôn ngữ nào mà người dùng thấy cần thiết, và các tài
liệu sẽ được trả về bất cứ ngôn ng
ữ nào. Nếu cần, việc dịch máy hoàn toàn tự động có
một hệ thống được nhúng vào hàm biểu diễn câu truy vấn q.
Tuy nhiên, độ hiệu quả sẵn có của dịch máy đã trở thành vấn đề tranh luận khi một hệ
thống dịch được nhúng vào d, bởi vì thông thường d cần phải được cung cấp cho một
s
ố lượng rất lớn các tài liệu. Hơn nữa, một vài công việc do hệ thống dịch máy thực
hiện không mang lại sự cải tiến nào cho tính hiệu quả của việc tìm kiếm văn bản.
Chẳng hạn như, việc dịch văn bản đòi hỏi phải lựa chọn thứ tự của các từ và thêm vào
các từ có quan hệ gần
1
trong ngôn ngữ đích. Nhưng cả hai đặc tính này thường bị bỏ đi
bởi q và d.
Thật vậy, một vài công việc do hệ thống dịch máy làm thật sự làm giảm tính hiệu quả
của việc tìm kiếm văn bản. Vì trong các ngôn ngữ khác nhau nghĩa của từ sẽ không
được nhóm theo cùng một cách, nên các hệ thống dịch máy luôn cố gắng đạt được
nghĩa dịch tốt nhất cho từ khi t
ừ có nhiều nghĩa. Theo phân tích này thì một nghĩa đơn
sẽ được chọn cho mỗi từ đa nghĩa. Tuy nhiên, trong một hệ thống tìm kiếm, q và d có
thể được thiết kế để ngăn chặn những thông tin không chắc chắn và c có thể được thiết
kế để tận dụng những thông tin đó trong việc cải thiện tính hiệu quả.
Những nghiên cứu này cho thấy rằng khi thiế
t kế các hàm q và d cho hệ thống tìm
kiếm xuyên ngữ thì kiểu và độ sâu của qui trình có thể được quyết định bởi khả năng
biểu diễn của không gian R để biểu diễn các kết quả của các qui trình và khả năng sử
dụng các thông tin đó của hàm so sánh c. Chúng ta cũng có thể hoặc giới hạn qui trình
của chúng ta bằng khả năng của các kĩ thuật hiện có để sử
dụng thông tin kết quả, hoặc
chúng ta có thể thiết kế các hàm biểu diễn và so sánh mới để tận dụng thông tin mà kĩ
thuật dịch máy có thể cung cấp.
Ưu điểm: các câu truy vấn có thể được dịch sang bất cứ ngôn ngữ nào mà người
1.2 cho thấy một vài kiểu từ điển đồng nghĩa phổ biến được sử d
ụng trong các hệ
thống tìm kiếm xuyên ngữ. Các thông tin chi tiết hơn về từ điển xuyên ngữ sẽ được
trình bày ở phần sau.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
14
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Kiểu từ điển Đặc trưng
Từ điển đồng nghĩa theo
đề tài
Có mối quan hệ kế thừa và kết hợp.
Một cụm duy nhất được gán cho 1 nút.
Danh sách khái niệm Không gian của các cụm từ được chia
thành các lớp khái niệm.
Danh sách các cụm từ Danh sách các từ đồng nghĩa xuyên ngôn
ngữ.
Từ vựng Các cú pháp hoặc ngữ nghĩa mà máy có
thể đọc được (Machine Readable)
Bảng 1.2 Các kiểu từ điển đa ngữ
Kĩ thuật dựa trên từ điển có một số ưu điểm và khuyết điểm nhất định. Vì từ điển có
thể biểu diễn các mối quan hệ giữa các cụm từ và các khái niệm theo cách mà con
người có thể hiểu được, nên việc tìm kiếm thông tin dựa trên từ điển cho phép người
dùng khai thác lợi ích bên trong trong suốt quá trình tìm ki
ếm để hình thành một câu
truy vấn tốt hơn. Hơn thế nữa, vì có một lượng các thông tin quan trọng được mã hóa
trong từ điển, nên ở khía cạnh của một người dùng có kĩ năng, một hệ thống tìm kiếm
dựa trên từ điển có thể là một công cụ rất mạnh. Mặt khác, việc sử dụng từ điển sẽ áp
ng để thay thế mỗi cụm từ bằng lớp khái niệm của nó để
tăng độ bao phủ (dựa trên độ quyết định). Có một hướng tiếp cận phức tạp hơn, gọi là
“mở rộng câu truy vấn” (query expansion) đã sử dụng mối quan hệ giữa các khái niệm
được mã hóa để lựa chọn cụm từ có thể đáp ứng cả độ chính xác và độ bao phủ.
Cả
việc thay thế khái niệm lẫn việc mở rộng câu truy vấn đều thể hiện nỗ lực làm tăng
độ bao phủ bằng cách làm giảm ảnh hưởng của vấn đề diễn giải. Độ chính xác có thể
được tăng bằng cách thêm vào các thông tin về cú pháp và ngữ nghĩa trong từ điển để
làm giảm nhẹ ảnh hưởng của từ đa nghĩa
3
.Ví dụ, trong một hệ thống thông tin có vốn
từ được quản lý thường được cung cấp một từ điển để người dùng có thể chọn ra cụm
từ chính xác một cách thủ công. Một hệ thống tìm kiếm khái niệm có thể sử dụng ý
tưởng này bằng cách đánh thẻ các từ dựa trên từ loại của chúng và sau đó chọn cách
dịch nào có cùng từ loại.
1.3.2.1 Hệ thống vốn từ được quản lí:
Trước năm 1973 người ta cho rằng cả hệ thống vốn từ được quản lý và hệ thống tìm
kiếm khái niệm bằng từ điển đa ngữ đều có thể thực thi xuyên ngữ giống như là việc
thực thi bên trong một ngôn ngữ với cùng kỹ thuật. Trước năm 1977 đã có 4 hệ thống
tìm kiếm xuyên ngữ được thực thi ở châu Âu. Từ các hệ thống này, nổi lên 6 tiêu chí
3
Giải pháp cho từ đa nghĩa thường được gọi là khử nhập nhằng nghĩa của từ
.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
16
Ngày nay các hệ thống tìm kiếm văn bản xuyên ngữ đã được sử dụng một cách rộng
rãi, nhưng hầu hết các hệ thống thương mại đều sử dụng hướng tiếp cận tìm kiếm dựa
trên so khớp chính xác. Các từ điển đa ngữ phức tạp đã và đang được phát triển trong
4
9 ngôn ngữ là: Đan Mạch, Hà Lan, Anh, Pháp, Đức, Hy Lạp, Ý, Bồ Đào Nha và Tây Ban Nha.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
17
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
nhiều ngôn ngữ và lĩnh vực, và các thủ tục dùng để thêm lĩnh vực và ngôn ngữ cũng
được hiểu rõ. Có 3 nhân tố quan trọng khi xây dựng từ điển là : chi phí, những tiện lợi
cho người dùng chưa được huấn luyện, và độ hiệu quả.
Việc xây dựng từ điển là một việc tốn nhiều chi phí. Nhưng việc sử dụng từ điển có
thể tốn nhiề
u chi phí hơn bởi vì trong một hệ thống có vốn từ được quản lí thì mỗi tài
liệu phải được gán các cụm từ phản ánh các khái niệm chứa trong nó. Mặc dù các công
cụ tự động có thể hỗ trợ giúp tăng năng suất của con người nhưng vì các hoạt động
mang tính trí tuệ của con người đòi hỏi việc tái tổ chức và tổ chức thông tin nên chi
phí sẽ vẫn rất cao.
Một giớ
i hạn quan trọng khác của hệ thống tìm kiếm văn bản dựa trên vốn từ được
quản lý, và giới hạn này cũng xuất hiện trong kỹ thuật tìm kiếm văn bản dựa trên so
khớp chính xác, là những người dùng không được huấn luyện dường như sẽ gặp khó
khăn khi khai thác khả năng của từ điển. Những khác nhau quan trọng giữa người
dùng có kĩ năng và người dùng không
được huấn luyện đã được nghiên cứu dựa trên
sự chọn lựa các cụm từ của họ, việc họ sử dụng những mối quan hệ của cụm từ được
mã hóa trong một từ điển, và việc sử dụng các toán tử AND, OR hoặc NOT trong việc
của mình, ông giới hạn trong hai ngôn ngữ là tiếng Anh và tiếng Tây Ban Nha. Các
câu truy vấn tiếng Anh được lấy từ hệ thống TREC với chiều dài trung bình là 10.6 từ.
Các câu truy vấn tiếng Tây Ban Nha cũng được rút trích từ h
ệ thống này với chiều dài
trung bình là 4.3 từ. Việc đánh giá tính hiệu quả dựa trên các tài liệu tiếng Anh nằm
trong tập Tipster (vol. 2) có độ lớn 2GB và tập 208M các bài báo tiếng Tây Ban Nha
của báo “El Norte”. Ngữ liệu huấn luyện dùng cho việc phản hồi trước khi dịch là tập
các bài báo này và tập 301 MB cơ sở dữ liệu tin tức của San Jose Mercury từ tập hợp
Tipster. Toàn bộ câu truy vấn sẽ được thực hiện trên hệ thống INQUIRY. Qua thực
nghiệm L.Ballesteros nhận thấy rằng việc sửa đổi câu truy vấn trước khi dịch tạo ra
một cơ sở quan trọng cho việc dịch và nâng cao độ chính xác; việc sửa đổi câu truy
vấn sau khi dịch dựa trên từ điển máy đọc sẽ nâng cao độ bao phủ của tìm kiếm. Và kỹ
thuật này sẽ hiệu quả hơn đối với các câu truy vấn dài vì các câu truy vấn dài sẽ có
nhiều ngữ cảnh hơn giúp giảm tính nhập nhằng. Kết hợp hai qui trình này giúp tăng độ
chính xác trung bình lên 50%. Điều này cho thấy việc mở rộng câu truy vấn sẽ giúp
gia tăng đáng kể độ hiệu quả của hệ tìm kiếm xuyên ngữ.
1.3.2.3 Mã hóa thông tin ngữ nghĩa:5
Đặc trưng duy nhất của mở rộng câu truy vấn trong truy xuất xuyên ngữ là các cụm từ ban đầu sẽ bị loại ra khỏi
câu truy vấn mở rộng nếu nó không mang cùng một nghĩa trong cả 2 ngôn ngữ
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
19
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Một khía cạnh khác của dự án EMIR[
2
] là việc ứng dụng việc phân rã nhanh nhưng
0.4
0.5
0.6
0.7
0.8
10 20 30 40 50 60 70 80 90
Độ bao phủ
Độ chính xác
EMIR
SYSTRAN
SPIRIT Anglais
Hình 1.3 So sánh tìm kiếm đơn ngữ của SPIRIT, tìm kiếm song ngữ của EMIR và dịch
câu truy vấn của SYSTRAN
1.3.2.4 Đánh giá ưu khuyết điểm:
Ưu điểm :
Tài nguyên từ điển thì phổ biến và sẵn có hơn ngữ liệu song song do đó hướng tiếp cận
dựa trên từ điển có thể được xem là lựa chọn tốt hơn các hướng tiếp cận còn lại. Mặc
dù chiều sâu của từ điển là hạn chế nhưng phạm vi của nó thì đủ rộng để chúng ta có
thể dịch các câu truy vấn thuộ
c nhiều đề tài khác nhau. Mặt khác, hiện nay các từ điển
điện tử là khá phong phú, chúng ta có thể tận dụng nguồn tài nguyên này để cấu trúc
hóa và rút trích các thông tin cần thiết cho từ điển máy đọc dùng trong các hệ xuyên
ngữ.
Khuyết điểm:
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
21
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
=
itermwithdocumentsofNumber
documentsofNumber
idf
i 2
log
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
22
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Kết hợp hai kết quả ta gọi là “tfidf” (term frequency and inverse document frequency -
tần số của từ và tần số tài liệu đảo )
tfidf
ij
= tf
ij
* idf
i
tf
ij
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
ngữ khác, kỹ thuật xây dựng từ điển tự động là một nghiên cứu quan trọng kế thừa từ
ngữ cảnh của tìm kiếm đơn ngữ. Một số lượng đáng kể các nghiên cứu về đề tài này đã
xuất hiện và được công bố trong tài liệu về dịch máy. Ở đây chúng tôi trình bày hai kỹ
thuật để xây dựng từ điển đa ngữ từ khía cạnh tìm kiếm.
Kỹ thuật đầu tiên, người ta đã thực nghiệm trên 1.100 ngữ danh từ lấy từ ngữ liệu song
song của khoảng 1.000 cặp câu dài tiếng Hà Lan và tiếng Anh trong một tài liệu kỹ
thuật
6
. Các ngữ danh từ trong mỗi cặp câu được nhận diện bằng cách sử dụng một thẻ
từ loại thống kê và một bộ parser đơn giản. Các ứng viên dịch cho mỗi ngữ danh từ
tiếng Hà Lan được tạo ra bằng cách so sánh tần số của mỗi cụm tiếng Anh xuất hiện
trong một cặp câu tiếng Anh chứa ngữ danh từ, với tần số mà mỗi từ tiếng Anh xuấ
t
hiện trong toàn tập tài liệu. Một đặc tính khác được thêm vào giúp cho việc ngăn chặn
các chọn lựa ngữ danh từ xuất hiện ở những vị trí liên quan khác nhau trong các cặp
câu.
Các tham số được tìm thấy cho các kết quả trong việc nhận diện các bản dịch đơn
chính xác đến 45%, và nhiều lựa chọn khác mà các lựa chọn này tạo ra một danh sách
các ứng viên của các bản dịch trong đó chứa 66% các bản dịch đơn chính xác. Vi
ệc
dóng câu, đánh tag từ loại và phân rã lỗi chiếm 85% các lỗi, và các nghiên cứu cho
thấy rằng việc chọn lựa chặn trên cho việc biểu diễn kỹ thuật của mình sẽ nâng tỉ lệ
các bản dịch đơn chính xác lên 69% hoặc thêm khoảng 95% các bản dịch chính xác
vào một danh sách. Bởi vì ngữ liệu song song có kích thước nhỏ nên không thể quyết
định việc thực thi của kỹ thuật khi có nhiều hơn một bản dị
ch của cùng một từ xuất
hiện trong ngữ liệu
7
. Kết quả của từ vựng song ngữ không được sử dụng cho việc tìm
tài liệu trong đó được sắp xếp dựa trên m
ức độ giống nhau của câu truy vấn với bản
dịch của những tài liệu theo ngôn ngữ của câu truy vấn. Những tài liệu tiếng Pháp có
thứ tự sắp xếp cao nhất được ghép lại và được dùng như một câu truy vấn cho những
tài liệu tiếng Pháp còn lại. Đây chính là phương pháp phản hồi thích hợp (relevance
feedback). Tương tự cho tài liệu tiếng Anh. Sau đó 3 danh sách đã sắp xếp được nối lại
và hi
ển thị cho người dùng.
Phản hồi thích hợp (relevance feedback) là một kỹ thuật thông thường được dùng
trong tìm kiếm thông tin dựa vào thống kê. Một vector chuẩn hóa tfidf là một xấp xỉ
heuristic cho sự phân bổ mật độ của một từ trong một tài liệu. Theo đó, kết quả bên
trong đã chuẩn hóa chỉ đơn giản là sự tương quan giữa 2 tài liệu mô tả bởi những phân
bổ này. Vì chất lượng của s
ự phân bổ theo Heuristic có thể được cải tiến bằng cách
thêm những giám sát, nên phản hồi thích hợp có thể được xem là cách tiếp cận
heuristic làm mịn hóa những phân bổ không hợp lý trong những câu truy vấn ngắn.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
25