Xây dựng hệ thống tìm kiếm thông tin xuyên ngữ Việt Anh - pdf 14

Download miễn phí Luận văn Xây dựng hệ thống tìm kiếm thông tin xuyên ngữ Việt Anh



MỤC LỤC
MỤC LỤC . 3
DANH MỤC CÁC BẢNG . 5
DANHMỤC CÁC HÌNH VẼ . 6
MỞ ĐẦU . 7
Chương 1: GIỚI THIỆU. 9
1.1 Giới thiệu về tìm kiếm thông tin (Information Retrieval) . 9
1.2 Tìm kiếm thông tin xuyên ngữ (Cross Language Information Retrieval) . 11
1.2.1 Khái niệm . 11
1.2.2 Mô hình chung . 11
1.2.3 Các vấn đề. 12
1.3 Các hướng tiếp cận . 13
1.3.1 Dịch máy. 13
1.3.2 Sử dụng từ điển . 14
1.3.3 Sử dụng ngữ liệu . 15
1.4 Một số công trình nghiên cứu trong và ngoài nước . 16
1.5 Giới thiệu luận văn. 16
Chương 2: CƠ SỞ LÝ THUYẾT. 18
2.1 Giới thiệu về từ điển máy đọc (Machine Readable Dictionary –MRD) . 18
2.1.1 Vai trò của MRD . 18
2.1.2 Sử dụng từ điển . 19
2.2 Các phương pháp khử nhập nhằng . 20
2.2.1 Giới thiệu . 20
2.2.2 Khử nhập nhằng . 20
2.3 Mô hình thống kê . 25
2.3.1 Giới thiệu . 25
2.3.2 Dịch bằng xác suất thống kê . 25
2.3.3 Mô hình ngôn ngữ . 28
2.3.4 Liên kết từ. 28
2.3.5 Mô hình dịch . 29
2.4 Kết luận . 33
Chương 3: CÁC KỸ THUẬT LIÊN QUAN . 34
3.1 Tìm kiếm dựa trên MRD . 34
3.2 Công cụ GIZA++ . 36
3.2.1 Cấu trúc đầu vào của GIZA++ . 36
3.2.2 Cấu trúc đầu ra của GIZA++ . 37
3.2.3 Sử dụng GIZA++ . 37
3.3 Kết luận . 38
Chương 4: CHƯƠNG TRÌNH VÀ KẾT QUẢ THỰC NGHIỆM. 39
4.1 Kiến trúc hệ thống. 39
4.1.1 Từ điển. 40
4.1.2 Thống kê từ ngữ liệu . 41
4.1.3 Chương trình thử nghiệm . 42
4.2 Khai thác ngữ liệu song song . 45
4.3 Kết quả thử nghiệm. 51
4.4 Đánh giá thử nghiệm . 55
4.4.1 Nhận xét việc chuyển ngữ . 55
4.4.2 Đánh giá kết quả thử nghiệm . 57
Chương 5: ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN. 62
5.1 Đánh giá . 62
5.2 Hướng ứng dụng và phát triển . 62
TÀI LIỆU THAM KHẢO . 65



Để tải bản DOC Đầy Đủ xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung:

9
Chương 1: GIỚI THIỆU
Chương này sẽ trình bày khái quát về hệ tìm kiếm thông tin, hệ tìm kiếm thông
tin xuyên ngữ. Giới thiệu các cách tiếp cận của tìm kiếm thông tin xuyên ngữ cũng
như khảo sát về các nghiên cứu trong và ngoài nước trong lĩnh vực này. Nội dung
trình bày gồm các phần:
 Tìm kiếm thông tin.
 Tìm kiếm thông tin xuyên ngữ.
 Các hướng tiếp cận tìm kiếm thông tin xuyên ngữ.
 Các nghiên cứu trong và ngoài nước.
 Giới thiệu về luận văn.
1.1 Giới thiệu về tìm kiếm thông tin (Information Retrieval)
Mục đích của hệ thống tìm kiếm thông tin là trả về các thông tin liên quan nhất
đến nhu cầu thông tin của người dùng. Nhu cầu thông tin của người dùng ở đây có
thể xem như là một câu truy vấn. Thông tin liên quan ở đây có thể là một câu, một
đoạn hay sách, báo… mà ta sẽ gọi chung là tài liệu.
Hệ thống tìm kiếm thông tin thường gặp phải vấn đề sự khác biệt giữa câu truy
vấn và tài liệu. Một ví dụ là câu truy vấn thì ngắn (có thể là chỉ một hay hai từ và
thậm chí các từ này là những từ không thông dụng) trong khi tài liệu thì có thể dài
hàng trăm trang. Một vấn đề khác đó là những từ trong câu truy vấn của người dùng
khác xa với những gì được trình bày trong các tài liệu. Đây chính là vấn đề về diễn
giải. Để khắc phục vấn đề này các hệ thống tìm kiếm thông tin thường tạo ra các
hàm biểu diễn để xử lý câu truy vấn và tài liệu khác nhau để đạt được dạng biểu
diễn tương quan.
10
Hình 1.1 Mô hình hệ thống tìm kiếm thông tin
Hình 1.1 minh họa quá trình biểu diễn thông tin và so sánh các dạng biểu diễn của
hệ thống tìm kiếm thông tin. Một hệ tìm kiếm thông tin lý tưởng là các kết quả của
hàm so khớp hoàn toàn phù hợp với sự đánh giá của con người về mức độ liên quan
của câu truy vấn và tài liệu.
Một qui trình tìm kiếm thông tin thường diễn ra như sau:
 Người dùng muốn xem tài liệu liên quan đến một chủ đề nào đó.
 Người dùng cung cấp thông tin về chủ đề đó dưới dạng câu truy vấn.
 Từ câu truy vấn này hệ thống sẽ tự động tạo ra các cụm từ chỉ mục.
 Các cụm từ chỉ mục này sẽ được dùng để so khớp với các từ chỉ mục của tài
liệu đã được xử lý trước.
Hệ thống sẽ trả về các tài liệu được đánh giá là liên quan nhất với câu truy vấn (thông
qua bước so khớp trên) cho người dùng.
Hàm biểu diển
tài liệu
Hàm biểu diển
câu truy vấn
Câu truy vấn Tài liệu
Biểu diễn của
câu truy vấn
Biểu diễn của
tài liệu
Hàm so khớp
11
1.2 Tìm kiếm thông tin xuyên ngữ (Cross Language Information
Retrieval)
1.2.1 Khái niệm
Hệ thống tìm kiếm thông tin xuyên ngữ (CLIR) là hệ thống tìm kiếm thông tin
mà cho phép người dùng sử dụng câu truy vấn bằng một ngôn ngữ để tìm kiếm các
tài liệu liên quan ở một ngôn ngữ khác. Đối tượng sử dụng hệ thống tìm kiếm thông
tin xuyên ngữ là:
 Những người có khả năng đọc các tài liệu tiếng nước ngoài, nhưng gặp khó
khăn khi tạo câu truy vấn bằng ngôn ngữ đó.
 Những người gặp khó khăn khi đọc hay tìm kiếm các tài liệu tiếng nước
ngoài có thể sử dụng hệ thống tìm kiếm xuyên ngữ sau đó sử dụng dịch máy
để có thể đọc được các tài liệu do hệ thống trả về.
 Những người biết các từ khóa hay cụm từ tiếng nước ngoài, và muốn đọc
các tài liệu có liên quan với những từ khóa hay cụm từ đó bằng ngôn ngữ
bản xứ.
1.2.2 Mô hình chung
Vì câu truy vấn của người dùng và các tài liệu được tìm kiếm là hai ngôn ngữ
khác nhau nên hệ thống tìm kiếm xuyên ngữ bao gồm hai quy trình đó là: quy trình
chuyện ngữ và quy trình tìm kiếm theo mô hình tìm kiếm của các hệ tìm kiếm đơn
ngữ.
Có hai cách thực hiện các quy trình trên:
 Thực hiện việc chuyển ngữ câu truy vấn sang ngôn ngữ cần tìm kiếm. Sau đó
thực hiện tìm kiếm đơn ngữ trên câu truy vấn vừa dịch.
 Thực hiện việc tìm kiếm đơn ngữ trên ngôn ngữ của câu truy vấn, sau đó
thực hiện chuyển ngữ trên các tài liệu nhận được.
12
1.2.3 Các vấn đề
Trong các hệ tìm kiếm xuyên ngữ câu truy vấn và các tài liệu được tìm kiếm ở
hai ngôn ngữ khác nhau do có cần thực hiện hai qui trình khác nhau trong tìm
kiếm xuyên ngữ: đó là chuyển ngữ và tìm kiếm thông tin đơn ngữ. Do đó một hệ
tìm kiếm thông tin xuyên ngữ cũng phải giải quyết cùng các vấn đề như một hệ tìm
kiếm thông tin đơn ngữ, bên cạnh đó hệ tìm kiếm thông tin xuyên ngữ còn phải giải
quyết các vấn đề phát sinh do qui trình chuyển ngữ gây ra.
Quá trình chuyển ngữ, hay còn có thể gọi là quá trình dịch đã làm phát sinh
nhiều vấn đề trong các hệ thống tìm kiếm thông tin xuyên ngữ. Vấn đề đầu tiên là
cách biểu diễn của một từ trong ngôn ngữ này sẽ được viết như thế nào trong ngôn
ngữ khác. Vấn đề thứ hai là làm sao chọn được cách dịch nào sẽ được giữ lại khi
một từ có nhiều cách dịch sang ngôn ngữ khác. Vấn đề thứ ba là nếu có nhiều bản
dịch được chọn, làm sao xác định được tầm quan trọng khác nhau giữa các bản dịch
này.
Hai vấn đề đầu tiên, làm sao để dịch và làm sao để loại bỏ bớt bản dịch, là các
vấn đề giống như vấn đề của các hệ thống dịch máy. Tuy nhiên không giống các hệ
thống dịch máy cần có những bản dịch chính xác, các hệ thống tìm kiếm xuyên
ngữ có thể giữ lại một số cách dịch và loại bỏ một vài cách dịch khác bằng cách khử
nhập nhằng. Việc giữ lại nhiều hơn một cách dịch giúp cho hệ thống tìm kiếm gia
tăng độ bao phủ của nó.
Vấn đề thứ ba của hệ tìm kiếm xuyên ngữ có liên quan đến cách xử lý các bản
dịch tương đương để đánh giá mức độ quan trọng của các bản dịch này trong việc
tìm kiếm. Giả sử rằng câu truy vấn ban đầu có hai từ phân biệt. Nếu từ đầu tiên có
thể được dịch sang nhiều cách khác nhau, và nếu từ thứ hai chỉ có thể được dịch
sang một cách duy nhất, thì hệ thống tìm kiếm xuyên ngữ sẽ không tăng trọng số
cho từ đầu tiên, bởi vì nó có nhiều lựa chọn khi dịch. Điều này minh họa cho vấn đề
tính trọng số của các cách dịch, đặc biệt là đối với hệ thống tìm kiếm xuyên ngữ.
Một tài liệu chứa một cách dịch của mỗi từ trong câu truy vấn sẽ có độ liên quan
13
nhiều hơn một tài liệu chứa nhiều cách dịch khác nhau của từ đầu tiên trong câu
truy vấn nhưng không chứa cách dịch nào của từ thứ hai.
1.3 Các hướng tiếp cận
Việc phân loại các hướng tiếp cận của CLIR dựa trên phương pháp được sử
dụng trong quá trình chuyển ngữ.
1.3.1 Dịch máy
Sử dụng dịch máy trong hệ tìm kiếm thông tin xuyên ngữ giúp quá trình chuyển
ngữ diễn ra một cách tự động tuy nhiên, hệ thống dịch máy có một điểm yếu đó là
nó chỉ có thể cung cấp các bản dịch có chất lượng cao ở một số lĩnh vực giới hạn.
Ta có thể sử dụng dịch máy để chuyển ngữ câu truy vấn sang ngôn ngữ cần tìm
kiếm hay chuyển ngữ các tài liệu sang ngôn ngữ của câu truy vấn. Các câu truy
vấn thường ngắn và thiếu các thông tin về cú pháp, trong khi đó các hệ thống dịch ...
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status