báo cáo đồ án tốt nghiệp xây dựng ứng dụng dựa trên mạng ngang hàng - Pdf 15

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
NGÀNH CÔNG NGHỆ THÔNG TIN
======
ISO 9001:2000
BÁO CÁO ĐỒ ÁN TỐT NGHIỆP
Tên đề tài: Xây dựng ứng dụng dựa trên mạng ngang hàng
Giáo viên hướng dẫn: TS. Phạm Hồng Thái
CN. Lương Việt Nguyên
Sinh viên thực hiện : Nguyễn Thị Hoa
Lớp: CT 702 Mã số sinh viên: 10401
NỘI DUNG CHÍNH
I. Mục đích của đề tài.
II. Kỹ thuật tạo chỉ mục cho tài liệu và tìm
kiếm dựa trên chỉ mục .
III. Giải pháp xây dựng ứng dụng.
IV. Cài đặt chƣơng trình.
V. Kết luận và hƣớng phát triển. 1
I. MỤC ĐÍCH CỦA ĐỀ TÀI
 Tìm hiểu về mạng ngang hàng.
 Xây dựng một chương trình ứng dụng chia sẻ file
trong mạng ngang hàng theo kiến trúc lai ghép
cung cấp khả năng tìm kiếm theo nội dung đối với
các tài liệu thuần văn bản.
2

Hình 1: Tạo chỉ mục theo cấu trúc file đảo ngược.
5
 Để giảm kích thước lưu trữ bảng vị trí ta dùng kỹ
thuật đánh địa chỉ khối.

Hình 2: Tạo chỉ mục theo cấu trúc file đảo ngược
sử dụng kỹ thuật đánh địa chỉ khối
6
3. Tìm kiếm dựa trên chỉ mục
Thuật toán tìm kiếm chia làm 3 bước:
 Tìm kiếm trên bảng từ vựng.
 Thu thập danh sách thông tin vị trí của từ, cụm
từ tìm được sau bước 1 thông qua bảng vị trí.
 Xử lý các thông tin thu thập được và tạo ra danh
sách kết quả tìm kiếm.
7
4. Xếp hạng kết quả tìm kiếm
 Tiêu chí để sắp xếp kết quả tìm kiếm chính là độ
liên quan giữa các kết quả với truy vấn tìm kiếm
do người dùng đưa ra.
 Bài toán xác định độ liên quan giữa một truy vấn
q với các tài liệu trong một thư viện C cho trước.
 Thuật toán xác định độ liên quan: Thuật toán
TF-IDF(Term Frequency – Inverse Document
Frequency)

8
 Xét bài toán đơn giản: truy vấn q gồm một tập hợp
các từ khóa ki. Văn bản D bất kỳ thuộc thư viện C
thì ta có:

có độ liên quan với q giảm dần. 11
III. GIẢI PHÁP XÂY DỰNG ỨNG DỤNG
1. Khái quát ý tƣởng
Ứng dụng thực hiện được 3 chức năng lớn sau:
 Cho phép người dùng tại các điểm nút khi tham
gia vào mạng có thể tiến hành chia sẻ và dừng
chia sẻ các tài liệu nằm trên máy của mình.
 Cho phép người dùng có thể đưa ra những truy
vấn để tìm kiếm theo nội dung các tài liệu hiện
đang được chia sẻ trên phạm vi toàn mạng.
 Cho phép người dùng tải về các tài liệu được
chia sẻ nằm trên một điểm nút khác.
12
Hình 3: Luồng thông điệp giữa các thành phần trong mạng
13
 Trong khuôn khổ một ứng dụng chia sẻ file ngang
hàng, có ba sự kiện xảy ra ở phía các điểm nút đòi
hỏi phải tiến hành cập nhật hệ thống chỉ mục là:
* Chia sẻ một tài liệu.
* Dừng chia sẻ một tài liệu.
* Đăng xuất khỏi hệ thống.
 Người dùng trên một điểm nút tiến hành cập nhật
lại file tài liệu mà nội dung của nó đã có sự thay
đổi tính từ lần chia sẻ đầu tiên hoặc từ lần cập nhật
cuối cùng.
 Máy chủ tìm kiếm sẽ tiến hành cập nhật chỉ mục
tập trung trong điều kiện tương tranh.

1. Mô tả về thƣ viện mã nguồn mở Lucene
a. Khái quát về Lucene

Hình 5: Nhiệm vụ, chức năng của thư viện Lucene [8].
18
 Nhiệm vụ của Lucene:
* Tạo chỉ mục cho các tài liệu để xây dựng nên hệ
thống chỉ mục.
* Tiếp nhận các xâu truy vấn của người dùng, thực hiện
tìm kiếm dựa trên hệ thống chỉ mục đã có và trả về
kết quả.
b. Tổ chức chỉ mục logic của Lucene
 Document
 Field
 Term
19
c. Xây dựng và khai thác chỉ mục trong Lucene
 Lớp IndexWriter
 Lớp IndexReader
 Lớp QueryParser
 Lớp IndexSearcher
2. Tổ chức chƣơng trình
a. Khối chức năng cơ bản
 Bộ phận triển khai phía máy chủ tìm kiếm bao
gồm:
* Lớp Server
* Lớp ServerThread


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status