NGHIÊN CỨU HỆ TỐNG SEARCH ENGINE VÀ XÂY DỰNG ỨNG DỤNG TÌM KIẾM NỘI DUNG TÀI LIỆU - Pdf 33

Luận Văn Tốt Nghiệp Kỹ Sư
Đại học Bách Khoa
Khoa Công Nghệ Thông Tin
1
 Mở đầu
 Mô hình hệ thống Search Engine
 Phân tích và thiết kế
 Demo
 Kết luận & Hướng phát triển
2
3
Số lượng
thông tin
tăng
Nhu cầu
tìm kiếm
tăng
4
Web
Mở đầu
Hỗ trợ tốt
5
 Sử dụng tài nguyên CPU
 Hỗ trợ nhiều định dạng
 Thời gian tìm kiếm
 Bảo mật dữ liệu
 Mã nguồn bí mật
 Hỗ trợ ngôn ngữ
 Khả năng phát triển
 Cài thêm các ứng dụng hỗ trợ file
Các vấn đề gặp phải

10
Thuật toán :
11
Extractor pdf
Extractor html
Extractor docx
Extractor xml
Extractor rtd
12
Xử Lí Text (Lucene)
Phương pháp :
13
• WhitespaceTokenizer
• StandardTokenizer
• Chuyển font VNI sang unicode
• Streaming
book, books →book
• Stop-word
“á”,”vâng”..


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status