MÁY TÌM KIẾM VÀ HỖ TRỢ THIẾT BỊ DI ĐỘNG
4.1. Tổng quan về máy tìm kiếm
4.1.1. Sơ lược về máy tìm kiếm
Máy tìm kiếm là một công cụ rất hữu ích giúp người dùng sử dụng
nguồn tài nguyên trên Internet một cách hiệu quả nhất. Dựa vào máy
tìm kiếm con người có thể tìm được rất nhiều thông tin liên quan đến
mọi ngành, mọi lĩnh vực. Một hệ thống tìm kiếm thông tin bao gồm 3
mô-đun cơ bản:
Thu thập thông tin từ internet.
o Phân tích, lượng hoá và rút trích thông tin cần thiết để lưu trữ
vào cơ sở dữ liệu hệ thống
o Tiếp nhận yêu cầu từ người sử dụng, thực hiện tìm kiếm
trong cơ sở dữ liệu và trả kết quả về cho người sử dụng.
o Mỗi mo-đun có nhiều cách tiếp cận khác nhau, nên một hệ
thống tìm kiếm cũng sẽ có phương thức xử lý và hoạt động
khác nhau.
4.1.2. Phân loại máy tìm kiếm
Theo David P.Habib và Robert L.Barriot[6] có bốn loại công cụ tìm
kiếm tất cả, đó là:
o Công cụ tìm kiếm thư mục (A directory search tool): tìm thông
tin theo chủ đề, đó là dạng tìm phân cấp.
o Công cụ máy tìm kiếm : tìm thông tin theo từ khoá.
o Công cụ máy tìm kiếm cùng với thư mục: tìm kiếm dựa trên
cả chủ đề và từ khoá .
o Công cụ máy tìm kiếm meta: sử dụng kết quả từ các máy tìm
kiếm khác.
Ta xem xét hai máy tìm kiếm là :Máy tìm kiếm meta và Máy tìm kiếm
thông thường
4.1.2.1. Máy tìm kiếm Meta
Không giống như những máy tìm kiếm thông thường khác, máy tìm
kiếm meta không có cơ sở dữ liệu riêng cũng như không có hệ thống
ta submit truy vấn, và ta không biết chắc những gì nó truy vấn
cho đến khi đọc được kết quả.
4.1.2.2. Máy tìm kiếm thông thường
Nguyên lý hoạt động được mô tả như sau:
Hình 4.1.2.2 – Mô hình hoạt động
của
máy
tìm
kiếm thông thường
Hệ thống thu thập dữ liệu :
Chịu trách nhiệm tìm thông tin trên Internet từ địa
chỉ URL cho trước. Thông thường hệ thống máy tìm kiếm có một
server chịu trách nhiệm gửi những URL cho các robot. Robot tải
tài liệu về và lưu trong kho dữ liệu, rồi lại tiếp tục nhận URL khác, tiến trình hoạt động
liên tục từ khi khởi động hệ thống. Robot lấy những nội dung dạng văn bản, còn hình
ảnh hay âm thanh hay những dữ liệu không thể đánh chỉ mục thì bỏ qua.
Hệ thống phân tích và lập chỉ mục dữ liệu :
Chịu trách nhiệm phân tích tài liệu và lập chỉ mục thông tin cho tài
liệu đó. Từ kho dữ liệu hệ thống lập chỉ mục tiến hành lấy từng tài liệu
trong kho, lọc bỏ thông tin thừa(loại bỏ tag định dạng, ghi chú, script …),
phân tích các siêu liên kết và lưu chúng vào danh sách URL, bỏ các từ
stop word (từ không có nghĩa trong tài liệu), đưa tài liệu về dạng thuần
văn bản, tiến hành phân tích từ sau đó tính trọng số của từ đó và lập chỉ
mục cho chúng và lưu chúng vào cơ sở dữ liệu. Bên cạnh kỹ thuật trên
Google áp dụng phương pháp tính độ quan trọng của tài liệu(pagerank)
dựa vào số lượng liên kết chỉ đến tài liệu. Ý tưởng đó là nếu một tài liệu
có nhiều liên kết (hyperlink), hoặc từ một tài liệu có độ quan trọng cao
chỉ đến thì được coi như là tài liệu đó cũng có độ quan trọng cao. Dựa
vào kỹ thuật mà Google tự hào rằng mình có thể tìm kiếm được file ảnh,
âm thành và những tài liệu phi văn bản khác.