PHẦN II CƠ SỞ LÝ THUYẾT - Pdf 63

PHẦN II: CƠ SỞ LÝ THUYẾT
1. CÁC BỘ MÁY TÌM KIẾM <SEARCH ENGINE>
1.1 Một số engine thông dụng
Sau đây là danh sách một số search engine. Tại sao chúng được gọi là các search
engine “lớn”? Đó là vì chúng được biết đến nhiều và sử dụng tốt. Với các chuyên gia web,
các công cụ tìm kiếm lớn là danh sách những nơi quan trọng nhất bởi chúng phát sinh ra
một lượng lớn các trang web tiềm tàng. Đối với những người tìm kiếm, các công cụ tìm
kiếm phổ biến thường trả lại kết quả đáng tin cậỵ
Dưới đây là danh sách các search engine.
1.
Hình : Giao diện tìm kiếm của Google
Nguyên thủy, Google là một đề án của trường Đại học Stanford được thực hiện bởi hai
sinh viên Larry Page và Sergey Brin gọi là BackRub. Đến năm 1998 thì đổi thành Google,
và đồ án đó đã trở thành công ty riêng Google đặt tại khuôn viên trường đại học. Google
là công cụ tìm kiếm nổi tiếng, tốt nhất hiện tại cho tìm kiếm thông tin trên web. Dịch vụ
dựa vào crawler, spider cung cấp trang web với thông tin đưa ra toàn diện cùng mức độ liên
quan tốt.
2.
Hình : Giao diện tìm kiếm Yahoo
Đưa ra năm 1994, yahoo là “thư mục” cũ nhất của web, một nơi các nhà tổ chức trang
web thành các thư mục. Tuy nhiên, vào tháng 10 năm 2002, yahoo chuyển sang lập danh
sách dựa vào crawler cho những kết quả chính của nó. Công cụ này sử dụng công nghệ từ
Google cho tới 2/2004. Hiện nay, Yahoo sử dụng công cụ tìm kiếm riêng của mình.
Yahoo Directory vẫn tồn tai. Bạn sẽ chỉ ra các liên kết “danh mục” phía dưới một số
các trang web liệt kê trong kết quả trả về của một tìm kiếm từ khóa. Khi được đề xuất,
những trang web này dẫn bạn đến một danh sách các trang web đã được xem xét và phê
chuẩn bởi một nhà biên tập.
Công nghệ Alta Vista và AllTheWeb được phối hợp với kỹ thuật Inktomi, một công cụ
tìm kiếm dựa trên crawler, để tạo nên một Yahoo crawler hiện nay.
Vừa qua, thương vụ mua bán Yahoo với Microsoft không thành, khiến nhiều chuyên
gia đánh giá, trong thời gian tới, cả 2 hãng này sẽ có bước đột phá trong công nghệ tìm

MSNBot được dự định như là một công nghệ mà kết hợp các ứng dụng cho hệ điều hành
Windows. Sau đó Microsoft sẽ kết nối công cụ tìm kiếm của nó với cômg MSN trong phiên
bản Wíndows kế tiếp của nó nhằm dễ dàng tìm kiếm e-mail, spreadsheets và các tài liệu
trên PC.
Về Công nghệ tìm kiếm.
Tìm kiếm ngữ nghĩa giải quyết với các khái niệm và các mối quan hệ logic. Nếu xem
xét các vấn đề thực tế của tìm kiếm ngữ nghĩa, chúng ta sẽ thấy rằng, cây tìm kiếm đứng
trước tình trạng thiếu logic đưa đến vấn đề chưa hoàn tất hay “ngắc ngứ” (Incompleteness
and Halting Problem).
Đầu tiên, về vấn đề Incompleteness, kết luận có thể được xem như là một sự suy diễn
của một dãy logic gắn lại với nhau. Ở mỗi điểm, có thể có nhiều hướng khác nhau để tới
một suy diễn mới. Vì vậy, để đạt hiệu quả, có một nhóm các khả năng phân nhánh để bằng
cách nào đó hướng tới một giải pháp đúng, và nhóm các phân nhánh đó có thể trải ra trong
các hướng mới lạ.
Trong một hệ thống logic phức tạp, có một số lượng lớn các chứng cớ tiềm tàng. Một
số chúng dài và không rõ ràng nếu chỉ có một chứng cơ. Được chúng minh vào những năm
1930, một số hệ thống logic đủ phức tạp vốn đã là không đầy đủ. Nói cách khác, có các câu
lệnh mà không thể được chứng minh một cách logic. Luận cứ của nó cho điều đó liên quan
đến một vấn đề khác, vấn đề Halting.
Vấn đề Halting suy ra rằng, các giải thuật hiện nay sẽ không bao giờ kết thúc trong một
câu trả lời. Khi nói về Web, chúng ta nói tới hàng triệu các sự kiện và chục ngàn luật và có
thể nối kết đan lại với nhau trong những hướng phức tạp. Vì thế, không gian của các chứng
cứ tiềm tàng là vô tận, và cây này theo logic sẽ trở nên vô tận.
2.1.2 Chiến lược tìm kiếm
Chiến lược tìm kiếm với thông tin trên Web ngữ nghĩa dựa trên nền tảng các công nghệ
trên.
Từ search engine thường được dùng rộng rãi để mô tả các công cụ tìm kiếm dựa trên
crawler và các thư mục do con người cung cấp. Đây là hai loại của các search engine tập
hợp các danh sách của chúng trong những cách khác nhau hoàn toàn.
Search engine dựa vào crawler gồm 3 phần:


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status