ĐẠI HỌC QUỐC GIA HÀ NỘI
KHOA CÔNG NGHỆ
NGUYỄN THỊ KIM PHƯỢNG
Hệ thống tìm kiếm thông tin và thuật toán
đối sánh đa mẫu trong hệ thống tìm kiếm
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
1.8.1 Hệ tìm kiếm Altavista 30
1.8.2 Hệ tìm kiếm Harest 31
1.8.3 Hệ tìm kiếm Google 32
1.8.4 Hệ tìm kiếm Vietseek 34 2
Chương 2 Cấu trúc Hệ TìM KIếM 36
2.1 Cấu trúc bộ tìm duyệt 36
2.1.1 Bộ tìm duyệt Web 36
2.1.2 Các thông số cơ bản của bộ tìm duyệt Web 36
2.1.3 Tối ưu số lượng các bộ tìm duyệt 40
2.1.4 Thứ tự tải các trang Web của bộ tìm duyệt 42
2.1.5 Sự phân vùng 46
2.2 Cấu trúc bộ tạo chỉ mục 47
2.2.1 Tạo chỉ mục cho tài liệu 47
2.2.2 Tạo lập chỉ mục theo nội dung và toàn văn bản 49
2.2.3 Các bước để tạo chỉ mục 50
2.3 Các cấu trúc file được sử dụng trong nguồn tìm kiếm thông tin 52
2.3.1 Cấu trúc logic, vật lý và sự độc lập dữ liệu 52
2.3.2 Các tập tin đảo 54
2.4 Nén dữ liệu trong hệ tìm kiếm 55
2.4.1 Nén dữ liệu theo đoạn dài mã từ 55
2.4.2 Nén dữ liệu theo khoảng cách 56
Chương 3 Thuật toán đối sánh đa mẫu 58
3.1 Giới thiệu 58
3.2 Thuật toán đối sánh đa mẫu Aho_Corasick 60
3.3 Thuật toán đối sánh mẫu Boyer_Moore_Horspool 64
3.4 Thuật toán đối sánh nhanh đa mẫu 67
3.4.1 Đặc điểm chính của thuật toán 68
Học viên thực hiện luận văn
Nguyễn Thị Kim Phượng
4
mở đầu
Ngày nay, nhu cầu về thông tin của con người trong cuộc sống rất lớn. Trong
thực tế, thông tin đáp ứng nhu cầu của con người không chỉ ngày càng nhiều mà
còn đa dạng. Với sự đa dạng và lượng thông tin khổng lồ hiện nay, con người cần
có sự hỗ trợ của các hệ thống phần mềm để nhận ra và tìm được thông tin chính xác
đầy đủ mà con người cần.
Đáp ứng nhu cầu đó, người ta đã đưa ra nhiều hình thức cung cấp thông tin,
hay nói cách khác có nhiều nguồn cung cấp thông tin theo nhu cầu của con người.
Và ngày nay, nguồn cung cấp lượng thông tin vô cùng to lớn và đa dạng đó là
Internet. Sự phát triển nhanh chóng và không ngừng của Internet đã mang lại một
lượng thông tin ngày càng hữu ích, phong phú đa dạng và đầy đủ hơn. Đó là một
nguồn dữ liệu được tập hợp từ nhiều nơi, nhiều người, nhiều tổ chức khác nhau trên
toàn cầu. Vì thế, các thông tin đó có mặt rải rác, phân tán khắp nơi, không phân biệt
ranh giới địa lý, trải khắp trên toàn cầu. Thông tin không những phân tán, phức tạp,
đồ sộ mà còn thuộc nhiều lĩnh vực khác nhau như: quản lí, sản xuất, kinh doanh,
giáo dục, nghiên cứu khoa học, vui chơi giải trí,…Và hầu hết các thông tin trên
Internet được lưu trữ dưới dạng các tài liệu văn bản. Khối lượng và sự đa dạng của
thông tin đã mang lại không ít khó khăn trong việc thu thập, chọn lọc thông tin.
Để giải quyết vấn đề này, người ta đã xây dựng các hệ thống tìm kiếm thông
tin _IRS. Công cụ hỗ trợ cho phép người dùng chọn lọc, thu thập thông tin trên
Internet là máy tìm kiếm thông tin, chúng trợ giúp tìm và chọn lọc ra những tài liệu
có chứa thông tin cần thiết.
Người dùng luôn yêu cầu kết quả tìm kiếm phải chính xác, đầy đủ và với tốc
độ tìm kiếm nhanh. Yêu cầu đó được đáp ứng chỉ khi các hệ thống tìm kiếm sử
dụng các kỹ thuật, thuật toán hiệu quả, tối ưu nhất.
toàn về mặt thông tin và phải có giải pháp để khắc phục yếu điểm này, hai là mọi
máy tính trên mạng đều có khả năng liên lạc với nhau. Các thông điệp được chuyển
thành các “gói” và các “gói” được gửi đi độc lập với nhau, hoàn toàn không phụ
thuộc vào việc phải qua một số trạm định trước, truyền được qua mọi máy tính và
hướng đích.
Vào những năm 1990, ARPANET gây được nhiều sự quan tâm và trở thành
một hệ thống quan trọng, là nền tảng ứng dụng của các hệ thống công cụ nghiên
cứu, phương tiện trợ giúp kinh doanh, thương mại ngày nay trở thành mạng
Internet.
Internet là mạng kết nối hàng trăm mạng trên toàn thế giới, liên kết mọi loại
máy tính, liên kết các trường đại học, viện nghiên cứu, chính phủ, các doanh nghiệp
thương mại, các tổ chức, các cá nhân khác nhau. Và ngày nay, Internet đã có thể kết
nối hầu hết các nước trên toàn cầu, có hàng triệu máy chủ khác nhau trên khắp thế
giới tham gia vào mạng Internet.
Internet ra đời tạo điều kiện cho việc truy cập thông tin và trao đổi thông tin
một cách dễ dàng. Người dùng có thế khai thác và sử dụng Internet một cách thuận
7
lợi thông qua các nhiều dịch vụ hỗ trợ được cung cấp như: E-mail (thư diện tử),
telnet (thâm nhập mạng từ xa), FPT (truyền tập tin), Usenet (phân nhóm theo loại
thông tin quan tâm), đặc biệt là World Wide Web (thường được gọi là Web hoặc
WWW) được sử dụng rộng rãi, Hầu hết các ứng dụng trên Internet đều dựa trên
mô hình client/server và kết nối với nhau theo giao thức chuẩn TCP/IP [7].
Internet rộng lớn hơn bất cứ mạng của tổ chức hay cá nhân nào về nhiều mặt
và quan trọng là mạng không bị điều khiển riêng lẻ bởi bất kỳ tổ chức hay cá nhân
nào. Mạng Internet không chỉ cung cấp một lượng thông tin đầy đủ và nhanh chóng
cho chúng ta mà còn là môi trường giao lưu của con người với các hình thức hiện
đại, tiện lợi và rất hữu ích trên toàn cầu.
1.1.2 World Wide Web
bản đơn giản được sử dụng rộng rãi và sự ra đời của Web là thể hiện được tính ưu
việt trong việc áp dụng vào thực tiễn vì Web có kiến trúc đơn giản và hữu hiệu trên
Internet [6].
Là công cụ mới của thời đại thông tin, Web đã và đang trở thành một phương
tiện quan trọng trong kinh doanh. Còn là nơi các công ty, tổ chức và cả cá nhân trên
thế giới có thể quảng bá thông tin về mình có hiệu quả. Web là phương thức ứng
dụng có hiệu quả với tất cả người dùng trên toàn cầu và cho phép tận dụng tối đa
nguồn tài nguyên có hạn.
9
1.2 Khái niệm hệ tìm kiếm
Với sự phát triển mạnh mẽ của công nghệ thông tin trong vài thập kỷ qua,
Internet đã dần dần trở thành một bộ phận và là công cụ không thể thiếu được trong
đời sống của con người. Internet đã đi vào mọi lĩnh vực, mọi vấn đề, mọi ngành
nghề của đời sống xã hội, từ việc mua bán hàng hoá, tư vấn sức khoẻ, pháp luật,
đến các vấn đề nghiên cứu khoa học chuyên sâu và cả vấn đề phát triển chính
Internet.
Sự phát triển và mở rộng nhanh chóng kéo theo lượng thông tin trên Internet
ngày càng trở nên phong phú, hữu ích và đồ sộ hơn. Người dùng hầu như có thể tìm
được bất kỳ thông tin gì mà họ cần. Nhưng cũng chính lượng thông tin khổng lồ
này làm cho người dùng gặp phải vấn đề trong khi tìm kiếm, không biết thông tin
mình cần đặt ở đâu? thông tin nào chính xác hơn, xác thực hơn? thông tin nào hữu
ích hơn thông tin nào? Từ đó, tìm kiếm và đánh giá thông tin trên mạng Internet trở
thành một vấn đề bức xúc và cần thiết, được nhiều công ty, tổ chức, các nhà khoa
học và người dùng quan tâm. Hệ tìm kiếm (Search Engine) đã được xây dựng, đây
chính là công cụ dùng để giải quyết các vấn đề nêu trên.
Hệ tìm kiếm là công cụ tin học thực hiện tìm kiếm và sắp xếp thông tin, giúp
con người tìm kiếm thông tin cần tìm trên Internet [5].
Các hệ tìm kiếm phải đáp ứng được hai yêu cầu cơ bản: Thông tin tìm được
phải thoả mãn mong muốn của người dùng và thời gian tìm kiếm trong kho tàng
Bộ phân tích tập: Hoạt động dựa vào thuộc tính của bộ truy vấn. Nếu bộ truy
vấn chỉ yêu cầu tìm kiếm giới hạn trong một số Website hoặc giới hạn trong một tên
miền thì công việc sẽ nhanh và hiệu quả hơn. Những việc như thế được thực hiện
bởi bộ phân tích tập.
Làm việc với bộ tìm duyệt và bộ tạo chỉ mục là hệ thống cơ sở dữ liệu của hệ
tìm kiếm. Tuỳ theo thiết kế của mỗi hệ tìm kiếm mà cơ sở dữ liệu có độ phức tạp
khác nhau và được chia thành các phần khác nhau. Nhìn chung, mọi hệ tìm kiếm
đều có các cơ sở dữ liệu sau:
+ Cơ sở dữ liệu về các URL.
+ Cơ sở dữ liệu về các tài liệu trước và sau khi đã chuyển đổi khuôn dạng.
+ Cơ sở dữ liệu về dữ liệu đã được đánh chỉ mục.
+ Cơ sở dữ liệu phục vụ các mục đích đặc biệt, chẳng hạn như lập lịch thu
thập URL, các từ không được tạo chỉ mục, các từ đồng nghĩa, các từ gốc,
Đặc điểm của hệ tìm kiếm được sử dụng trên Internet, cùng một lúc có nhiều
người sử dụng và đồng thời thực hiện nhiều công việc khác nhau nên cơ sở dữ liệu
cũng như chương trình truy vấn cơ sở dữ liệu phải được thiết kế sao cho có thể đáp
ứng được điều này. Người ta đã sử dụng cơ chế phân chia dữ liệu thành các thành
phần nhỏ để tăng tốc độ truy vấn. Từ các chỉ mục được chia vào các kho chứa khác
nhau và các kho chứa được đánh địa chỉ. Cùng một thời điểm có thể có nhiều kho
chứa được truy cập.
Ngoài hai thành phần chính là bộ tạo chỉ mục và bộ tìm duyệt, hệ tìm kiếm
còn có các thành phần khác như: giao diện với người dùng, quản lý các câu lệnh
12
truy vấn, sắp xếp kết quả trả về cho người sử dụng, chuyển đổi khuôn dạng tài
liệu,
Giao diện với người dùng: là một công cụ tin học, nên hệ tìm kiếm cũng
không thể thiếu phần giao diện với người dùng.Với tính chất của hệ tìm kiếm làm
việc trên Internet cùng lượng thông tin, dữ liệu đa dạng và phức tạp nên giao diện
với người dùng cũng phải được thiết kế đặc biệt. Giao diện với người dùng không
các hình ảnh đi kèm.
+ Hiển thị từ khoá thực sự tìm thấy trong tài liệu để người sử dụng quyết
định đây có phải là tài liệu mình cần tìm hay không. Kỹ thuật này đặc biệt hữu dụng
trong trường hợp người dùng đưa vào từ khoá không chính xác.
1.4 Cơ chế hoạt động chung của hệ tìm kiếm
ứng với hai thành phần chính của hệ tìm kiếm là bộ tìm duyệt và bộ tạo chỉ
mục, cơ chế hoạt động của hệ tìm kiếm cũng được chia thành hai hoạt động cơ bản:
thu thập thông tin và phân loại và tạo chỉ mục thông tin [14].
Khi muốn tìm kiếm một trang Web nào đó, người dùng đưa vào một số từ
khoá mà họ cho là có liên quan đến vấn đề cần quan tâm (gọi là từ khoá tìm kiếm).
Bộ truy vấn dựa theo từ khoá tìm kiếm và tìm trong bảng chỉ mục (URL đã có trong
cơ sở dữ liệu về URL của hệ tìm kiếm) địa chỉ các trang Web có chứa từ khoá tìm
kiếm. Từ các URL xuất phát, bộ tìm duyệt tìm đến các máy chủ chứa trang Web
của các địa chỉ này để lấy về các trang Web tương ứng và cung cấp các URL kết
quả cho bộ điều khiển tìm duyệt.
Bộ điều khiển tìm duyệt sẽ quyết định URL nào sẽ được tìm duyệt tiếp theo
và gửi lại kết quả quyết định cho bộ tìm duyệt (trong một số hệ tìm kiếm, bộ tìm
duyệt thực hiện cả chức năng của bộ phận điều khiển tìm duyệt). Sau đó bộ tìm
duyệt gửi các trang Web đó đến bộ tạo chỉ mục, sử dụng các công cụ hỗ trợ trích lọc
14
thông tin từ các trang Web, phân tích, xử lý như chuyển đổi khuôn dạng, phân loại
thông tin, và chúng được bộ tạo chỉ mục tạo chỉ mục đưa các địa chỉ URL mới
vào cơ sở dữ liệu về URL (còn gọi là kho trang Web). Bộ tạo chỉ mục thực hiện
việc khảo sát các từ khoá trong từng trang Web có trong kho trang Web và ghi lại
các địa chỉ URL của các trang Web có chứa mỗi từ, kết quả sinh ra một bảng chỉ
mục rất lớn.
15
Hình 2 Cơ chế hoạt động chung của hệ tìm kiếm
Người sử dụng
Câu hỏi tìm kiếm
16
Thực tế, bảng chỉ mục giới hạn trong số các Web đã qua bộ tìm duyệt, nhờ
có bảng chỉ mục này, hệ tìm kiếm cung cấp tất cả các địa chỉ URL của trang Web
khi có yêu cầu. Việc tạo chỉ mục thủ công là con người đọc các tài liệu và xác định
xem tài liệu nào, thậm chí những từ khoá nào sẽ được tạo chỉ mục. Ví dụ như
Yahoo, thay bằng việc bộ tìm duyệt tìm kiếm các site và trả lại các thông tin thì
những người tạo chỉ mục sẽ tự đọc các tài liệu này. Nếu một site nào đó có các
thông tin phù hợp với các sự phân loại của Yahoo thì site đó sẽ được index và đưa
vào mục phân loại. Như vậy, việc phân loại là cảm tính nhưng khá chính xác ở mức
độ rộng (phân loại cả site) còn ở mức chi tiết từng tài liệu không thể làm được do số
lượng tài liệu là quá lớn.
Chỉ mục tự động là sử dụng các giải thuật, các phần mềm để trích lọc thông
tin và tạo chỉ mục cho các tài liệu. Đây là một phương pháp chiếm ưu thế trong vấn
đề xử lý và tìm kiếm tài liệu trên Internet. Hệ tìm kiếm có một phần gọi là bộ tìm
duyệt (hay còn gọi là spider, robot) tự động gửi yêu cầu đến các site trên Internet để
lấy về các tài liệu một cách tự động, làm việc không ngừng ngày cũng như đêm.
Các tài liệu sau khi lấy về được tự động trích lọc thông tin và tạo chỉ mục. Mỗi một
bộ tạo chỉ mục như vậy thường tạo chỉ mục từ 3 đến 10 triệu trang web mỗi ngày.
Ngoài một số bộ tìm duyệt tìm kiếm các tài liệu một cách ngẫu nhiên, đa số các bộ
tìm duyệt khác lấy thông tin từ các trang Web đã được tạo chỉ mục trước đó để lấy
về các trang tiếp theo hoặc sử dụng những chỉ dẫn bởi người quản trị hệ tìm kiếm để
tìm kiếm [14].
Chú ý rằng các bộ tìm duyệt chỉ lấy và lưu trữ một phần trang Web vào cơ sở
dữ liệu tại thời điểm đó. Điều đó có nghĩa là khi người dùng đưa ra một câu hỏi tìm
kiếm thì hệ tìm kiếm chỉ tìm kiếm trên phần dữ liệu mà có nó. Chỉ khi người dùng
chọn một trang Web cụ thể từ kết quả tìm kiếm thì lúc đó họ mới truy nhập được
trong một miền thì công việc sẽ nhanh và hiệu quả hơn. Khi phải xây dựng một
bảng chỉ mục các Web site mà trong đó có kết nối, mỗi tên miền đến một danh sách
các trang Web thuộc miền đó. Thực hiện những việc như thế là do bộ phân tích tập.
Bộ phân tích tập sử dụng thông tin từ hai loại chỉ mục cơ bản (chỉ mục nội dung và
18
chỉ mục cấu trúc) do bộ tạo chỉ mục cung cấp cùng với thông tin từ khoá trang
Web, và các thông tin được sử dụng bởi phương pháp tính hạng để tạo ra các chỉ
mục tiện ích.
Ngoài ra, Internet phát triển và thay đổi không ngừng, các trang Web mới
xuất hiện, các trang Web cũ loại bỏ nên hệ tìm kiếm cần cập nhật liên tục. Để tăng
hiệu suất truy cập, các hệ tìm kiếm có thể có nhiều bộ tìm duyệt, hoạt động theo kỹ
thuật đa luồng, sử dụng kỹ thuật này, nhiều địa chỉ URL, nhiều site khác nhau có
thể được truy cập động thời. Có hai cơ chế có thể được thực hiện trong việc truy cập
các trang Web là theo chiều rộng và theo chiều sâu. Cơ chế truy cập theo chiều
rộng là bộ tìm duyệt tìm đến tất cả các trang Web có địa chỉ được chỉ ra trong trang
hiện thời. Các địa chỉ này có thể thuộc nhiều site khác nhau. Cơ chế này cho phép
hệ tìm kiếm có thể cập nhật thông tin bị thay đổi trên Internet nhanh chóng, trải
rộng trên nhiều lĩnh vực, tốc độ truy cập ổn định. Cơ chế truy cập theo chiều sâu:
Bộ tìm kiếm xác định địa chỉ của một site và truy cập hết các trang Web của site
này cho đến khi không thể truy cập được nữa sau đó mới chuyển sang site khác. Cơ
chế này cho phép hệ tìm kiếm cập nhật sâu lĩnh vực mà các site cung cấp. Tốc độ
truy cập phụ thuộc tốc độ đường truyền và khả năng đáp ứng của từng site.
Tuy có cùng một cơ chế hoạt động là thao tác trên dữ liệu đã được thu thập
nhưng mỗi hệ tìm kiếm có một cách thức và kỹ thuật thực hiện khác nhau. Vì thế,
các hệ tìm kiếm được phân ra một số loại.
1.5 Phân loại các hệ tìm kiếm
Hiện nay, có khá nhiều hệ tìm kiếm được ứng dụng trên Internet [12], mỗi
loại dùng công nghệ tìm kiếm khác nhau. Shi Naisi phân chia thành 6 loại công
nghệ khác nhau là Hyperlink Exploration, Information Retrieval, Metasearch, SQL
các từ khoá tìm thấy trong tài liệu và khuôn dạng của tài liệu để phân loại và tạo chỉ
mục tài liệu một cách tự động. Khi có yêu cầu tìm kiếm, hệ tìm kiếm sử dụng công
20
nghệ tìm kiếm trên tạo chỉ mục để xác định tài liệu nào có độ liên quan nhiều hơn
tới yêu cầu để trả kết quả cho người dùng.
Với cách phân loại và tạo chỉ mục tự động, thời gian tìm kiếm tài liệu trên
các hệ tìm kiếm này thường nhanh hơn nhưng kết quả trả về khá nhiều và độ chính
xác không cao bằng cách phân loại theo chủ đề [12].
Tuy vậy, để so sánh giữa hệ tìm kiếm sử dụng thư mục chủ đề và hệ tìm
kiếm loại này, hệ tìm kiếm loại nào thích hợp cho việc tìm kiếm hơn, bởi điều đó
phụ thuộc nhiều vào sở thích của người dùng và nhu cầu kết quả nhận về. Một số
người dùng thích sử dụng hệ tìm kiếm sử dụng thư mục chủ đề hơn vì họ có thể
điều khiển được thông tin tìm kiếm của họ; Hơn nữa, các thư mục chủ đề cho phép
người dùng xem và đoán được kết quả tìm kiếm sẽ nhận được. Còn hệ tìm kiếm
phân loại và tạo chỉ mục tự động tìm kiếm tài liệu ở phạm vi rộng hơn nhiều so với
loại kia. Bên cạnh đó, loại này có yếu điểm là phụ thuộc vào mô tả chủ quan của
người phân loại tài liệu. Nếu sự mô tả và phân loại này không rõ ràng, chính xác thì
người dùng khó có thể tìm thấy tài liệu họ cần. Vì thế, hệ tìm kiếm sử dụng thư mục
chủ đề thường được sử dụng để tìm kiếm các thông tin chung chung. Và điểm mạnh
cũng là điểm yếu của hệ tìm kiếm phân loại, tạo chỉ mục tự động là số tài liệu tìm
thấy rất lớn, có khi lên đến hàng nghìn tài liệu. Người dùng dễ gặp khó khăn khi
phải xử lý một lượng thông tin quá lớn.
1.5.2 Siêu tìm kiếm
a) Cấu trúc của siêu tìm kiếm [14]
Cùng một yêu cầu tìm kiếm, các hệ tìm kiếm khác nhau trả về các kết quả
khác nhau, vì các thông tin, tài liệu mà mỗi hệ tìm kiếm thu thập được không hoàn
toàn giống nhau và cơ chế tìm kiếm trên các tài liệu đã được đánh chỉ mục của
chúng cũng khác nhau. Vậy, để tìm được nhiều tài liệu ta nên tìm trên nhiều hệ tìm
INTERNET
FPT search
Newsgroup
Web search
(Google, Altavista, )
Nhận kết quả
Gửi yêu cầu
Yêu cầu tìm kiếm
Kết quả
22
vào yêu cầu tìm kiếm, siêu tìm kiếm phân tích yêu cầu, chuyển các yêu cầu này đến
siêu tìm kiếm khác. Sau đó, thu nhận kết quả, phân loại và tổng hợp chúng thành
một danh sách duy nhất. Cuối cùng, siêu tìm kiếm trả kết quả đó cho người dùng, và
điều thuận tiện ở đây người dùng không phải nhớ nhiều địa chỉ của hệ tìm kiếm
trong khi nhận được kết quả đầy đủ, chính xác hơn trong một thời gian ngắn.
Siêu tìm kiếm phải hiểu được khuôn dạng câu lệnh tìm kiếm cũng như đặc
điểm của mỗi hệ tìm kiếm mà chúng gửi yêu cầu. Việc chuyển đổi các lệnh tìm
kiếm của người dùng sang các khuôn dạng thích hợp chỉ là một nửa công việc. Siêu
tìm kiếm còn nhận kết quả trả về từ các hệ tìm kiếm, đối chiếu kết quả và tổng hợp
chúng. Đây là một việc khó bởi mỗi hệ tìm kiếm có một cách phân loại khác nhau,
một cách lưu địa chỉ URL khác nhau, các địa chỉ đó tưởng chừng như khác nhau
nhưng thực tế có thể dẫn đến cùng một trang Web.
Người sử dụngnhập
yêu cầu tìm kiếm
Định dạng lại các yêu cầu
Yahoo
Lycos
Altavista
thì tổng điểm càng cao. Cuối cùng, siêu tìm kiếm sắp xếp các tài liệu theo tổng điểm
và trả về cho người dùng.
1.6 Một số vấn đề liên quan đến hệ tìm kiếm
Sự phát triển của hệ tìm kiếm đã chuyển từ lĩnh vực nghiên cứu sang lĩnh
vực thương mại hoá. Ngày nay, hầu hết các hệ tìm kiếm đã được thương mại hoá,
thuộc bản quyền của các công ty, nên các thông tin về kỹ thuật không được công bố
công khai. Hai vấn đề chính cần quan tâm trong việc tìm kiếm thông tin là: Thu
nhập thông tin và tìm được thông tin gì trong số thông tin thu nhập được.
Việc thu nhập thông tin từ các Web site khác nhau trên Internet liên quan đến
các điều sau [1]: