tìm hiểu về web crawler và xây dựng website tổng hợp thông tin - Pdf 10

Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin

2010

I

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Minh Phúc TÌM HIỂU VỀ WEB CRAWLER VÀ XÂY DỰNG
WEBSITE TỔNG HỢP THÔNG TIN

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin HÀ NỘI - 2010

Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin

2010

III

TÓM TẮT NỘI DUNG

Do nhu cầu thu thập thông tin của con người ngày càng tăng, lượng thông tin trên
internet ngày càng phong phú nên vấn đề tổng hợp thông tin ngày càng trở nên bức
thiết. Với một lượng dữ liệu lớn việc thu thập bằng tay tốn rất nhiều công sức, và
không đạt hiệu quả cao, chính vì thế cần một công nghệ có thể tổng hợp thông tin một
cách tự động và trình thu thập web đã ra đời.
Đề tài khóa luận đặt ra vấn đề tìm hiểu về trình thu thập thông tin trên web và
bước đầu sẽ xây dựng một ứng dụng có khả năng tổng hợp thông tin tự động từ trang
báo điện tử lớn là trang Dân trí (). Ứng dụng được viết bằng ngôn
ngữ lập trình PHP tương tác với cơ sở dữ liệu mySQL và được xây dựng dựa trên các
tiêu chí: tốc độ thu thập nhanh, cơ sở dữ liệu gọn nhẹ, đảm bảo tính toàn vẹn của tài
liệu gốc.

1.3.2. Chiến lược thu thập dữ liệu theo chiều rộng 16
1.3.3. Chiến lược thu thập dữ liệu theo ngẫu nhiên 17
1.3.4. Chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ. 17
1.4. ĐÁNH GIÁ CỦA TRÌNH THU THẬP 19
1.4.1. Độ quan trọng của trang web 20
1.4.2. Phân tích tổng quát 21
1.4.2.1. Thước đo độ chính xác 22
1.4.2.2. Thước đo độ hoàn chỉnh 22
Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin

2010

V

CHƯƠNG 2. XÂY DỰNG WEBSITE TỔNG HỢP THÔNG TIN 25
2.1. CÁC KIẾN THỨC NỀN TẢNG 25
2.1.1. Mạng toàn cầu 25
2.1.2. Giao thức truyền tải siêu văn bản 28
2.1.3. Ngôn ngữ đánh dấu siêu văn bản 28
2.2. CÁC CÔNG NGHỆ LIÊN QUAN 30
2.2.1. Ngôn ngữ lập trình PHP 30
2.2.1.1. Biểu thức chính quy 31
2.2.1.2. Các hàm xử lý chuỗi 34
2.2.1.2.1. Tìm kiếm chuỗi trong chuỗi 34
2.2.1.2.2. Tìm vị trí của chuỗi con 34
2.2.1.2.3. Hàm so sánh chuỗi 34
2.2.1.2.4. Kiểm tra chiều dài của chuỗi 35
2.2.2. MySQL 35
2.2.3. Một số công nghệ và tiện ích khác 37
2.2.3.1. Add-ons firebug của firefox 37

Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin

2010

VII

BẢNG DANH MỤC CÁC HÌNH MINH HỌA

Hình 1: Một vòng thu thập web cơ bản 5
Hình 2: Mô hinh cây tương ứng với một mã nguồn HTML 12
Hình 3: Một mô hình trình thu thập đa luồng 14
Hình 4: Hình minh họa về độ hoàn chỉnh và độ chính xác 21
Hình 5: Hình mình họa thu hồi mục tiêu 23
Hình 6: So sánh giữa thuật toán breadth-first và naive best-first 24

nó đã chi phối và làm thay đổi mọi mặt của đời sống xã hội, làm cho cuộc sống của
con người văn minh, hiện đại hơn. Sự ra đời của internet chính là bước tiến vĩ đại của
nhân loại, là yếu tố quan trọng bậc nhất chi phối cuộc sống của chúng ta ngày nay.
Nhờ có internet thế giới trở nên ‘phẳng’ hơn, ở mọi nơi trên trái đất chúng ta đều có
thể học tập và tìm kiếm thông tin.
Theo guồng quay của cuộc sống, thế giới internet ngày càng rộng lớn và phong
phú hơn. Cứ mỗi phút trôi qua có thêm hàng triệu trang web được sinh ra để làm giàu
cho vốn tài nguyên tri thức của nhân loại. Nhưng cũng chính vì thế mà việc chọn lọc,
tìm kiếm thông tin lại trở nên khó khăn hơn. Với kho dữ liệu đồ sộ như internet, vấn
đề trích xuất và tổng hợp thông tin đã trở thành vấn đề thực sự cấp thiết hiện nay. Nếu
giải quyết được vấn đề này chúng ta sẽ loại bỏ được một chướng ngại lớn trên con
đường tổng hợp thông tin của nhân loại.
Đề tài khóa luận đặt ra vấn đề tìm hiểu về trình thu thập thông tin trên web và
bước đầu sẽ xây dựng một ứng dụng có khả năng tổng hợp thông tin tự động từ các
trang báo điện tử lớn. Đề tài nếu thành công sẽ là bước đi không nhỏ giúp cho việc
tổng hợp thông tin trở nên đơn giản hơn, giảm được nhiều chi phí công sức so với việc
tổng hợp thủ công, và là tiền đề để xây dựng nên một hệ thống máy tìm kiếm, giống
như google, cho người Việt Nam.
Nội dung của khóa luận sẽ tập trung vào các mục tiêu chính sau:
- Đưa ra được một cái nhìn tổng quát về trình thu thập web (web crawler)
- Xây dựng một ứng dụng website tổng hợp thông tin có khả năng thu thập các
bản tin từ các trang báo lớn như Dân trí.
Để giải quyết được các mục tiêu này, khóa luận được chia thành ba chương lớn:
Chương 1: Tìm hiểu về trình thu thập web
Trong chương này, chúng ta sẽ lần lượt tìm hiểu các khái niệm cơ bản trong trình
thu thập web. Phần lớn nội dung trong chương này sẽ đi sâu vào việc tìm hiểu các
thành phần cấu thành nên một trình thu thập, các chiến lược thu thập dữ liệu, việc đánh
giá của trình thu thập đối với trang web. Qua đó chúng ta sẽ có một bức tranh chung
Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin

Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin

2010

3

CHƯƠNG 1. TÌM HIỂU VỀ TRÌNH THU THẬP WEB
1.1. GIỚI THIỆU VỀ TRÌNH THU THẬP WEB
Trình thu thập web (Web crawler) là một chương trình khai thác cấu trúc đồ thị
của web di chuyển từ trang này qua trang khác. Thời kỳ đầu nó có những tên khá
tượng hình như bọ web, rô-bốt, nhện và sâu, nhưng ngày nay tên gọi phổ biến nhất là
vẫn là trình thu thập web [1]. Mặc dù vậy cụm từ ‘thu thập’ không lột tả được hết tốc
độ của những chương trình này, vì chúng có tốc độ làm việc đáng kinh ngạc, có thể thu
thập dữ liệu lên đến hàng chục ngàn trang trong vòng một vài phút.
Từ thời kỳ đầu, một động lực quan trọng thúc đẩy quá trình phát triển của việc
thiết kế trình thu thập web là lấy được nội dung các trang web và thêm chúng hoặc
đường dẫn của chúng vào một kho lưu trữ trang – một kiểu kho lưu trữ có thể dùng để
phục vụ cho các ứng dụng cụ thể trong công cụ tìm kiếm web (search engine).
Các trình thu thập thường bắt đầu bằng cách chọn một số các đường dẫn (URL)
ứng với các trang web sẽ ghé thăm đầu tiên, các trang này được gọi là các trang hạt
giống. Khi ghé thăm một trang hạt giống, trình thu thập sẽ đọc nội dung trang web, lọc
ra tất cả các siêu liên kết (hyperlink) có trong trang web đó và đưa các URL tương ứng
với chúng vào một danh sách gọi là biên giới (frontier). Dựa vào danh sách này, trình
thu thập tiếp tục quá trình duyệt đệ quy để ghé thăm tất cả các URL chưa được duyệt.
Quá trình này chỉ dừng lại khi trình thu thập đã thu thập đủ số trang yêu cầu hoặc
frontier là rỗng, tức là không còn URL để duyệt. Tuy mô tả này có vẻ đơn giản nhưng
đằng sau chúng là khá nhiều vấn đề hóc búa liên quan đến kết nối mạng, bẫy nhện, tiêu
chuẩn trích xuất URL, chuẩn hóa các trang HTML, bóc tách nội dung trang HTML
vv Ở phần sau của khóa luận tôi sẽ lần lượt trình bày đến các vấn đề này và hướng

Mục đích chung của các hệ thống search engine là số lượng trang web đầu vào đạt giá
trị cao nhất có thể, trong đó trình thu thập web làm công việc chính là duy trì cơ sở dữ
liệu được đánh chỉ mục, trả về giá trị của bộ thu thập và bộ lập chỉ mục cho hàng triệu
truy vấn nhận được từ người dùng. Các trang được đánh chỉ mục dựa trên các thuật
toán ưu tiên hoặc dựa vào các phương pháp dựa trên kinh nghiệm (heuristic). Ngoài ra,
chúng ta có thể sử dụng trình thu thập web để xây dựng các phần mềm tập trung thông
tin, các trang web tổng hợp thông tin, dựa trên cơ chế tự động tìm và phát hiện tài
nguyên.
1.2. CÁCH XÂY DỰNG MỘT HẠ TẦNG THU THẬP
Hình 1 cho ta thấy một chu trình của một trình thu thập web cơ bản [1]
Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin

2010

5 Hình 1 : Một vòng thu thập web cơ bản

Trình thu thập chứa một danh sách các URL chưa được thăm gọi là biên giới
(frontier). Danh sách được khởi tạo bởi một số các URL hạt giống – các URL này
được cung cấp bởi một người dùng hoặc một chương trình khác. Mỗi vòng lặp là một
quá trình gồm các bước :
- Lấy một URL tiếp theo từ frontier ra để thu thập.
- Lấy trang tương ứng với URL thông qua HTTP.
- Bóc tách trang vừa lấy để trích xuất ra các URL và các nội dung thông tin cụ
thể.
- Cuối cùng là thêm các URL chưa thăm vào frontier.
Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin

trị băm nhanh hơn nhiều việc so sánh một giá trị với một khối dữ liệu lớn.
Hiện nay do bộ nhớ máy tính là rất lớn nên vấn đề về bộ nhớ là không mấy quan
trọng so với vấn đề về tốc độ. Do vậy, cách sử dụng hàm băm được sử dụng rộng rãi vì
tuy là tốn bộ nhớ hơn nhưng tốc độ tìm kiếm lại được cải thiện đáng kể.
Khi frontier đạt đến miền giới hạn, thì các trình thu thập theo chiều rộng sẽ làm
việc theo cơ chế sau : sau khi đưa một URL ra khỏi frontier để tiến hành quá trình thu
Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin

2010

7

thập trang tương ứng thay vì việc lấy tất cả URL trong trang này trình thu thập sẽ chỉ
lấy URL chưa thăm đầu tiên và thêm vào frontier.
Frontier có thể coi như một hàng đợi ưu tiên trong trường hợp chúng ta sử dụng
thuật toán tìm kiếm theo lựa chọn tốt nhất [5]. Trình thu thập sử dụng chiến thuật tìm
kiếm này gọi là trình thu thập ưu tiên. Hàng đợi ưu tiên là một mảng với các phần tử là
các URL được sắp xếp theo điểm đánh giá. Điểm đánh giá này được xác định dựa trên
một số các phương pháp dựa trên kinh nghiệm (heuristic). Trình thu thập ưu tiên sẽ
làm việc theo cơ chế sau: URL được lấy ra khỏi frontier để tiến hành thu thập luôn là
URL tốt nhất. Sau khi thu thập trang tương ứng, các URL được trích xuất ra được đưa
vào frontier và các danh sách URL được sắp xếp lại theo điểm đánh giá. Để tránh việc
trùng lặp URL chúng ta cũng duy trì một hàm băm với các khóa là URL để tra cứu.
Khi frontier đạt đến miền giới hạn, cơ chế làm việc của trình thu thập tối ưu cũng
giống với trình thu thập theo chiều rộng chỉ khác là các URL được lấy là các URL tốt
nhất (tức là URL có điểm đánh giá cao nhất).
Trong trường hợp trình thu thập nhận thấy frontier là danh sách rỗng (không thể
lấy ra các URL tiếp theo để thu thập) thì quá trình thu thập sẽ kết thúc. Tuy vậy trường
hợp rất hiếm xảy ra vì với một số URL hạt giống và miền giới hạn khá lớn frontier
hiếm khi đạt trạng thái rỗng.

hóa. Giá trị kết quả của hàm băm được sử dụng làm tên của tập tin. Ví dụ ta có thể sử
dụng hàm băm MD5 [8] cung cấp một mã băm 128 bit cho mỗi URL. Giá trị băm 128
bit sau đó được chuyển đổi sang hệ thập lục phân (hecxa) 32 ký tự để lấy ra tên file. Ví
dụ nội dung của được lưu trữ trong một tập tin tên là
160766577426e1d01fcb7735091ec584. Bằng cách này chúng ta có độ dài tên tập tin
luôn cố định cho dù có bao nhiều URL đi nữa. Tất nhiên nếu chỉ cần lưu trữ vài nghìn
trang thì ta có thể sử dụng một hàm băm đơn giản hơn. Trong một số trường hợp các
kho lưu trữ trang cũng có thể dùng để kiểm tra xem một URL đã được thu thập hay
chưa trước khi chuyển đổi sang tên tập tin 32 ký tự. Trong những trường hợp này có
thể bỏ đi cấu trúc dữ liệu lược sử.
1.2.3. Cách lấy trang
Để lấy một trang web, chúng ta cần một máy khách HTTP (HTTP client) gửi một
yêu cầu HTTP (HTTP request) cho trang đó và đọc các phản hồi [4]. Client cần có thời
gian trễ để đảm bảo rằng không bị mất thời gian không cần thiết vào các máy chủ
chậm hoặc đọc các trang lớn. Trong thực tế chúng ta thường hạn chế vấn đề này bằng
cách cho client tải về khoảng 10-20 KB đầu tiên của trang. Client cần bóc tách được
tiêu đề phản hồi cho các mã trạng thái và chuyển hướng. Kiểm tra lỗi và xử lý ngoài
luồng là rất quan trọng trong quá trình lấy trang vì chúng ta phải đối phó với hàng triệu
máy chủ. Trong quá trình lấy trang, trình thu thập không thể tự quyết định tài liệu nào
được lập chỉ mục và tài liệu nào không, do đó nó lấy tất cả những gì có thể. Thậm chí
dù xác định được tài liệu vô ích thì nó cũng đã bỏ ra một chi phí đáng kể cho hoạt
động thu thập. Tiêu chuẩn loại trừ robot (Robot Exclusion Protocol, [12]) ra đời.
Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin

2010

9

1.2.3.1. Tiêu chuẩn loại trừ robot
Tiêu chuẩn này cung cấp cho người quản trị Web (Webmaster) một cơ chế xác

robot không phần biệt chữ hoa và chữ thường.
User-agent:
SpamBot
Disallow:/
User-agent:*
SpamBot bị cấm truy cập tất cả tài nguyên.
Trong khi các robot khác được được truy cập tất cả trừ
thư mục “private”.
Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin

2010

10 Nhược điểm của file robot.txt :
Người ta cho rằng việc liệt kê các trang hoặc các thư mục trong file robot.txt sẽ
là nguyên nhân thu hút sự chú ý và trở thành mục tiêu cho các hacker. Thực ra chuẩn
loại trừ robot chỉ là dấu hiệu cảnh báo, không phải là biện pháp cấm robot cho nên
việc tuân theo hay không hoàn toàn là vấn đề tự nguyện. Tuy nhiên vẫn có cách khắc
phục:
Tạo một thư mục chứa tất cả các file quan trọng.
- Trường Disallow chỉ liệt kê tên thư mục vừa tạo.
- Cấu hình server sao cho các trang không chứa đường dẫn đến thư mục này.
Đáng buồn trên thực tế cách này không đạt được kết quả mong đợi do một trong
các nguyên nhân sau :
- Các server có robot không bị cấm có thể dẫn đường các robot bị cấm khác
đến những file này.
- Các file quan trọng có thể nằm trong log file (file được tự do truy xuất).
- Khi cấu hình lại server, admin có thể ‘quên‘ các thư mục này phải cấm

nội dung có thể là quá trình khai thác hyperlink/URL đơn giản hoặc nó có thể bao gồm
quá trình phức tạp hơn như lọc nội dung HTML để phân tích thành mô hình thẻ
HTML dạng cây (HTML tag tree). Phân tích nội dung cũng có thể bao gồm các bước
chuyển đổi URL được trích xuất thành dạng tiêu chuẩn, loại bỏ những từ ở phần đầu
nội dung của trang và lấy các từ còn lại ở phần thân.
1.2.4.1. Tiêu chuẩn trích xuất URL
Hàm bóc tách HTML có sẵn cho nhiều ngôn ngữ khác nhau. Chúng cung cấp
các chức năng để dễ dàng xác định các tag HTML và cặp các giá trị thuộc tính liên
quan trong một tài liệu HTML. Để trích xuất siêu liên kết URL từ một Trang Web,
chúng ta có thể sử dụng các hàm bóc tách để tìm thẻ anchor (thẻ <a>) và lấy các giá trị
các thuộc tính href liên quan. Trước tiên chúng ta phải chuyển đổi tất cả các đường
dẫn URL sang đường dẫn URL tuyệt đối vì có nhiều đường dẫn URL viết không đúng
quy chuẩn có thể cùng dẫn tới một trang. Điều này là quan trọng để tránh lấy một trang
nhiều lần. Đây là một số bước điển hình được sử dụng trong thủ tục chuẩn hóa URL:
 Chuyển đổi giao thức và tên máy chủ thành dạng chữ thường.
Ví dụ, HTTP://www.COLTECH.vnu.edu.vn chuyển đổi thành
.
 Loại bỏ phần ‘tham khảo’ trong URL.
Ví dụ, chuyển đổi thành

 Thực hiện mã hóa URL cho một vài những ký tự thường sử dụng như ’~’
Điều này sẽ tránh được việc thu thập lại 1 trang.
Ví dụ, và
%7Epant/ là 2 URL cùng dẫn đến một trang.
 Đối với một vài URL, thêm ký tự ‘/’. Ví dụ, và
cùng nối tới một dạng chuẩn. Quyết định thêm
‘/’ sẽ cần heuristic trong nhiều trường hợp.
 Sử dụng các heuristic để nhận ra các trang web mặc định. Những tên file như
index.html hoặc index.htm có thể được loại bỏ trong đường dẫn URL với thừa
nhận rằng đó là những trang mặc định.

13

Có thể thấy thẻ <html> là gốc của cây, các thẻ bên trong nó là các node mở rộng,
và dữ liệu text là lá của cây.
Trên thực tế, không phải văn bản HTML nào cũng được viết đúng quy chuẩn như
ví dụ trên. HTML là ngôn ngữ không phân biệt chữ hoa hay chữ thường (hai thẻ <tr>
và <TR> đều là một). Các phần tử HTML cần có một thẻ mở và một thẻ đóng, tuy
nhiên điều này không luôn luôn đúng, có nhiều phần tử không cần thẻ đóng, ví dụ các
thẻ , <hr> và <li>. Ngoài ra khi lồng nhau, các phần tử HTML cũng không cần
thiết phải lồng nhau theo đúng thứ tự (tức là thẻ nào mở trước thì phải đóng sau). Ví
dụ sau là hợp lệ trong HTML:
 Cộng hòa xã hội chủ nghĩa Việt Nam Độc lập tự do hạnh
phúc
Vì vậy trước khi lập mô hình cây cho một mã nguồn HTML chúng ta cần một
quá trình chuyển đổi các tài liệu HTML tồi thành các tài liệu HTML tiêu chuẩn, quá
trình này gọi là chuẩn hóa các trang HTML. Quá trình này bao gồm việc chuyển đổi
các thẻ sang dạng chữ thường, chèn thêm các thẻ bị và sắp xếp lại thứ tự các thẻ trong
tài liệu HTML. Chuẩn hóa trang HTML là rất cần thiết để việc lập mô hình cây được
chính xác. Nếu như trình thu thập chỉ cần lấy các liên kết hoặc văn bản hoặc một phần
văn bản thì có thể ta không cần sử dụng tới mô hình cây mà chỉ cần sử dụng kỹ thuật
bóc tách HTML đơn giản. Trình bóc tách như vậy cũng được hỗ trợ trong nhiều ngôn
ngữ lập trinh.
1.2.5. Trình thu thập đa luồng
Mỗi vòng thu thập tuần tự chiếm một lượng lớn thời gian, trong khi đó một
trong hai cái là CPU hoặc mạng lại nhàn rỗi: CPU nhàn rỗi (trong khi truy cập mạng)
hoặc mạng nhàn rỗi (trong các hoạt động của CPU). Việc xử lý đa luồng với mỗi
luồng là một vòng thu thập, có thể giúp cho việc tăng tốc độ hợp lý và sử dụng hiệu
quả băng thông sẵn có. Hình 3 chỉ ra một phiên bản đa luồng [1] của trình thu thập cơ
bản trong hình 1:

Nếu một luồng phát hiện ra frontier rỗng, nó không tự động hiểu là toàn bộ trình thu
thập đã đến trạng thái kết thúc. Nó có thể cho rằng các luồng khác đang lấy trang và có
thể thêm các URL mới trong tương lai gần. Một cách để giải quyết với tình trạng này
là đặt một luồng một trạng thái chờ khi frontier bị khóa. Khi hết thời gian chờ nó sẽ
kiểm tra lại frontier. Sẽ có một bộ kiểm tra chịu trách nhiệm theo dõi số luồng đang ở
trạng thái chờ tại thời điểm hiện tại. Chỉ khi tất cả các luồng đều trong trạng thái chờ
thì khi đó trình thu thập sẽ dừng lại.
1.3. CÁC CHIẾN LƯỢC THU THẬP DỮ LIỆU
Trong phần này chúng ta sẽ thảo luận về một số chiến lược thu thập dữ liệu [5]
bao gồm :
- Chiến lược thu thập dữ liệu theo chiều sâu.
- Chiến lược thu thập dữ liệu theo chiều rộng.
- Chiến lược thu thập dữ liệu theo ngẫu nhiên.
- Chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ.
Như đã nói ở phần trước về bản chất, quá trình thu thập web chính là quá trình
duyệt đệ quy một đồ thị. Các web được xem như một đồ thị với các trang là các đỉnh
(node) và các siêu liên kết là các cạnh. Chính vì thế các chiến thuật thu thập dữ liệu
cũng được xây dựng dựa trên các thuật toán tìm kiếm trên đồ thị. Các thuật toán tìm
kiếm trên đồ thị bao gồm:
- Tìm kiếm theo chiều sâu (Depth-First Search): Là thuật toán tìm kiếm bằng
cách mở rộng nút đồ thị theo chiều sâu.
- Tìm kiếm theo chiều rộng (Breath-First Search): Là thuật toán tìm kiếm
bằng cách mở rộng nút đồ thị theo chiều rộng.
- Tìm kiếm theo lựa chọn tốt nhất (Best-First Search): Là một thuật toán tìm
kiếm tối ưu bằng cách mở rộng nút hứa hẹn nhất theo một quy tắc nào đó.

Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin

2010

Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin

2010

17

Bước 4: Đánh dấu trang này đã được thăm. Bóc tách trang và tìm các liên kết có
trong trang này.
- Nếu có, thêm các liên kết vào cuối danh sách. Quay lại bước 3.
- Nếu không, quay lại bước 1.
Bước 5: Kết thúc.

1.3.3. Chiến lược thu thập dữ liệu theo ngẫu nhiên
Quá trình thực hiện:
Bước 1: Lấy URL ngẫu nhiên trong danh sách để thu thập.
- Nếu có qua bước 2.
- Nếu không qua bước 5.
Bước 2: Lấy trang tương ứng với URL qua HTTP.
- Nếu có qua bước 3.
- Nếu không quay lại bước 1.
Bước 3: Kiểm tra xem trang này đã được được thăm chưa?
- Nếu chưa qua bước 4.
- Nếu rồi quay lại bước 1.
Bước 4: Đánh dấu trang này đã được thăm. Bóc tách trang và tìm các liên kết có
trong trang này.
- Nếu có, thêm các liên kết vào cuối danh sách. Quay lại bước 3.
- Nếu không, quay lại bước 1.
Bước 5: Kết thúc.
1.3.4. Chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ.
Chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ (Naive Best-First,

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

tìm hiểu về web crawler và xây dựng website tổng hợp thông tin - Pdf 10

Tài liệu, ebook tham khảo khác

Học thêm