nghiên cứu và phát triển hệ thống xây dựng và vận hành tự động webbot thu thập thông tin trên internet để cung ứng các dịch vụ web theo yêu cầu - Pdf 16

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN

NGHIÊN CỨU VÀ PHÁT TRIỂN HỆ THỐNG
XÂY DỰNG VÀ VẬN HÀNH TỰ ĐỘNG
WEBBOT THU THẬP THÔNG TIN
TRÊN INTERNET ĐỂ CUNG ỨNG
CÁC DỊCH VỤ WEB THEO YÊU CẦU

TP.HCM, 2008
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
 
 
NGHIÊN CỨU VÀ PHÁT TRIỂN HỆ THỐNG
XÂY DỰNG VÀ VẬN HÀNH TỰ ĐỘNG
WEBBOT THU THẬP THÔNG TIN
TRÊN INTERNET ĐỂ CUNG ỨNG
CÁC DỊCH VỤ WEB THEO YÊU CẦU

 !"#$
Th.S ĐỖ HOÀNG CƯỜNG - Th.S TRẦN MINH TRIẾT
NIÊN KHÓA 2005 – 2008
%&' !"#$
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………
………………………………………………………………………………

+,-
Chúng em xin chân thành cảm ơn Khoa Công Nghệ Thông Tin, trường Đại Học
Khoa Học Tự Nhiên, Tp.HCM đã tạo điều kiện tốt cho chúng em thực hiện đề tài
tốt nghiệp này.
Chúng em xin chân thành cảm ơn Thầy Đỗ Hoàng Cường và Thầy Trần Minh Triết
những người đã tận tình hướng dẫn, chỉ bảo chúng em trong suốt thời gian thực
hiện đề tài.
Chúng em cũng xin gửi lời cảm ơn sâu sắc đến quý Thầy Cô trong Khoa đã tận
tình giảng dạy, trang bị cho chúng em những kiến thức quí báu trong những năm
học vừa qua.
Chúng em xin gửi lòng biết ơn sâu sắc đến ba, mẹ, các anh chị và bạn bè đã ủng hộ,
giúp đỡ và động viên chúng em trong những lúc khó khăn cũng như trong suốt thời
gian học tập và nghiên cứu.
Mặc dù chúng em đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho
phép, nhưng chắc chắn sẽ không tránh khỏi những thiếu sót, kính mong sự cảm
thông và tận tình chỉ bảo của quý Thầy Cô và các bạn.
Nhóm thực hiện
Nguyễn Đức Huy & Nguyễn Huy Khánh
.!-/
01234: Nghiên cứu và phát triển hệ thống xây dựng và vận hành tự động
WebBot thu thập thông tin trên Internet để cung ứng các dịch vụ web theo yêu cầu
456740189:1;<=1>ThS. Đỗ Hoàng Cường – ThS. Trần Minh Triết
8?4;4@1A8BC84D1: từ ngày 07/12/2007 đến ngày 15/07/2008
E4187401A8BC84D1>
Nguyễn Đức Huy (05HC077) – Nguyễn Huy Khánh (05HC087)
6F4G2A34: Tìm hiểu công nghệ và xây dựng ứng dụng
H4#I1;234(mô tả chi tiết nội dung đề tài, yêu cầu, phương pháp thực hiện,
kết quả đạt được, …):
Đây là đề tài thuộc về hướng tìm hiểu công nghệ và phát triển ứng dụng. Đề tài
bao gồm các phần sau:

%5C18W1CX@# ;3RYA851;Y1ZQ[
E8BC84D1
,\\
class="bi x0 y0 w1 h1"
class="bi x0 y0 w1 h1"
,]
Ngày nay, Internet đã trở thành một dịch vụ thông dụng và phổ biến trên thế giới.
Cùng với sự phát triển của Internet, nhu cầu truy xuất thông tin qua mạng của con
người ngày càng tăng. Với một khối lượng dữ liệu khổng lồ như hiện nay sẽ khiến
cho người dùng vô cùng khó khăn khi muốn tìm kiếm một thông tin nào đó phục
vụ cho nhu cầu của mình. Xuất phát từ thực tế này, nhu cầu tổng hợp và rút trích
thông tin đã trở thành một nhu cầu cấp bách và không thể thiếu được. Đây cũng
chính là mục tiêu trong đề tài nghiên cứu của chúng em.
Nội dung đề tài tập trung vào việc nghiên cứu và phát triển hệ thống xây dựng và
vận hành tự động WebBot thu thập thông tin trên Internet để cung ứng các dịch vụ
web theo yêu cầu. Hệ thống này sẽ giúp cho người dùng có thể thu thập nhiều
thông tin khác nhau một cách tự động. Quá trình thu thập thông tin sẽ được hệ
thống ghi nhận lại dưới tập tin XML được gọi là WebBot. Hệ thống sẽ tự động vận
hành các WebBot theo một chu kỳ định trước để thu thập các thông tin cần thiết
theo yêu cầu của người dùng. Đồng thời, hệ thống cung cấp các dịch vụ để truyền
dữ liệu đầu ra cho người dùng tại một địa chỉ nhất định theo các định dạng theo yêu
cầu của mà người dùng hoặc các hệ thống khác. Dựa vào hệ thống xây dựng sẽ là
một máy rút trích tổng quát phục vụ cho nhiều nhu cầu rút trích thông tin ứng dụng
trong nhiều lĩnh vực khác nhau như chứng khoán, tổng hợp tin tức, tìm kiếm bài
hát, phần mềm, …
Nội dung khóa luận bao gồm 9 chương:
89^1;Y> Mở đầu
89^1;[> Khảo sát hiện trạng
89^1;_> Các vấn đề và giải pháp cho hệ thống xây dựng và vận hành robot thu
thập thông tin trên web

đơn thuần như báo hay truyền hình mà còn có thể tương tác với chúng. Nội dung
của trang web không chỉ gói gọn trong website đó mà có thể liên kết với những
trang web hoặc những ứng dụng khác.
13
Web 2.0 đã làm xuất hiện thêm các thuật mới như Web API, Syndication Feed,
Mashup, … Nếu như Web API mang đến khả năng cung cấp thông tin web mà
không cần phải vào trang web đó, Syndication Feed là dịch vụ cho phép cập nhật
nhanh chóng nội dung tóm lược của trang web thì Mashup như một công cụ có khả
năng lấy thông tin từ nhiều nguồn dữ liệu khác nhau nhằm tạo một dịch vụ mới tổng
hợp từ các nguồn dữ liệu đó.
1.2. Giới thiệu về đề tài
Web 2.0 đã mở ra một thời kì mới cho công nghệ web. Các trang web phát triển
theo Web 2.0 đa phần cung cấp các giao thức truyền thông SOAP hoặc REST để
trao đổi thông tin giữa trang web với người dùng hoặc các ứng dụng khác. Tuy
nhiên không hẳn các dịch vụ mà trang web đó cung cấp đáp ứng đúng nhu cầu của
người dùng, hơn nữa các trang Web 1.0 không có các dịch vụ này. Vì thế vấn đề đặt
ra ở đây là làm thế nào ta có thể thiết kế một Robot tự động hay bán tự động để có
thể thực hiện việc rút trích các thông tin cần thiết cũng như tổng hợp thông tin trên
web thành các dịch vụ API cung cấp cho người sử dụng hoặc các hệ thống khác.
1.3. Mục tiêu của đề tài
Đây là đề tài thuộc về hướng tìm hiểu công nghệ và phát triển ứng dụng. Đề tài
hướng vào mục tiêu là chính là hỗ trợ người dùng tạo ra các WebBot tổng hợp
thông tin tự động hoặc bán tự động từ các website theo yêu cầu của người dùng.
Đề tài bao gồm các phần sau:
- Khảo sát hiện trạng các hệ thống phần mềm thu thập thông tin tự động hiện
đang có trên thế giới: @J6K,@L8IJEMN7MN, 4,@CN6L, MKO4MPMO
IA6Q@A461, IA6Q@A4611RK8MNM, EPSTJU6NMNIA6Q@A461.
- Thông qua việc khảo sát hiện trạng của các hệ thống trên, phân tích các
vấn đề cũng như giải pháp về kỹ thuật, công nghệ khi phát triển hệ thống
xây dựng và vận hành WebBot.

89^1;a> Phân hệ WebBot Online Manager
Nội dung của chương 6 trình bày chi tiết qui trình thực hiện, kiến trúc hệ thống và
các tính năng của phân hệ WebBot Manager cộng với các dịch vụ mà hệ thống này
cung cấp trong việc quản lý các tài khoản người dùng, quản lý các WebBot, quá
trình thực hiện upload WebBot lên hệ thống máy chủ và hiển thị nộp dung kết quả
thực hiện của WebBot.
89^1;> Phân hệ WebBot Watcher
Nội dung của chương 7 trình bày chi tiết qui trình thực hiện, kiến trúc hệ thống và
các tính năng của phân hệ WebBot Watcher cộng với các dịch vụ mà hệ thống này
cung cấp trong việc giám sát các yêu cầu thực thi của các WebBot và tự động vận
hành các WebBot này khi có yêu cầu.
89^1;> Phân hệ WebBot Services
Nội dung của chương 8 trình bày chi tiết qui trình thực hiện, kiến trúc hệ thống và
các tính năng của phân hệ WebBot Services cộng với các dịch vụ mà hệ thống này
cung cấp trong việc định dạng các kết quả thực hiện của WebBot và cung cấp các
dịch vụ để kết xuất các kết quả này ra bên ngoài theo yêu cầu của người dùng.
89^1;b> Kết luận
Nội dung của chương 9 trình bày các kết quả đạt được và hướng phát triển của đề
tài.
16
Chương 2
Khảo sát hiện trạng

Nội dung của chương 2 trình bày về việc khảo sát hiện trạng của các công cụ
rút trích thông tin tự động trên Internet trên thế giới.
2.1. Khảo sát các công cụ tự động hóa và rút trích thông tin trên
web
2.1.1. Kapow Mashup Server
Website: http://www.kapowtech.com
 c1;dI@18DA8e1;J8f1Q2Q

m
g
18[,h8i18PMO[lS<4A61CX@8DA8e1;@J6K,@L8IJEMN7MN
Hệ thống Web 2.0 Edition của Kapow Mashup Server cung ứng cho người dùng
nhiều định dạng dữ liệu đầu ra:
Mashup Builder: là một cơ chế định dạng và tổ chức dữ liệu từ nhiều Robot lấy
thông tin từ nhiều nguồn khác nhau.
Java/.Net Toolkits: hỗ một số dịch cung ứng để các ứng dụng Java hay .Net có thể
lấy dữ liệu về được. Ví dụ: hệ thống Ajax, PHP, ….
Hiện nay, phần mềm RobotMaker của công ty Kapow Technologies đã được phát
triển lên đến 7MNL461al` và vẫn còn đang được tiếp tục phát triển để hoàn thiện các
chức năng.
Về giá của hệ thống này thì tùy thuộc vào nhu cầu của doanh nghiệp mà phía Công
ty Kapow Technologies sẽ có một định mức giá khác nhau. Khi muốn đang ký sử
dụng hệ thống thì khách hàng phải liên lạc trực tiếp với để thương lượng giá cả và
ký kết hợp đồng.
Ngôn ngữ xây dựng lên hệ thống: Java
 !Ik8IRVAG4nQ
• Ưu điểm
- Hệ thống hỗ trợ nhiều cơ chế định dạng dữ liệu đầu ra.
- Tính mềm dẻo trong việc thiết kế Robot.
20
• Khuyết điểm
- Thao tác duyệt web thực hiện qua nhiều thao tác khiến người dùng gặp
nhiều khó khăn trong việc thiết kết Robot.
- Hệ thông bị hạn chế không lấy được link trong các website có chứa Frame.
2.1.2. iMacros
Website: http://www.iopus.com/
 c1;dI@18DA8e1;J8f1Q2Q
Sử dụng iMacros để tạo các solution cho web automation, web scraping hoặc web

Internet Explorer và Firefox. Ngoài ra, nó còn là công cụ thực hiện kiểm tra trong
trình duyệt của Java, Flash, Flex hoặc Silverlight applets và tất cả AJAX elements.
Lệnh STOPWATCH của iMacros cho phép bắt giữ lại thời gian đáp ứng chính xác
của trang web trong mọi bước của một tiến trình.
Tự động điền biểu mẫu và quản lý mật khẩu
iMacros loại bỏ sự lặp lại nhàm chán của việc checking những trang web như nhau
hằng ngày, ghi nhớ mật khẩu, và hoàn tất các web forms. iMacros là form filler duy
nhất có thể tự động điền thông tin vào web forms trên nhiều trang. Tất cả thông tin
được lưu dạng plain-text dễ đọc hiểu và có thể sắp xếp dễ dàng. Mật khẩu được lưu
an toàn với sự mã hóa an toàn 256-Bit AES.
iMacros là một giải pháp lựa chọn tốt cho Enterprise Single Sign-On (SSO). Người
dùng chỉ nhớ duy nhất một mật khẩu chủ và iMacros ghi nhớ tất cả những mật khẩu
còn lại, và cảm nhận tính năng tự động đăng nhập cao cấp của Single Sign-On.
23
Sử dụng iMacros như một thành phần của phần mềm
Chỉ cần vài phút đã có thể thêm tự động hóa trên web cho ứng dụng thay vì phải
mất vài tuần hoặc vài tháng. Bạn có một kỹ thuật đã được minh chứng, đã được test
và debug trên 5 năm và được sử dụng trên 500,000 bản cài đặt.
Các ứng dụng khác
Muốn hiểu rõ hơn về cách sử dụng iMacros bạn có thể xem thêm thông tin ở
trang http://forum.iopus.com .
Phiên bản mới nhất :
iMacros for Firefox V6.0.5.3
iMacros for Internet Explorer V6.14
iOpus iMacros V6.14
Giá của sản phẩm:
Eo1J8pQ 45
iMacros Scripting Edition $499.00
iMacros PRO Edition $199.00
iMacros Power Surfer Edition $49.95

của bạn. Không có thông tin cá nhân nào được chuyển qua Internet. Newbie Labs
đã thiết lập những ưu tiên để chắc chắn thông tin người dùng như username,
password chỉ có người dùng được truy cập. Đây là giải thuật mã hóa Blowfish với
mẫu 64-bit.
25


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status