LUẬN VĂN: ĐỌC BÁO ĐIỆN TỬ VÀ TÌM KIẾM
THÔNG TIN TRÊN INTERNET
Chương I : Giới thiệu sản phẩm
MỤC LỤC
CHƯƠNG I : GIỚI THIỆU SẢM PHẨM…………………………………………1
I.1. MỞ
ĐẦU………………………………………………………………………………….1
I.2. MỘT VÀI VÍ DỤ ỨNG
DỤNG………………………………………………………2
CHƯƠNG II : LÝ THUYẾT CHUNG…………………………………………… 3
II.1. PHÂN LOẠI NGUỒN THÔNG
TIN……………………………………………….3
II.1.1. Các trang web thông tin có cấu trúc được cập nhật thường
xuyên……………………………………………………………………
………….….4
II.1.2. Các trang Web thông tin có cấu trúc không được cập nhật thường
xuyên……………………………………………………………………
….5
II.1.3. Các trang Web thông tin có cấu trúc lỏng lẻo……………………….…6
II.2.
WEBMINING……………………………………………………………………………
6
II.2.1. Thu thập thông tin (Information Retrieval) ………………… 7
II.2.2. Bóc tách thông tin (Information Extraction) ………………….7
II.2.3. Tổng hợp và tổng quát hoá dữ liệu (Generation) ………… 8
II.2.4. Phân
tích………………………………………………………………….…8
II.3.
XLM……………………………………………………………………………………
…8
V.3.LẤY THÔNG TIN VỀ CÁC BÀI
BÁO…………………………………………… 40
V.4. XEM BÁO TRỰC TUYẾN
………………………………………………………… 41
V.5. XEM CÁC BÀI BÁO ĐÃ
LƯU………………………………………………………42
V.6. CHỈNH SỬA VÀ THÊM CHÚ THÍCH VÀO BÀI
BÁO……………………….43
V.7. TÌM KIẾM BÀI
BÁO………………………………………………………………….43
V.8. CẬP NHẬT CÁC KÊNH THÔNG TIN
MỚI…………………………………….44
CHƯƠNG VI : KẾT LUẬN…………………………………………………………44
GIỚI THIỆU SẢN PHẨM 4
I.1.MỞ ĐẦU 4
I.2.MỘT VÀI VÍ DỤ ỨNG DỤNG 5
LÝ THUYẾT CHUNG 6
II.1.PHÂN LOẠI NGUỒN THÔNG TIN 6
II.1.1.Các trang Web thông tin có cấu trúc được cập nhật thường xuyên 7
II.1.2.Các trang Web thông tin có cấu trúc không được cập nhật thường xuyên 7
II.1.3.Các trang Web thông tin có cấu trúc lỏng lẻo 8
II.2.WEBMINING 8
II.2.1.Thu thập thông tin (Information Retrieval) 9
II.2.2. Bóc tách thông tin (Information Extraction) 10
II.2.3.Tổng hợp và tổng quát hoá dữ liệu (Generation) 10
II.2.4.Phân tích 10
II.3.XML 11
NGHIÊN CỨU
GIẢI PHÁP 12
III.1.THU THẬP THÔNG TIN 13
Thế nhưng, hãy thử tưởng tượng rằng, nếu một ngày nào đó tất cả mọi người
đều có đầy đủ những thông tin mà mình cần, còn riêng bạn lại ngập lụt trong một biển
thông tin nhiều đến nỗi không sao xử lý hết được thì sẽ thế nào?
Càng ngày bạn càng cần phải thu thập thông tin ở nhiều lĩnh vực cùng một lúc
và đã bao giờ bạn phát chán lên vì không biết phải làm gì khi có quá nhiều thông tin
chưa? Đã bao giờ bạn cảm thấy chán ngán khi trong tay mình có danh sách của hàng
chục, hàng trăm tờ báo điện tử, diễn đàn, search engine, rồi các website thông tin về đủ
mọi lĩnh vực, nhưng lại không thể đủ thời gian để cập nhật dù chỉ là lướt qua hết các
nguồn tin này chưa? Có thể có và cũng có thể là chưa.
Hệ thống của tôi ra đời với một tiêu chí vô cùng đơn giản “Mang lại cho người
sử dụng thông tin và chỉ những thông tin mà họ cần”. Thông tin bạn cần nhất khi
muốn xem lướt qua các tờ báo điện tử là gì? Có thể chỉ là tiêu đề bài báo và vài dòng
tóm tắt qua nội dung của bài báo đó. Thông tin bạn cần nhất khi lướt qua một diễn đàn
là gì? Có thể chỉ là tên bài viết và tác giả của bài viết đó. Cũng như vậy đối với một
trang Web cung cấp thông tin về giá cả chứng khoán. Bạn cần chỉ số chứng khoán của
các công ty chứ đâu cần phải rối tinh lên vì các thông tin không cần thiết nằm trong
trang Web đó Nhưng có phải là hệ thống của tôi sẽ chỉ mang đến cho bạn thông tin về
tiêu đề cùng với phần tóm tắt của các tin tức trên rất nhiều các trang báo điện tử trong
và ngoài nước, hay tên bài viết và tác giả của các chủ đề trên rất nhiều các diễn đàn trao
đổi thông tin, hay đơn thuần chỉ là các chỉ số chứng khoán, … không thôi?
- 4 -
Chương I : Giới thiệu sản phẩm
Không, tất nhiên không chỉ có vậy, hệ thống của tôi được xây dựng như là một
giải pháp tổng quát để thu thập và tách thông tin từ bất cứ nguồn tin nào trên
Internet. Với sự cố gắng nỗ lực hết mình trong phạm vi giới hạn của kiến thức, tôi cũng
đã cung cấp cho bạn một cơ chế tương tác trực quan giữa người và máy để xác định
thông tin cần bóc tách mà ngay cả những hệ thống có chức năng tương tự như Novobot,
WebFerret hay Copernic cũng rất khó khăn hay hầu như không thể cung cấp cho bạn
được. Tính khả mở của hệ thống đã được chuyển giao từ những người tạo ra hệ thống
vào tay người sử dụng. Hệ thống của tôi giờ đây đã cung cấp đầy đủ các chức năng để
thông tin nhất định nào đó thôi, ví dụ như tên nhạc sĩ sáng tác và lời bài hát tương ứng
từ một site về lyrics nào đó để tổng hợp lại thành cơ sở dữ liệu của riêng bạn, mà bạn
đang băn khoăn không biết nên làm thế nào để có thể thực hiện công việc này một cách
nhanh chóng và ít tốn công sức nhất thì hệ thống của tôi chính là một công cụ mà bạn
đang cần đấy.
- 5 -
Chương I : Giới thiệu sản phẩm
Ngoài ra còn có thể kể đến rất nhiều ứng dụng khác nữa. Hệ thống này có thể
được ứng dụng vào trong những công việc gì thì điều đó chỉ phụ thuộc vào khả năng
sáng tạo của chính bạn mà thôi.
CHƯƠNG II
LÝ THUYẾT CHUNG
LÝ THUYẾT CHUNG
Các loại nguồn thông tin trên Web
Các tác vụ Web-mining, lý thuyết và thực tế
Ngôn ngữ XML, khả năng và thực tế
Chúng ta đã thật sự có thông tin mình mong đợi chưa?
II.1.PHÂN LOẠI NGUỒN THÔNG TIN
Trong thập kỷ qua, chúng ta đã được chứng kiến sự phát triển đến chóng mặt
của Internet mà tiêu biểu là các trang thông tin. Sự phát triển này đã có một ảnh hưởng
không nhỏ tới nền kinh tế và xã hội không chỉ của riêng một quốc gia mà là cả thế giới.
Internet được coi là một nguồn cung cấp tin khổng lồ với mọi chuyên mục, mọi vấn đề
mà người sử dụng cần đến. Với sự phát triển này, hiện nay, lượng thông tin Internet
mang đến cho người sử dụng là quá lớn dẫn tới việc chúng ta cần phải có các ứng dụng
Internet thông minh và hiệu quả hơn đối với người sử dụng. Có nhiều cách để phân loại
các nguồn thông tin từ Web, tuy vậy, chúng ta có thể chia thành 3 loại chính như sau :
• Các trang Web thông tin có cấu trúc được cập nhật thường xuyên
• Các trang Web thông tin có cấu trúc không được cập nhật thường xuyên
• Các trang Web thông tin có cấu trúc lỏng lẻo
Trước khi đi vào phân tích từng loại một, chúng ta cần nhận định rằng các trang
theo một quy luật về ý nghĩa của các thông tin.
Thông tin mà các trang Web này mang lại cho người sử dụng được cập nhật một
cách liên tục và phong phú. Tuy vậy, trái ngược với sự liên tục và phong phú, các trang
Web này lại chỉ ngày càng nâng cao tính trình bày hình thức của mình chứ không thể
nâng cao được tính ngữ nghĩa của mình (do sự hạn chế của ngôn ngữ HTML). Những
câu hỏi được người sử dụng đặt ra để lấy thông tin ví dụ như “Tôi muốn đọc các bài có
tiêu đề nói về Trí Tuệ Việt Nam 2004“ hay như “Có công ty chứng khoán nào niêm
yết giá khoảng dưới 20000 VND không nhỉ?”, có vẻ đơn giản nhưng dường như lại
khá khó khăn trong việc thực hiện. Câu trả lời nếu sử dụng các phương pháp thông
thường như là sử dụng search engine của trang thông tin đó hay các search engine khác
sẽ mang lại cho người sử dụng quá nhiều thông tin không cần thiết do các search engine
này cũng chỉ tìm kiếm thông tin chứ không để ý đến ngữ nghĩa của thông tin.
II.1.2.Các trang Web thông tin có cấu trúc không được cập
nhật thường xuyên
Tần số cập nhật được nêu ra ở đây chỉ mang tính tương đối, vì một trang Web
được cập nhật thường xuyên (ví dụ như chỉ số chứng khoán) lại cũng có thể vì một lý do
nào đó không cập nhật thường xuyên nữa (ví dụ đóng cửa thị trường chứng khoán vào
- 7 -
Chương I : Giới thiệu sản phẩm
ngày nghỉ). Tuy nhiên, có thể thấy rằng, cũng có rất nhiều trang Web mà tần số cập nhật
là ít. Ví dụ như trang Web giới thiệu tên các quốc gia (đương nhiên không phải ngày,
tháng, năm nào cũng có một quốc gia xuất hiện, đổi tên hay biến mất nên thông tin
trong trang Web này dường như không thay đổi), hay như trang Web chứa thông tin về
Ban Giám Khảo cuộc thi Trí Tuệ Việt Nam (thay đổi theo hàng năm). Do các trang Web
này cũng được tổ chức theo một cấu trúc nhất định nên chúng ta cũng có thể phân tích
về mặt ngữ nghĩa cấu trúc. Ví dụ như trong trang Web thông tin về Ban Giám Khảo
cuộc thi Trí Tuệ Việt Nam, ít nhất cũng phải có các thông tin: Tên + Chức danh của các
thành viên Ban Giám Khảo. Tương tự, chúng ta sẽ lại vấp phải những khó khăn khi
muốn tìm ra dữ liệu trả lời cho những câu hỏi như “Thành viên nào của Ban Giám Khảo
hiện nay đang công tác tại trường Đại học Bách Khoa ?”.
th«ng tin
T¸c vô
Tæng qu¸t
ho¸ th«ng
tin
T¸c vô
Ph©n tÝch
th«ng tin
Tri thøc
Chúng ta sẽ điểm sơ qua từng tác vụ một và những nghiên cứu đã đạt được đối
với từng tác vụ này.
II.2.1.Thu thập thông tin (Information Retrieval)
Tác vụ thu thập thông tin giúp cho người sử dụng có được trang Web từ URL
hoặc từ yêu cầu mà họ cần. Đối với người sử dụng hiện tại, việc thu thập thông tin
thường được thực hiện qua các URL mà người sử dụng đã biết hoặc qua các engine tìm
kiếm. Các engine tìm kiếm là các chương trình được viết để có thể truy vấn và thu thập
dữ liệu được lưu trong cơ sở dữ liệu (có cấu trúc), trang Web (bán cấu trúc) và các văn
bản tự do (không có cấu trúc) trên mạng. Hiện tại đã có khá nhiều các engine tìm kiếm
mạnh ở thế giới và tại Việt Nam như Google, Altavista, Lycos, Vinaseek, PanVN,
Các engine này ngày càng cố gắng để có thể tương tác với người sử dụng nhiều và
thông minh hơn, tuy vậy không phải là không có những yếu điểm.
Như chúng ta đã biết, một hệ thống thu thập thông tin lý tưởng phải là một hệ
thống thu thập được những thông tin phù hợp nhất với yêu cầu của người sử dụng (yêu
cầu này được diễn giải bằng các câu truy vấn). Đây thật sự là một tác vụ vô cùng phức
tạp và khó khăn mà hầu hết các hệ thống thu thập thông tin đều chưa thực hiện được
triệt để, phần nhiều có thể kể đến là do tính phi ngữ nghĩa của ngôn ngữ HTML. Hầu
hết các hệ thống thu thập thông tin hiện nay đều chú trọng tới tốc độ, số lượng thông tin
mà các hệ thống này có thể mang lại cho người dùng với các câu truy vấn tương đối đơn
giản.
Ngoài ra chúng ta cũng nhận thấy đã có những cố gắng rất nhiều trong việc cá
(tổng quát hơn là thông tin về người sử dụng) nhiều hơn là học về chính trang Web mà
các hệ thống này được cài đặt trên đó. Vấn đề này cũng xuất phát từ nguyên nhân dữ
liệu hiện nay đang rất dư thừa trên Web nhưng lại không được (không có cơ chế) phân
loại theo mặt ngữ nghĩa một cách tự động. Ví dụ, nếu chúng ta có một cơ chế nào đó để
xác định được hai tập hợp các trang Web là trang chủ của cá nhân này và không phải là
trang chủ của cá nhân khác thì chúng ta sẽ có khả năng tiên đoán được một trang Web
mới liệu có phải là trang chủ của một ai đó hay không. Tuy vậy, với tính phi-ngữ nghĩa
của HTML, chúng ta khó có thể phân loại được các trang Web này.
II.2.4.Phân tích
Phân tích các thông tin sau khi đã thu thập được không phải là một công việc dễ
dàng ngay cả đối với người sử dụng chứ chưa nói đến đối với máy tính. Tác vụ này có
- 10 -
Chương I : Giới thiệu sản phẩm
thể được thực hiện hoàn toàn chỉ sau khi 3 tác vụ phía trước nó cũng đã được thực hiện
tốt.
II.3. XML
Với những nhược điểm phi-ngữ nghĩa của ngôn ngữ HTML cộng với nhu cầu
thực tế của người sử dụng, XML đã ra đời cùng với khả năng tăng thêm tính linh động,
ngữ nghĩa của các văn bản HTML. Văn bản XML được cấu tạo với cấu trúc cũng dựa
trên các thẻ như HTML, tuy nhiên các thẻ này không cố định như HTML mà hoàn toàn
là do người sử dụng đặt tên. Chính nhờ khả năng ấy mà XML đã vượt trội hơn hẳn
HTML về mặt cung cấp ngữ nghĩa của thông tin. Đơn giản như, bây giờ, các search
engine sẽ có thể phân biệt được bill (hoá đơn điện thoại) với Bill Clinton (tên người).
Tuy vậy, XML ra đời không có nghĩa rằng HTML sẽ không được sử dụng nữa. Có một
câu ngạn ngữ được các nước hay sử dụng là “Không việc gì phải sửa chữa những cái gì
nó chưa hỏng” và XML cũng không phải sinh ra là để thay thế cho ngôn ngữ HTML mà
là một sự bổ sung lý tưởng cho ngôn ngữ HTML, giải quyết cho HTML một số vấn đề
sau:
• XML được thiết kế để phát triển và mở rộng một ngôn ngữ mark-up mới theo
một hệ thống chuẩn. Từ trước tới nay, HTML chưa bao giờ được cung cấp một
• Cấu trúc Web site : Bản thân XML là một ngôn ngữ mang tính cấu trúc chặt chẽ
và phân tán. Vì vậy, các nhà phát triển Web site có thể dễ dàng sử dụng XML
trong việc tăng tính phân tầng và cấu trúc duyệt (navigations) đối với những
trang Web của họ. Hơn nữa, sử dụng XML sẽ giúp cho việc lưu trữ thông tin
người sử dụng, trạng thái Web site, điều khiển luồng dữ liệu trong trang Web trở
nên dễ dàng hơn bao giờ hết.
• XML có thể giúp chúng ta trong việc tương tác với cơ sở dữ liệu, ví dụ như việc
nhận dữ liệu từ một câu truy vấn SQL hoặc cập nhật dữ liệu từ một bản ghi
XML. Bằng việc mô tả dữ liệu theo định dạng XML, chúng ta không cần phải
nhất thiết có một chút khái niệm nào về cấu trúc thật sự của cơ sở dữ liệu khi
lưu.
Với nền tảng XML chúng ta có thể dễ dàng bổ sung tính ngữ nghĩa cho các
thông tin lấy được từ các trang Web. Hệ thống của tôi còn nhắm tới XML như một ngôn
ngữ hữu dụng trong việc chuyển đổi sang bất cứ dạng cơ sở dữ liệu (hay cơ sở dữ liệu
tri thức) nào khác. Việc dễ dàng chuyển đổi sang các cơ sở dữ liệu khác nhau một cách
dễ dàng sẽ giúp đỡ người sử dụng, các doanh nghiệp tiết kiệm được rất nhiều thời gian,
công sức tiền bạc và thích ứng được với môi trường Thương mại điện tử một cách dễ
dàng.
CHƯƠNG III
NGHIÊN CỨU
NGHIÊN CỨU
GIẢI PHÁP
GIẢI PHÁP
Giải pháp sử dụng script để tạo sinh URL tổng quát
Giải pháp sử dụng DLL để tạo sinh URL tổng quát
Bóc tách và gán ngữ nghĩa cho thông tin
Khả năng tương tác visual giữa người và máy
Hiện thực hóa giải pháp
Khả năng ứng dụng và phát triển
Như đã nói ở chương trước, để có được tri thức như mong muốn, chúng ta cần
luật đối với tham số này (trong ví dụ trên thì tham số chính là ngày hiện tại -
tháng hiện tại), chúng ta cũng có thể truy cập trực tiếp tới trang Web cần thiết.
3. Từ khóa để sinh ra URL (động). Các ví dụ đơn giản nhất trong trường hợp này
là các search engine. Chúng ta đã biết rằng để tìm kiếm thông tin, chúng ta cần
phải cung cấp cho các search engine này từ khóa. Các từ khóa ấy được biến đổi
và cuối cùng được gửi cho server dưới dạng nằm trong URL. Ngoài ra, cũng còn
cần phải xét tới chuyện xử lý sang việc người sử dụng cần lấy từ nguồn tin
không phải từ một trang mà là từ nhiều trang Web (ví dụ như mặc dù search
engine có thể trả lại cho chúng ta đến hàng triệu kết quả chỉ trong một trang
Web, tuy vậy trong thực tế người sử dụng thông thường không muốn xem hết
- 13 -
Chương I : Giới thiệu sản phẩm
hàng triệu kết quả này cũng như search engine không bao giờ lại trình bày hàng
triệu kết quả thu được trong một trang Web duy nhất). Như vậy, thông tin về số
trang trong trường hợp này ở trên URL cũng cần phải nghiên cứu. Chúng ta
cũng cần phải phân biệt được trường hợp 3 và 2 là giống nhau về mặt bản chất
URL đều được mã hóa, nhưng trong trường hợp thứ 3 thông tin mã hóa được
nhập từ người sử dụng, còn trong trường hợp thứ 2 thì do máy tính tự sinh ra.
III.1.2. Giải pháp xử lý
Đối với từng loại URL này, tôi đã có những nghiên cứu và đưa ra các giải pháp
khả thi để có thể xử lý hết tất cả các trường hợp tạo sinh URL và sau đó quy về một
URL tĩnh request đến server chứa nguồn thông tin. Trừ URL tĩnh là dạng URL cơ bản
nhất còn các dạng URL còn lại đều có thể được tạo sinh bởi một trong hai cách dưới
đây :
• Tạo/sinh URL bằng cách viết script. Đây là nhóm các URL được mã hóa đơn
giản, có thể nhìn thấy ngay quy luật.
• Tạo/sinh URL bằng cách viết DLL. Trong trường hợp các URL sử dụng các
phương pháp mã hóa phức tạp hơn, để tiện cho người sử dụng, cách tốt nhất là
người sử dụng viết một DLL hoặc sử dụng DLL có sẵn như một plug-ins để
cung cấp cho hệ thống của tôi khả năng tạo/sinh URL dựa trên việc gọi các hàm
Alltheweb :
/>%22&c=web&cs=utf-8&o=10&l=any
/>%22&c=web&cs=utf-8&o=20&l=any
/>%22&c=web&cs=utf-8&o=30&l=any
Phần cố định Keyword sau khi mã hoá Phần cố định Phần thay
đổi
Phần cố
định
the
web.com/search?
q=
%22Tr%C3%AD+Tu
%E1%BB%87+Vi
%E1%BB%87t+Nam
%22&
&c=web&cs=utf-8&o= 10
20
30
&l=any
PanVN :
/>%87tNam"&fcid=2&any=&ww=&occ=&d=&cmdSearch=Search&advs=&pn=2&dns=&img=0
/>%87tNam"&fcid=2&any=&ww=&occ=&d=&cmdSearch=Search&advs=&pn=3&dns=&img=0
/>%87tNam"&fcid=2&any=&ww=&occ=&d=&cmdSearch=Search&advs=&pn=4&dns=&img=0
Phần cố định Keyword sau khi mã hoá Phần cố định Phần thay
đổi
Phần cố
định
vn
.com/index.asp?
progid=4004&q=
2004_10_24 /vietnamese/kinhte.htm
2004_10_24 /vietnamese/xahoi.htm
2004_10_24 /vietnamese/thethao.htm
Như vậy, để xử lý được toàn bộ các URL này, script của chúng ta phải đáp ứng
được nhưng yêu cầu sau :
• Mã hóa được keyword theo dạng chuẩn của Windows
• Có các hàm để thay thế chuỗi (ví dụ nếu chú ý thì trong keyword sau khi đã qua
xử lý của Google, dấu “ “ đã được thay bằng dấu “+”)
• Có một số các hàm xử lý tạo ra ngày, tháng, năm hiện tại và các hàm đơn giản
khác (hàm không cần đối số, trả về một giá trị)
• Script phải xử lý được ít nhất là một biến. Cũng cần phải có cơ chế cho biết biến
đó được chạy từ đâu đến đâu, bước chạy là bao nhiêu (ví dụ đối với search
engine, cần biết là trang thứ bao nhiêu, bắt đầu từ kết quả thứ bao nhiêu )
Do vậy, tôi đã xây dựng một ngôn ngữ script dựa vào những yêu cầu trên. Ngôn
ngữ này là đơn giản, phù hợp với yêu cầu và dễ dàng mở rộng khi cần thiết. Dưới đây là
các quy tắc của ngôn ngữ :
1. Các dòng được xử lý tuần tự.
2. Sau khi thực hiện một dòng, kết quả trả về là một chuỗi (trừ dòng đầu tiên)
3. Kết quả thực hiện toàn bộ script là một chuỗi được ghép lại bởi các chuỗi kết
quả của từng dòng theo thứ tự (bắt đầu từ dòng thứ 2)
4. Dòng đầu tiên bao gồm chuỗi các số được cách nhau bởi dấu “ “, ít nhất là 1 số
và nhiều nhất là 4 số có ý nghĩa sau :
a. Số đầu tiên chỉ xem URL có phần thay đổi cần sử dụng biến hay không ?
i. Nếu bằng 1 là Có
ii. Nếu bằng 0 là Không có
b. Ba tham số tiếp theo có các ý nghĩa lần lượt như sau :
i. Khởi đầu
ii. Bước tăng
iii. Số lần lặp (bằng 0 là vô hạn)
5. Hàm được bắt đầu bằng dấu “$” và phải viết tên hàm bằng chữ hoa
%87t+Nam%22&
num=50&hl=vi&lr=&ie=
UTF-8&oe=UTF-
8&safe=off&start=
50
100
150
sa=N
1 50 50 3
/>$UTF8
REPLACE %20 +
num=50&hl=vi&lr=&ie=UTF-8&oe=UTF-8&safe=off&start=
#
sa=N
Alltheweb :
Phần cố định Keyword mã hoá Phần cố định Phần thay
đổi
Phần cố
định
thew
eb.com/search?q=
%22Tr%C3%AD+Tu
%E1%BB%87+Vi
%E1%BB%87t+Nam
%22&
&c=web&cs=utf-8&o= 10
20
30
&l=any
1 10 10 3
#
&dns=&img=0
VinaSeek :
Phần cố định Keyword mã hoá Phần cố định Phần thay đổi
asee
k.com/search.asp?
form=sfr&font=tcv
n&query=
%22Tr%DD+Tu
%D6+Vi%D6t+Nam%22
&start= 21
41
61
1 21 20 3
/>$TCVN
$REPLACE %20 +
&start=
#
Đài Tiếng nói Việt Nam :
Phần cố định Phần thay đổi Phần cố định
2004_10_24 /vietnamese/kinhte.htm
2004_10_24 /vietnamese/xahoi.htm
2004_10_24 /vietnamese/thethao.htm
0
/>$YEAR
-
$MONTH
-
$DATE
/vietnamese/kinhte.htm (có thể thay bằng các chuyên mục khác)
LPSTR GetNextURL(LPSTR lpURL);
o Chức năng : Lấy URL tiếp theo
o Đầu vào : 1 chuỗi ký tự(thường là danh sách URL đầu ra của lần
gọi GetFirstURL hoặc GetNextURL trước đó)
o Đầu ra : URL hoặc danh sách URL tiếp theo. Nếu kết quả trả lại
là rỗng thì có nghĩa là không còn URL nào nữa.
Các hàm chuẩn này sẽ được gọi theo sơ đồ như sau :
- 20 -
Chương I : Giới thiệu sản phẩm
III.2.BÓC TÁCH THÔNG TIN
Như đã nói ở trên, để bóc tách thông tin thu được từ tác vụ thứ nhất, chúng ta sẽ
xây dựng một “wrapper”. Wrapper có thể được hiểu là những hàm để tách thông tin từ
các tài nguyên Web. Các hàm này viết dựa trên các luật (quy luật) đã được đúc rút ra
sau khi khảo sát các trang Web chứa thông tin cần lấy. Như vậy, đối với tác vụ này, tôi
sẽ phải cung cấp cho người sử dụng một công cụ tạo ra các luật (quy luật) để bóc tách
thông tin.
Trước khi tiếp tục, tôi cũng xin nhắc lại một chút về mục đích của hệ thống. Hệ
thống được xây dựng tập trung vào hai tác vụ đầu của bốn tác vụ webmining, cung cấp
cho người sử dụng khả năng thu thập và bóc tách thông tin. Tuy vậy, những thông tin
- 21 -
Chương I : Giới thiệu sản phẩm
này là những thông tin gì ? Người sử dụng muốn gì và hệ thống của tôi đáp ứng được
đến đâu ?
III.2.1. Quy luật dùng để bóc tách thông tin
Những thông tin được tách ra sau khi sử dụng hệ thống là những thông tin có
cấu trúc về mặt ngữ nghĩa. Để bóc tách được những thông tin này, tôi dựa trên một quy
luật đơn giản nhưng vô cùng hiệu quả sau :
Trong hầu hết các trang Web cung cấp thông tin, các thông
tin có ý nghĩa giống nhau sẽ thường được trình bày giống
nhau.
định dạng theo kiểu chữ thông thường. Cũng có thể chú ý một chút tới phần tỷ giá, các
thông tin về tên đơn vị tiền tệ và trị giá đơn vị tiền tệ cũng được định dạng để sao cho
dễ dàng phân biệt được với các thông tin khác.
Trang Web này sẽ được cấu trúc về mặt ngữ nghĩa như sau :
Tên mục chính
Tên bài mới cập nhật
Ảnh bài mới cập nhật
Mô tả bài mời cập nhật
- 24 -
Chương III : Nghiên cứu giải pháp
III.2.1.3.Ví dụ 3 : Search engine www.panvn.com (với từ khoá “Trí
Tuệ Việt Nam”)
Lại một lần nữa chúng ta thấy rất rõ tiêu đề của kết quả được search engine định
dạng chữ đậm, màu xanh và cỡ chữ to để phân biệt với phần mô tả tiêu đề cỡ chữ nhỏ
và màu đen. Qua 3 ví dụ này và các ví dụ mà người sử dụng có thể dễ dàng nhận ra khi
duyệt các trang Web thông tin, nhất là các trang Web thông tin có cấu trúc, các thông tin
có ngữ nghĩa giống nhau thường được định dạng giống nhau và ngược lại.
Trang Web này sẽ được cấu trúc về mặt ngữ nghĩa như sau :
Số thứ tự
Tiêu đề trang Web được tìm thấy
Trích đoạn có từ khóa cần tìm kiếm trong trang Web được tìm thấy
URL
- 25 -