Phương pháp thu thập, đánh giá và phân cụm thông tin tiếng Việt trên Internet - Pdf 40

TR

I H C QU C GIA HÀ N I
NG
I H C CÔNG NGH

ng Quang Huy

PH

NG PHÁP THU TH P, ÁNH GIÁ VÀ PHÂN C M
THÔNG TIN TI NG VI T TRÊN INTERNET

LU N V N TH C S

Hà N i – 2007


TR

I H C QU C GIA HÀ N I
NG
I H C CÔNG NGH

ng Quang Huy

PH

NG PHÁP THU TH P, ÁNH GIÁ VÀ PHÂN C M
THÔNG TIN TI NG VI T TRÊN INTERNET



U..............................................................................................................12
NG 1: T NG QUAN V KHAI PHÁ D

LI U VÀ BÀI TOÁN PHÂN

C M TÀI LI U WEB .........................................................................................15
1.1 Khai phá d li u..........................................................................................15
1.1.1 Khai phá d li u là gì? .........................................................................15
1.1.2 Các h
1.1.3

ng ti p c n và các k thu t trong khai phá d li u .................16

ng d ng c a khai phá d li u ............................................................17

1.2 D li u Fulltext và Hypertext.....................................................................18
1.2.1 Fulltext .................................................................................................18
1.2.2 Hypertext..............................................................................................18
1.3 Khai phá d li u Web .................................................................................21
1.3.1 Nhu c u ................................................................................................21
1.3.2

c đi m ..............................................................................................22

1.3.3 Các h

ng ti p c n...............................................................................24

1.4 Bài toán phân c m tài li u Web .................................................................26

NG 2: CÁC PH

NG PHÁP BI U DI N TÀI LI U ...........................34

2.1 Mô hình không gian vector.........................................................................34
2.1.1 M t s khái ni m..................................................................................34
2.1.1.1 T khóa (keywords).......................................................................... 34
2.1.1.2 T d ng (stopwords)......................................................................... 35
2.1.1.3 C t b t (word stemming) ............................................................... 36
2.1.2 Mô hình t n s ......................................................................................37
2.1.3 Mô hình Boolean..................................................................................39
2.1.4 Tính ch t c a vector .............................................................................40
2.1.4.1 Tích trong..........................................................................................40
2.1.4.2

l n vector .................................................................................... 41

2.2 Tách t trong ti ng Vi t..............................................................................41

-4-


ng Quang Huy-Lu n v n cao h c-Tr

ng

i h c Công ngh -2007

2.2.1 M t s đ c đi m chính v t ti ng Vi t ...............................................41
2.2.1.1 Ti ng ................................................................................................. 41

NG 3: CÁC THU T TOÁN PHÂN C M TÀI LI U ............................54

3.1 Gi i thi u ....................................................................................................54
3.2 Phân ho ch Top-down ................................................................................55
3.2.1 Thu t toán K-means v i gán “c ng”....................................................55
3.2.2 Thu t toán K-means v i gán “m m” ...................................................57
3.2.3

ph c t p tính toán ...........................................................................58

3.3 Phân c m d a trên tính m i c a tài li u.....................................................58
3.3.1 Mô t .....................................................................................................58

-5-


ng Quang Huy-Lu n v n cao h c-Tr

3.3.2

đo t

ng

i h c Công ngh -2007

ng t .....................................................................................59

3.3.3 Thu t toán phân c m d a trên thu t toán K-Means m r ng ..............60
3.3. 3.1 Ch m c phân c m ........................................................................... 60


-6-


ng Quang Huy-Lu n v n cao h c-Tr

CH

NG 5: T NG K T VÀ H

ng

i h c Công ngh -2007

NG PHÁT TRI N ....................................84

5.1 T ng k t ......................................................................................................84
5.2 H

ng phát tri n.........................................................................................85

TÀI LI U THAM KHÁO....................................................................................86

-7-


ng Quang Huy-Lu n v n cao h c-Tr

ng


th

c phân

ng h c, các t ch c

ng m i, chính ph …. Chính vì v y l nh v c Web Mining hay tìm ki m t

đ ng các thông tin phù h p và có giá tr trên Web là m t ch đ quan tr ng trong
Data Mining.
Các h th ng tìm ki m thông tin hay nói ng n g n là các máy tìm ki m
trên Web thông th
ng

ng tr l i m t danh sách các tài li u đ

c phân h ng mà

i dùng s ph i t n công ch n l c trong m t danh sách r t dài đ có đ

nh ng tài li u phù h p. Ngoài ra các thông tin đó th
và liên quan đ n nhi u đ i t
nh ng gây khó kh n cho ng
Có nhi u h
này th

ng khác nhau.

c




ng Quang Huy-Lu n v n cao h c-Tr

ng

i h c Công ngh -2007

nhiên t p h p tài li u c a các máy tìm ki m là quá l n và luôn thay đ i đ có th
phân c m ngo i tuy n. Do đó vi c phân c m ph i đ
li u nh h n đ

c ng d ng trên các t p tài

c tr v t các truy v n. Và thay vì tr v m t danh sách r t dài

các thông tin gây nh p nh ng cho ng

i s d ng c n có m t ph

ng pháp t

ch c l i các k t qu tìm ki m m t cách h p lý.
M c đích nghiên c u
a ra yêu c u c a bài toán phân c m tài li u Web. Nh n m nh đ n k
thu t phân c m K-Means m r ng, s d ng tính m i c a tài li u, đây là m t
thu t toán phân c m t ng, th i gian tuy n tính đáp ng đ

c các yêu c u c a bài



Gi i h n nghiên c u
Do h n ch v m t th i gian nên vi c nghiên c u, tìm hi u m i ch thu
đ

c nh ng ki n th c c b n v k thu t và nh ng th nghi m b

h a h n s phát tri n và ng d ng trong t
Lu n v n đ

ng lai.

c t ch c thành 5 ph n:

- 13 -

c đ u nh ng


ng Quang Huy-Lu n v n cao h c-Tr

Ch

ng 1: Trong ch

ng

i h c Công ngh -2007

ng này gi i thi u t ng quan v khai phá d li u,

gi a hai h

ng phân c m bottom-

ng phân c m top-down. Và s k t h p

ng đó – Buckshot.

Trình bày thu t toán K-Means m r ng cho bài toán phân c m tài li u
Web d a trên tính m i c a tài li u.
Ch

ng 4: K t qu th c nghi m

Ch

ng 5: T ng k t và h

ng phát tri n trong t

- 14 -

ng lai.


ng Quang Huy-Lu n v n cao h c-Tr

ng

i h c Công ngh -2007

ng

i h c Công ngh -2007

[10]. R. Krishnapuram, A. Joshi, L. Yi (1999), A Fuzzy Relative of the k-Medoids
Algorithm with Application to Web Document and Snippet Clustering, Proc.
IEEE Intl. Conf. Fuzzy Systems, Korea.
[11]. Z. Jiang, A. Joshi, R. Krishnapuram, L. Yi (2000), Retriever: Improving
Web Search Engine Results Using Clustering, Technical Report, CSEE
Department, UMBC.
[12]. T. H. Haveliwala, A. Gionis, P. Indyk (2000), Scalable Techniques for
Clustering the Web, Extended Abstract, WebDB’2000, Third International
Workshop on the Web and Databases, In conjunction with ACM
SIGMOD’2000, Dallas, TX.
[13]. A. Bouguettaya (1996), On-Line Clustering, IEEE Trans. on Knowledge
and Data Engineering.
[14]. A. K. Jain và R. C. Dubes (1988), Algorithms for Clustering Data, John
Wiley & Sons.
[15]. G. Karypis, E. Han, V. Kumar (1999), CHAMELEON: A Hierarchical
Clustering Algorithm Using Dynamic Modeling, IEEE Computer 32.
[16]. O. Zamir và O. Etzioni (1999), Grouper: A Dynamic Clustering Interface to
Web Search Results, Proc. of the 8th International World Wide Web
Conference, Toronto, Canada.
[17]. D. R. Cutting, D. R. Karger, J. O. Pedersen, J.W. Tukey (1993),
Scatter/Gather: A Clusterbased Approach to Browsing Large Document
Collections, In Proceedings of the 16th International ACM SIGIR
Conference on Research and Development in Information Retrieval.

- 87 -



- 88 -


ng Quang Huy-Lu n v n cao h c-Tr

ng

i h c Công ngh -2007

[26]. Wai-chiu Wong và Ada Fu (2000), Incremental Document Clustering for
Web Page Classification, IEEE 2000 Int, Conf. on Infor, Society in the 21st
century: emerging technologies anf new challenges (IS2000), Nh t B n.
[27]. Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003). Modeling the Internet
and the Web: Probabilistic Methods and Algorithms. Wiley, 2003.
[28]. Sen Slattery (2002). Hypertext Classification. PhD Thesis (CMU-CS-02142). School of Computer Science. Carnegie Mellon University, 2002.

- 89 -




Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status