ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG
WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG
WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ
HTML VÀ ĐỒ THỊ WEB
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc đến Th.s Nguyễn Thị Hậu và
CN. Trần Mai Vũ, người đã tận tình chỉ bảo hướng dẫn tôi trong suốt quá trình thực
hiện khoá luận tốt nghiệp.
Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt bốn
năm học qua, đã cho tôi nhiều kiến thức quý báu để tôi vững bướ
c trên con đường học
tập của mình.
Tôi xin gửi lời cảm ơn chân thành tới các anh chị, các bạn trong nhóm seminar về khai
phá dữ liệu đã nhiệt tình giúp đỡ tôi trong quá trình tham gia nghiên cứu khoa học và
làm khoá luận tốt nghiệp.
Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA, và K50CHTTT đã ủng hộ
khuyến khích tôi trong suốt quá trình học tập tại trường.
Và cuối cùng, tôi xin bày tỏ niềm biết ơn vô hạn tới bố mẹ
, chị tôi, và những người
bạn thân luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khoá luận tốt
nghiệp.
Hà Nội, ngày 12 tháng 05 năm 2009
Sinh Viên
Chu Anh Minh
i TÓM TẮT NỘI DUNG
Trích xuất từ khoá cho trang web là một bài toán mở rộng của bài toán trích
xuất từ khoá cho một văn bản. Ở mức cao hơn, nó là một bài toán con trong hệ thống
trích xuất thông tin (Information Retrieval). Trong nhiều năm qua, bài toán này đã
1.4.1. Đối với các trang có nội dung tập trung 6
1.4.2. Đối với các trang có nội dung tổng hợp 6
1.4.3. Các vấn đề khác 6
1.5. Ứng dụng của từ khóa trong các lĩnh vực 7
1.5.1. Vai trò từ khóa trong máy tìm kiếm 7
1.5.1.1. Quảng cáo trên máy tìm kiếm 7
1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm 9
1.5.3. Vai trò từ khóa trong các trang web tổng hợp thông tin 10
1.6. Tổng kết chương 12
Chương 2. Các công trình liên quan 13
2.1. Các phương pháp trích xuất từ khóa cho văn bản 13
2.1.1. Phương pháp tần số từ 13
2.1.2. Phương pháp sử dụng các thông tin khác trong văn bản 14
2.1.3. Phương pháp sử dụng học máy 15
2.1.3.1. Trích xuất từ khóa sử dụng phân lớp Naïve Bayes 16
2.1.3.2. Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) và phân lớp16
2.2. Các phương pháp trích xuất từ khóa cho trang web 17
2.2.1. Tần số từ 17
2.2.2. Kĩ thuật khai phá log 17
2.2.3. Kĩ thuật áp dụng máy tìm kiếm và độ tương đồng từ 18
2.3. Gán từ khóa trong văn bản, web (keyword assignment) 19
2.4 Tổng kết chương 19
Chương 3. Hướng giải quyết và đề xuất mô hình bài toán 20
3.1. Hướng giải quyết 20
3.1.1. Sử dụng độ quan trọng của các thẻ trong HTML 20
3.1.2. Sử dụng đồ thị web 23
3.1.2.1. Định nghĩa đồ thị Web 23
3.1.2.2 Nội dung của phương pháp 24
3.1.3. Sử dụng query log 26
3.1.4. Sử dụng từ điển hỗ trợ 27
Kí hiệu Diễn giải
HTML HyperText Markup Language
IR Information Retrieval
SE Search Engine
SEM Search Engine Marketing
SEO Search Engine Optimization
TF Term Frequency
IDF Inverse Document Frequency
URL Uniform Resource Locator
W3C World Wide Web Consortium
WWW World Wide Web v Danh mục hình vẽ
Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm 9
Hình 2. Top từ khóa của baomoi.com 10
Hình 3. Top từ khóa của flickr.com 10
Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com 11
Hình 5. Hình minh họa kết quả sinh từ khóa của trang web
17
Hình 6. Mô tả đồ thị web
25
Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa 25
Hình 8. Kết quả trả về của máy tìm kiếm Google có liên kết trỏ tới trang vnexpress 25
Hình 9. Mô hình đề xuất cho toàn hệ thống
28
Hình 10. Mô hình mô đun sinh từ khóa 30
MỞ ĐẦU
Trong những năm gần đây, sự bùng nổ của Internet mà đặc biệt là World Wide
Web - còn gọi tắt là Web - làm thông tin ngày càng tràn ngập, đa dạng, có sự trùng lặp
nhiều. Cùng với sự tăng trưởng và phổ cập của Internet thì việc quảng cáo trên mạng
của các doanh nghiệp cũng tăng cao. Sự ra đời của máy tìm kiếm đã phần nào giải
quyết được vấn đề tràn ngập thông tin của các trang web. Các máy tìm kiếm chủ yếu
vẫ
n sử dụng những từ khoá và tìm những trang có chứa từ khoá và cho ra kết quả phù
hợp. Việc sử dụng máy tìm kiếm làm công cụ quảng cáo đã nở rộ trong những năm
gần đây. Nhưng các trang web có nội dung được nhiều người quan tâm lại trùng lặp về
từ khoá nhiều, cho nên các doanh nghiệp muốn quảng cáo trên máy tìm kiếm phải
cạnh tranh với các doanh nghiệp khác có từ khóa trùng với nó. Đó chính là một trong
các động lự
c để phát triển bài toán trích xuất từ khoá cho trang web. Nhiệm vụ bài
toán đặt ra là cần tìm được một tập các từ khoá sao cho các từ khoá này phải sát với
nội dung của trang web.
Một động lực khác làm cho bài toán trích xuất từ khóa cho các trang web được
sự quan tâm của nhiều người, doanh nghiệp, đó chính là việc phân loại các tài liệu
web vào các thư mục phân cấp, việc tìm kiếm trong các thư mục nhờ đó cũng dễ dàng
hơn. Rất nhiều các trang web báo khác nhau, các blog nh
ư: vietbao.vn, baomoi.com,
flickr.com, ebay.com đã áp dụng việc sinh từ khóa cho các trang này để người đọc,
người xem có thể liên hệ, theo dõi dễ dàng đối với các trang báo, hay các sản phẩm
khác có liên quan. Các từ khóa giúp nâng cao sự gợi ý cho người dùng. Không những
thế, những từ khóa được tìm kiếm nhiều nhất trong một thời điểm phản ánh được phần
nào xu hướng của người dùng, giúp người dùng có cái nhìn tổng quan về các vấn đề
đang được quan tâm.
Một vấn đề
quan trọng không kém, đó là với sự phát triển của web thì những
chuẩn web càng được chú trọng. Trong đó các trang web cần có những phần giới thiệu
ược về các phương pháp
đã được áp dụng với các bài toán sinh cho văn bản, cho trang web.
- Chương 3: Hướng giải quyết và đề xuất mô hình bài toán. Miêu tả hướng giải
quyết của tác giả, đề xuất mô hình có thể thực thi.
-Chương 4 “Kết quả thực nghiệm và đánh giá”. Đưa ra những kết quả đã làm,
và đánh giá kết quả. 3
Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang
web
1.1. Đặt vấn đề
Sự phát triển nhanh chóng của Internet và đặc biệt là sự bùng nổ World Wide
Web (WWW) - còn gọi tắt là web - làm cho thông tin ngày càng lớn, khó kiểm soát, và
trùng lặp nhiều. Tìm kiếm thông tin hiện nay càng là nhu cầu thiết yếu của nhiều
người trên nhiều lĩnh vực khác nhau. Sự đột phá về công nghệ đã cho ra những máy
tìm kiếm phần nào đã giải quyết được sự ngập lụt thông tin này. Vì nhu cầu sử dụng
máy tìm kiếm hiện nay là rất lớn, nên nó cũng đượ
c sự quan tâm của các doanh nghiệp
nhằm dựa vào máy tìm kiếm để quảng cáo sản phẩm của mình qua các từ
khóa[26][2][36]. Đó cũng là động lực chính để phát triển bài toán sinh từ khóa cho
trang web.
Việc sinh từ khóa cho trang web không những chỉ có ý nghĩa trong các máy tìm
kiếm, mà hiện nay nó còn có nhiều ứng dụng hơn trong các trang web tổng hợp thông
tin khác như các blog, báo điện tử, tìm ảnh, tìm phim, thư viện sách Với mỗi trang
web, các từ khóa của trang đó s
ẽ là những sự gợi ý rất tốt cho người dùng để tìm thấy
các trang web chuẩn theo W3C
1
(World Wide Web Consortium) đều có chứa những từ
khóa của trang trong thẻ <meta> với thuộc tính “keywords”. Các từ khóa của các trang
web đa số được sinh thủ công bởi người quản trị web. Bài toán trích xuất từ khóa của
tài liệu tiếng Việt và tiếng Anh là một trong những bài toán cấp thiết trong nghiên cứu
xử lý ngôn ngữ tự nhiên cũng như trong cuộc sống hàng ngày. Tập các từ khóa có thể
coi như là một bản tóm tắt đơn giản nh
ất của văn bản[25]. Tập các từ khóa sẽ nói lên
rõ hơn ý nghĩa của văn bản hay trang web đó.
Bài toán trích xuất từ khóa cho trang web là một quá trình tìm kiếm, nhận dạng,
tập các từ, hay cụm từ có ý nghĩa và các từ này có thể đại diện cho trang web
đó[24][29]. Giải quyết bài toán này là đưa ra các phương pháp để áp dụng trên các
trang web hay các thông tin liên quan đến trang web để tìm ra các từ khóa đại diện cho
trang web này một cách tự động.
Một số đặc
điểm, tiêu chí ảnh hưởng [37] đến quá trình rút trích từ khóa:
Từ dừng: Các từ dừng(stopword) không nằm trong danh sách các từ khóa được
sinh ra. Các từ dừng là các từ không bao hàm ý nghĩa như là các từ: a , an , the,
about, with, on trong tiếng Anh và các từ : là , sẽ , cùng, tới trong tiếng
Việt.
Loại từ: Các từ trong danh sách từ khóa thường là các động từ, hoặc danh từ.
Tuy nhiên, có thể các từ có thể được viết tắt cũng cần xem xét. Các danh từ
riêng được coi trọ
ng hơn các danh từ thường.
Liên quan đến tiêu đề :Những từ khóa trong văn bản phải liên quan đến đầu đề
văn bản.
Số lượng: Tập từ khóa của một trang web, văn bản là một danh sách các từ khóa
khác nhau, nó phù hợp với từng loại văn bản, trang web khác nhau. Thông
thường là 5-10 từ khóa cho trang web, và 15-20 cho các bài báo
biến cao hơn từ khoá “auto insurance”, nhưng cụm từ khoá “insurance companies”
sẽ dành cho những người tìm kiếm dịch vụ bảo hiểm nhân thọ, bảo hiểm sức khoẻ và
bảo hiểm nhà cửa chứ kết quả cho tìm kiếm bảo hiểm ô tô thì lại không xuất hiện.
c. Hướ
ng người sử dụng
Nhân tố này dựa vào cách nghĩ của số đông người dùng. Ví dụ, giả dụ một đại
lý bất động sản ở Atlanta đang cân nhắc hai từ khóa đó là "Atlanta real estate listings"
và “Atlanta real estate agents”. Hai từ khoá này có tính phổ biến tương tự nhau. Chúng
cũng có tính đặc trưng riêng, vì nó liên hệ mật thiết đến công ty. Vậy thì từ nào thì tốt
hơn. Nếu nhìn vào động cơ của người sử dụng trong log thì sẽ thấ
y từ thứ hai sẽ tối ưu
hơn. Từ khoá thứ hai cho rằng người sử dụng muốn tìm kiếm một đại lý nhiều hơn.
1.4. Thách thức của bài toán sinh từ khóa cho trang web
Các nghiên cứu trước đây chủ yếu tập trung trên miền trích xuất từ khóa cho
các văn bản hay các bài toán kiểu tóm tắt văn bản. Một lợi điểm trong các văn bản là
6
do văn bản chỉ thuần nói về một đề tài hay một chủ đề xác định, ít nhiễu. Trong khi đó
đối với các trang web nó là tổng hợp của nhiều thông tin trên một trang web, có nhiều
thông tin không liên quan như: quảng cáo, thực đơn, thông tin liên quan. Vì vậy,
những thách thức của bài toán trích xuất từ khóa cho trang web đó là nhiễu trên các
trang là lớn, nội dung của nhiều trang là không tập trung.
1.4.1. Đối với các trang có nội dung tập trung
Các trang có nội dung tập trung là các trang mà trong nó chứa những nội dung
cụ thể về một vấn đề. Nói khác đi, khi loại bỏ các phần thông tin ngoài thì phần còn lại
như một văn bản. Và các kĩ thuật trích xuất từ khóa đối với văn bản sẽ được áp dụng
như tần số từ, vị trí từ trong các đoạn văn, độ tương đồng từ Các trang có nội dung
tập trung như bài báo điện tử, bài viết hướng dẫ
n, một bài văn Nói chung, việc lọc
tốt, nhất là đối với tiếng Việt.
Ngoài các lỗi về cấu trúc của HTML, ngay trong nội dung văn bản của các
trang web cũng có những lỗi như: viết tiếng Việt không dấu, viết sai Một số trang
web có sử dụng các tên miền miễn phí như : www.dot.tk , www.co.cc , cho nên khi
trỏ đến các trang của họ thì mã HTML hiển thị lại không là mã HTML của trang web
thực mà lại là mã HTML của các trang cung cấp tên miền.
1.5. Ứng dụng của từ khóa trong các lĩnh vực
1.5.1. Vai trò từ khóa trong máy tìm kiếm
1.5.1.1. Quảng cáo trên máy tìm kiếm
Việc ra đời máy tìm kiếm đã giải quyết phần nào nhu cầu về tím kiếm thông tin
trên mạng. Do đó, máy tìm kiếm là một công cụ không thể thiếu cho những người
dùng web hiện nay. Chính vì sự phổ biến, và lượng lớn người dùng sử dụng nó cho
nên quảng cáo trên máy tìm kiếm là một trong những hình thức quảng cáo khá hiệu
quả, và có phần nở rộ hơn trong những năm gần đây. Các nhà doanh nghiệp, quản trị
của các trang web (webmaster) cần có những chiến lược khác nhau khi quảng cáo trên
máy tìm kiếm một cách hiệu quả nhất. Do việc tìm kiếm trên máy tìm kiếm chủ yếu
dựa trên từ khoá cho nên việc tìm ra những từ khoá đại diện cho các trang web để
quảng cáo là một trong những nhiệm vụ hàng đầu của các doanh nghiệp, các người
quản trị web muốn quảng bá trang web của mình. Các doanh nghiệp này cần đăng kí
các từ khoá này với các máy tìm kiếm để có thể quảng cáo trang web củ
a mình. Tuy
nhiên, có rất nhiều doanh nghiệp khác cũng muốn quảng cáo sản phẩm, và nảy sinh ra
trường hợp cạnh tranh những từ khoá chung.
Trong quá khứ, những nhà quảng cáo thích đặt giá cho những từ khoá mà nó có
xu hướng sinh ra số lượng lớn kết quả trả về, cho nên những từ khoá này thường rất
đắt. Có một chiến lược khác bằng cách trả giá cho những từ khoá khác liên quan cho ít
kết quả hơn khi máy tìm kiếm trả về, nhưng nó vẫ
n có tầm quan trọng và nói lên được
cái ẩn, nội dung mà người quảng cáo muốn hướng tới. Do đó, nó vừa có hiệu quả, lại
vừa có giá đầu tư cho từ khóa là rẻ, ít cạnh tranh nhưng vẫn đảm bảo tính chất phổ
máy tìm kiếm khi người dùng search trong máy tìm kiếm và click vào quảng cáo. Một
trường hợp tự nhiên đó là hiện nay có nhiều doanh nghiệp với nhiều mặt hàng là giống
nhau, và đều muốn cạnh tranh với nhau. Khi quảng cáo trên máy tìm kiếm, các từ khoá
có thể sẽ trùng nhau, và các doanh nghiệp đều muốn sở hữu từ khoá đó vì những từ
khoá đó là phổ biến và quan trọng. Do đó, máy tìm kiếm sẽ có quá trình đấu giá cho từ
khoá. Đối v
ới mỗi từ khoá, doanh nghiệp nào trả giá cho từ khoá cao hơn sẽ được
đứng ở vị trí đầu.
9 Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm
1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm
Tối ưu hóa công cụ tìm kiếm, hay SEO (viết tắt của search engine
optimization), là một tập hợp các phương pháp nhằm nâng cao thứ hạng của một
website trong các trang kết quả của các công cụ tìm kiếm
và có thể được coi là một
tiểu lĩnh vực của tiếp thị qua công cụ tìm kiếm
[4]. Một trong những các phương pháp
trong quá trình SEO là việc tìm từ khóa cho các trang web.
Từ khóa là những từ, cụm từ mà những người truy cập nhập vào trong những cỗ
máy tìm kiếm để tìm thấy thông tin từ những trang web. Điều quan trọng hàng đầu của
các người quản trị web là các trang web của họ có được những cỗ máy tìm kiếm tốt
xếp hạng những từ khóa phổ biến liên quan đến đề tài của trang web của họ không.
Nh
ững từ khóa đúng quan trọng với thành công của những hoạt động SEO của
những người quản trị web. Sẽ không phải là giải pháp tốt khi tối ưu hóa những trang
Web cho những từ khóa mà không ai sử dụng trong những cỗ máy tìm kiếm. Hơn nữa,
để có thêm những người dùng quan tâm đến trang web, những từ khóa không được
Một động lực khác
để phát triển bài toán trích xuất từ khoá cho trang web đó là
từ khoá giúp phân loại các văn bản theo định nghĩa của người dùng dưới dạng chủ đề
cho phép dễ dàng truy câp và tìm thông tin trên đó. Nó còn giúp việc liên kết mỗi tài
liệu liên quan đến nhau (cross-link) một cách linh động, và giảm thời gian để tìm kiếm
cho thông tin giống với nội dung trang đang xem. Ví dụ như trong
Hình 2, Hình 3 là
những từ khoá hàng đầu của 2 trang baomoi.com (tiếng Việt) và Flickr(tiếng Anh).
Hình 2. Top từ khóa của baomoi.com
Hình 3. Top từ khóa của flickr.com
Tại một thời điểm nào đó, nếu người dùng truy cập, xem nhiều những trang mà có
chung những từ khoá, vì vậy top từ khoá sẽ nói lên được xu thế của người dùng.
Những từ khóa hay được người dùng sử dụng chính là những chủ đề mà người dùng
hiện tại đang quan tâm. Và khi người khác truy cập vào trang web, họ có thể khám
phá, đọc, xem những trang được coi là mới nhất hiện nay. Những từ khóa này giúp cho
người dùng nắm b
ắt thông tin mới theo cách khái quát, theo chủ đề xác định.
11
Trong khi người dùng đọc, xem các trang web, “những điều gì họ sẽ quan tâm
tiếp theo ?” là một câu hỏi được nhiều nhà quản trị các trang web tổng hợp thông tin
hướng tới nhằm thoả mãn nhu cầu tối đa của người dùng. Và từ khoá là một trong
những giải pháp khá hiệu quả và thành công. Mỗi một trang web người dùng khi đọc
sẽ hiện ra những từ khoá liên quan đến bài viết đó. Những từ khoá này nói lên phần
nào được nộ
i dung trang web mà người dùng đang đọc. Với những từ khoá này, người
dùng có thể tìm những bài liên quan đến trang họ đang đọc qua các từ khoá. Ví dụ như
những thông tin mà họ thích. Các từ khóa cũng là một trong các phương thức để mọi
người khám phá trang web đó.
1.6. Tổng kết chương
Chương này tôi đã trình bày những khái niệm của từ khóa, và bài toán trích xuất
từ khóa cho trang web, thách thức của nó trong các tài liệu web. Và qua đây, chúng ta
cũng thấy được tầm quan trọng của việc sinh từ khóa trên các lĩnh vực khác nhau.
Chương II, khóa luận xin trình bày một số công trình khoa học có liên quan đến bài
toán này.
13
Chương 2. Các công trình liên quan
2.1. Các phương pháp trích xuất từ khóa cho văn bản
Trích xuất từ khoá cho trang web là một bài toán được cụ thể hóa một phần từ
bài toán trích xuất thông tin (IR: Information Retrieval). Đã có các nghiên cứu khác
nhau về bài toán trích xuất từ khoá một cách tự động. Mà đặc biệt với bài toán tóm tắt
văn bản là một trong những bài toán gần giống với bài toán này. Mục tiêu của bài toán
trích xuất từ khóa là tìm ra những từ khoá miêu tả được nội dung của văn bản, trang
web bằng cách áp dụng các phương pháp khác nhau dựa trên các đặc đi
ểm của văn
bản, web. Tuy nhiên, miền áp dụng của bài toán tóm tắt văn bản là trên các văn bản
thông thường. Một số phương pháp trong bài toán tóm tắt văn bản cũng có thể áp dụng
cho bài toán trích xuất từ khóa cho văn bản.
Các lý thuyết, phương pháp được áp dụng khá đa dạng đối với văn bản như : sử
dụng tần số (tfxidf), học máy naïve bayes, cây quyết định, co-occurrence, độ tương
đồng từ khóa, các k
ĩ thuật khác trong bài toán tóm tắt văn bản Sau đây là phần giới
thiệu một số phương pháp.
2.1.1. Phương pháp tần số từ
Trong đó :
NUMDOC: số tài liệu trong tập corpus
NUMDOC(keyword) : chính là số tài liệu mà có từ keyword xuất hiện.
Nếu tf(keyword) x idf(keyword) vượt một ngưỡng xác định, các cụm từ khóa được tìm
thấy và được gán trọng số. Những từ nào có trọng số cao thì được chọn.
Đối với trang web, có thể áp dụng phương pháp này bằng cách từ địa chỉ trang
web cần lấy từ khóa. Lần theo các liên kết trong trang hạt giống này (seed page) để lấy
về các trang web khác và ph
ải thuộc cùng domain[25]. Tập các trang web này tạo nên
một tập corpus. Việc tính toán từ khóa cho mỗi tài liệu web sẽ được tính theo công
thức trên dựa vào những đoạn text hiển thị trích ra từ các trang web đó. Tuy nhiên, do
trang web có nhiều những từ được hiển thị trong một trang không có ý nghĩa như :
thực đơn, quảng cáo nhưng lại xuất hiện nhiều lần ở các trang. Vì vậy, các từ xuất
hiện trong các mục này lại có tần số xu
ất hiện cao, và thường vào các từ khóa.
2.1.2. Phương pháp sử dụng các thông tin khác trong văn bản
Phương pháp tìm từ khóa dựa vào trích xuất các phần quan trọng của các phần
trong văn bản có phần tương tự như phương pháp tóm tắt của Edmundson [12], dựa
vào phương pháp lấy phần quan trọng của văn bản: là các cụm từ gợi ý, từ khóa, tiêu
đề của văn bản, ví trị của câu trong văn bản. Phương pháp tìm từ khóa c
ũng sẽ dùng
các đặc điểm của văn bản để tìm ra những từ khóa. Dưới đây là cơ sở của phương
pháp:
a. Cụm từ gợi ý trong văn bản
Thông thường các cụm từ gợi ý là liên quan hoặc không liên quan tới các câu
quan trọng. Ví dụ với các từ “Trong bài báo này”, “Tóm lại” thường là phần quan
trọng của văn bản. Hoặc những cụm từ khác như “ví dụ” chỉ ra phầ
n không quan trọng
của văn bản.
áp dụng trong nội tại của một văn bản. Một mục từ, cụm từ xuất hiện trong văn bản
nhiều hơn một ngưỡng nào đó thì được coi là từ quan trọng.
Từ những cơ sở trên ta có thể tính được trọng số của một từ khóa b
ằng tổ hợp
tuyến tính các trọng số nhận được từ các phương pháp trích rút ở trên:
weight(K) =
)(.)(.)(.)(. KFrequentKPositionKCueKTitle
δ
γ
β
α
+
+
+
Các tham số
δ
γ
β
α
,,, sẽ được điều chỉnh phù hợp bằng cách thử nghiệm với các dữ
liệu khác nhau.
2.1.3. Phương pháp sử dụng học máy
KEA [19] và GenEX [9] là hai trình ứng dụng đưa ra một số giải pháp về bài
toán trích xuất từ khóa (keyword extraction)[28]. Trong khi GenEX dùng giải thuật di
truyền thì KEA dùng luật quyết định dựa trên phân lớp Naive Bayes (Naïve Bayes
decision rule) trên 2 thuộc tính đó là TFxIDF và khoảng cách của từ đến đoạn đầu của
16
được chọn vì từ điển tiếng Anh này có đầy đủ các thông tin về các từ trong tiếng Anh
như: danh từ, các từ đồng nghĩa, trái nghĩa V
ới các quan hệ ngữ nghĩa này, tác giả
xây dựng mô hình để sinh ra chuỗi từ vựng (lexical chain) toàn bộ văn bản tạo thành
một chuỗi từ vựng có cấu tạo giống với WordNet. Nhiều câu phức tạp sẽ sinh ra
trường hợp nhầm ngữ nghĩa.