NGHIÊN CỨU KĨ THUẬT ĐÁNH GIÁ ĐỘ TƯƠNG ĐỒNG VĂN BẢN ỨNG DỤNG TRONG SO SÁNH VĂN BẢN TIẾNG VIỆT - Pdf 37

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

KHOA CÔNG NGHỆ THÔNG TIN

THUYẾT MINH
ĐỀ TÀI NCKH CẤP TRƯỜNG
ĐỀ TÀI

NGHIÊN CỨU KĨ THUẬT ĐÁNH GIÁ
ĐỘ TƯƠNG ĐỒNG VĂN BẢN
ỨNG DỤNG TRONG SO SÁNH VĂN BẢN TIẾNG VIỆT

Chủ nhiệm đề tài:
Thành viên tham gia:

Th.S NGUYỄN KIM ANH
Th.S TRỊNH THỊ NGỌC HƯƠNG

Hải Phòng, tháng 05/2016

MỤC LỤC
MỤC LỤC ....................................................................................................................... 2
DANH SÁCH HÌNH ẢNH ............................................................................................. 4
DANH SÁCH BẢNG BIỂU ........................................................................................... 5
MỞ ĐẦU ......................................................................................................................... 6
CHƯƠNG I: TỔNG QUAN VỀ ĐỀ TÀI ....................................................................... 7
1.1.

Lý do chọn đề tài ............................................................................................ 7

Từ đồng nghĩa ...........................................................................................11

2.2.4.

Đặc điểm chính tả ......................................................................................12

2.2.5.

Bảng mã tiếng Việt trên máy tính .............................................................12

2.3.

Hướng tiếp cận cho bài toán so sánh văn bản tiếng Việt ............................. 13

2.3.1.

Tiền xử lý văn bản tiếng Việt ....................................................................13

2.3.2.

Phương pháp tính độ tương đồng giữa các văn bản ..................................14

2.3.3.

Hướng tiếp cận cho bài toán so sánh văn bản tiếng Việt ..........................16

CHƯƠNG III: MÔ HÌNH BIỂU DIỄN VĂN BẢN TIẾNG VIỆT .............................. 18
3.1.

Mô hình tương phản (Contrast model) ......................................................27

4.2.3.

Hệ số Jaccard .............................................................................................27

4.3.

Độ tương đồng văn bản dựa trên vector biểu diễn ....................................... 27

4.3.1.

Độ tương đồng Cosine ..............................................................................27

4.3.2.

Độ tương đồng dựa vào khoảng cách Euclide ..........................................28

4.3.3.

Độ tương đồng dựa vào khoảng cách Manhattan .....................................28

4.4.

Độ tương đồng văn bản trong tiếng Việt ...................................................... 29

4.4.1.

Độ tương tự ngữ nghĩa từ - từ ...................................................................29

5.1.4.

*Tính độ tương tự văn bản ........................................................................36

5.2.

Mô hình thực nghiệm.................................................................................... 38

5.2.1.

Môi trường thực nghiệm ...........................................................................38

5.2.2.

*Chương trình ứng dụng thử nghiệm ........................................................38

5.2.3.

*Kết quả thử nghiệm .................................................................................38

KẾT LUẬN ................................................................................................................... 39
TÀI LIỆU THAM KHẢO ............................................................................................. 40

DANH SÁCH HÌNH ẢNH
Hình 1: Mô hình vector biểu diễn văn bản ....................................................................19
Hình 2: Ví dụ mô hình đồ thị khái niệm ........................................................................22
Hình 3: Ví dụ mô hình đồ thị hình sao ..........................................................................23
Hình 4: Ví dụ mô hình đồ thị vô hướng sử dụng tần số xuất hiện ................................24
Hình 5: Ví dụ mô hình đồ thị đơn giản..........................................................................24

 Chương 4: trình bày phương pháp tính độ tương tự và những cải tiến trên
văn bản tiếng Việt.
 Chương 5: trình bày thiết kế hệ thống so sánh độ tương tự trong văn bản
tiếng Việt.
Cuối cùng đề tài đưa ra một số kết luận về kết quả thực hiện và đề xuất các
hướng nghiên cứu trong tương lai.

Thuyết minh ĐT NCKH

CHƯƠNG I: TỔNG QUAN VỀ ĐỀ TÀI

CHƯƠNG I: TỔNG QUAN VỀ ĐỀ TÀI
1.1.

Lý do chọn đề tài

Trong các loại dữ liệu thì dữ liệu văn bản là dạng phổ biến nhất. Ngày nay, với
sự phát triển mạnh mẽ của Internet, dữ liệu văn bản đã trở nên phong phú về nội dung
và tăng nhanh về số lượng. Chỉ bằng một vài thao tác đơn giản, tại bất kì đâu, tại bất kì
thời điểm nào, ta cũng có thể nhận về một khối lượng khổng lồ các trang web và các
tài liệu điện tử liên quan đến nội dung tìm kiếm. Chính sự dễ dàng này cũng mang đến
cho chúng ta rất nhiều khó khăn trong việc chắt lọc ra các thông tin được coi là mới, là
riêng, là hữu ích giữa các tài liệu ấy.
Cho đến thời điểm hiện tại, khai phá dữ liệu văn bản trong tiếng Anh đã có rất
nhiều công trình nghiên cứu và đạt được nhiều kết quả. Nhìn một cách tổng quan, hầu
hết các nghiên cứu này đều dựa vào mô hình biểu diễn văn bản dạng vector và tính
toán dựa trên xác suất thống kê thông tin trọng số của các từ trong văn bản. Do các đặc
điểm của tiếng Việt khác với tiếng Anh, phương pháp trên có nhược điểm là chưa
quan tâm tới vấn đề ngữ nghĩa của văn bản như mối quan hệ giữa các từ/cụm từ, tần

việc sao chép bài điện tử.

Phương pháp nghiên cứu

Tìm hiểu, khảo sát và hệ thống hóa các kết quả nghiên cứu đã có về vấn đề độ
tương đồng văn bản và các ứng dụng đối với tiếng Việt.
7

Thuyết minh ĐT NCKH

CHƯƠNG I: TỔNG QUAN VỀ ĐỀ TÀI

Nghiên cứu lý thuyết về mô hình tính độ tương đồng văn bản, mô hình biểu
diễn văn bản và ứng dụng các mô hình vào thiết kế, xây dựng thử nghiệm hệ thống so
sánh độ tương đồng giữa các văn bản tiếng Việt.
Thực nghiệm trên các dữ liệu mẫu để đánh giá hệ thống.

8

Thuyết minh ĐT NCKH

CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT

CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT
2.1.

Bài toán so sánh văn bản

 Download UltraCompare: một trong những phần mềm so sánh file văn
bản. Chương trình thực hiện so sách nội dung của các tài liệu và đưa ra tỷ lệ
trùng, đánh dấu các nội dung trùng một cách chính xác. Ngoài ra chương
trình còn cho phép người dùng tìm kiếm, đồng bộ các dữ liệu tìm kiếm và
thư mục để thuận việc tìm kiếm, so sánh trở lên nhanh chóng hơn.
9

Thuyết minh ĐT NCKH

CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT

 Plagiarism-Detector Personal: phần mềm phát hiện các đoạn văn sao chép.
Đây là ứng dụng độc đáo với các công cụ hữu ích nhằm hỗ trợ người sử
dụng phát hiện ra những đoạn văn hay văn bản sao chép từ các nguồn khác
nhau một cách chính xác.
 Turnitin: hệ thống hỗ trợ kiểm tra, đánh giá việc sao chép bài điện tử được
triển khai tại FPT Polytechnic. Hệ thống này hiện đang làm việc với nhiều
trường đại học hàng đầu thế giới và các trung tâm nghiên cứu lớn, một vài
tổ chức chính phủ nhằm cung cấp một công cụ hiệu quả phát hiện sự vay
mượn, sao chép.

2.2.

Đặc điểm ngôn ngữ tiếng Việt

2.2.1. Cấu tạo từ tiếng Việt
Tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính, tức là mỗi âm tiết
(tiếng) được phát âm tách rời và được thể hiện bằng một từ [4]. Hai đặc trưng này chi
phối toàn bộ toàn bộ tổ chức của hệ thống ngôn ngữ tiếng Việt.

CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT

ví dụ: ăn nói, bơi lội… Đối với từ ghép chính phụ, các thành phần cấu tạo từ có mối
quan hệ phụ thuộc với nhau về nghĩa, thành phần phụ có vai trò làm chuyên biệt hóa,
tạo sắc thái cho thành phần chính, ví dụ: hoa hồng, đường sắt…
Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp với nhau theo những quan
hệ ngữ pháp nhất định. Ví dụ:
-

Từ “học” là từ gồm một tiếng.
Từ “đại học” là từ gồm hai tiếng.
Cụm từ “khoa học máy tính” gồm 2 từ hay 4 tiếng.

Theo như thống kê trên trang http://vdict.com thì độ dài của một từ tiếng Việt
được thể hiện trong bảng [6]:
Độ dài của từ
1
2
3
4
≥5
Tổng cộng

Tần số
8399
48995
5727
7040
2301

Thuyết minh ĐT NCKH

CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT

nhau. Ví dụ, từ “coi” có thể tham gia vào các nhóm như coi – xem (coi hát, xem hát),
coi – giữ (coi nhà, giữ nhà).
2.2.4. Đặc điểm chính tả
Đặc điểm chính tả tiếng Việt có ý nghĩa rất quan trọng trong các hệ thống xử lý
dữ liệu văn bản. Một số đặc điểm chính tả tiếng Việt cần quan tâm như [4]:
-

-

Các tiếng đồng âm: kĩ/kỹ, lí, lý… thường bị sử dụng lẫn nhau như: lý luận,
lí luận, kĩ thuật, kỹ thuật…
Các từ địa phương: một số từ địa phương sử dụng thay cho các từ phổ
thông, chẳng hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc…
Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu được đặt trên
nguyên âm có ưu tiên cao nhất. Tuy nhiên, khi soạn thảo văn bản nhiều bộ
gõ không tuân thủ nguyên tắc này nên có hiện tượng dấu được đặt ở các vị
trí khác nhau, chẳng hạn: toán, tóan, thuý, thúy…
Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa, tuy
nhiên vẫn tồn tại một số cách viết tuỳ tiện.
Phiên âm tiếng nước ngoài: tồn tại cách viết giữ nguyên gốc tiếng nước
ngoài và phiên âm ra tiếng Việt, ví dụ: Singapore/Xin−ga−po.
Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt được giữa
nối tên riêng hay chú thích.
Kí tự ngắt câu: sử dụng nhiều loại kí tự đặc biệt như “.”, “;”, “!”, “?”, “…”
ngăn cách giữa các câu hoặc các vế câu trong câu ghép.

xử lý văn bản tiếng Việt cần phải có bước tiền xử lý để nhận dạng và quy chuẩn các kí
tự về một bảng mã chung.

2.3.

Hướng tiếp cận cho bài toán so sánh văn bản tiếng Việt

2.3.1. Tiền xử lý văn bản tiếng Việt
Văn bản trước khi đưa vào mô hình xử lý cần được tiền xử lý. Quá trình này sẽ
giúp nâng cao hiệu quả của mô hình và giảm độ phức tạp của thuật toán được cài đặt
vì nó có nhiệm vụ làm giảm số từ có trong biểu diễn văn bản. Thông thường các bước
tiền xử lý văn bản gồm:
 Tách văn bản thành các câu và các từ riêng lẻ để sử dụng cho mục đích tính
toán sau này.
 Loại bỏ từ dừng (stopwords), loại bỏ các ký tự không phải chữ cái hoặc chữ số.
 Lưu các câu và các từ vào một cấu trúc dữ liệu phù hợp.
2.3.1.1.

Tách từ tiếng Việt

Tách từ có thể nói là giai đoạn quan trọng nhất, ảnh hưởng đến kết quả của mô
hình xử lý. Bước này có nhiệm vụ xác định các từ có trong văn bản, kết quả của nó là
một tập các từ riêng biệt. Các trường hợp đặc biệt như số, dấu ngoặc, dấu chấm câu
thường bị loại ra trong khi phân tích vì một mình nó không mang lại ý nghĩa nào cho
tài liệu (ngoại trừ một vài trường hợp đặc biệt, ví dụ trong thu thập thông tin về lĩnh
vực lịch sử). Tuy nhiên trong một vài trường hợp, chẳng hạn đối với những từ ghép
nối (state-of-the-art) không được phép bỏ dấu “-”, vì sẽ làm thay đổi nghĩa của từ.
Trong tiếng Việt, từ là sự hoàn chỉnh về mặt nội dung, là đơn vị nhỏ nhất để đặt
câu. Người ta dùng từ để kết hợp thành câu chứ không dùng tiếng. Đối với các hệ
thống xử lý ngôn ngữ tiếng Anh, để xác định các từ đặc trưng cho văn bản người ta có

2.3.1.2.

Mô hình tách từ bằng WFST (Weighted Finit State Transduce) và mạng
Neural đã được sử dụng trong công trình của tác giả Đình Điền (2001). Tác
giả đã xây dựng hệ thống tách từ gồm tầng WFST để tách từ và xử lý các
vấn đề liên quan đến một số đặc thù của tiếng Việt như từ láy, tên riêng…
và tầng mạng Neural dùng để khử nhập nhằng về ngữ nghĩa sau khi đã tách
từ nếu có. Mô hình này đạt được độ chính xác trên 97% theo như công bố
của tác giả [2].
JvnTextPro: công cụ tách từ do nhóm tác giả Nguyễn Cẩm Tú, Khoa Công
nghệ - Trường Đại học Quốc gia Hà Nội xây dựng có thể nhận biết được các
danh từ riêng, các từ đơn và từ ghép với có độ chính xác trung bình khá cao,
khoảng 94,5%.
Bộ công cụ tách từ vnTokenizer thuộc nhánh đề tài “Xử lý văn bản tiếng
Việt” nằm trong Đề tài thuộc Chương trình Khoa học Công nghệ cấp Nhà
nước “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng
nói và văn bản tiếng Việt” (2006) cũng cho độ chính xác cao, trên 97%.
Loại bỏ từ dừng (stopwords)

Từ dừng là các từ thường xuất hiện nhiều trong các văn bản của tập dữ liệu,
thường thì chúng không giúp ích gì trong việc phân biệt nội dung của các tài liệu. Ví
dụ “như vậy”, “sau đó”, “một số”, “chỉ”…
2.3.1.3.

Loại bỏ từ có tần số thấp

Có nhiều từ trong tập văn bản xuất hiện rất ít lần và có ảnh hưởng rất ít trong
văn bản. Vì vậy các từ này cũng nên loại bỏ.
2.3.1.4.

Euclide, Manhattan... Các phương pháp này tốc độ xử lý nhanh, tốn ít chi phí
nhưng không đảm bảo độ chính xác cao về mặt ngữ nghĩa.
Với phương pháp dựa trên quan hệ ngữ nghĩa giữa các từ: một số hướng tiếp
cận phân tích cấu trúc ngữ pháp, sử dụng mạng ngữ nghĩa đối với từ như
Wordnet corpus hoặc Brown corpus... Các phương pháp này xử lý chậm hơn,
tốn nhiều chi phí hơn nhưng xét về mặt ngữ nghĩa thì độ tương đồng chính xác
cao hơn phương pháp thống kê.

Do đặc điểm của tiếng Việt, vấn đề tương đồng ngữ nghĩa trên văn bản tiếng
Việt phức tạp hơn khi so với ngôn ngữ tiếng Anh. Phần lớn các giải pháp hiện có
thường quan tâm tới các độ đo dựa vào thống kê mà chưa khai thác các độ đo dựa vào
xử lý ngôn ngữ tự nhiên. Các phương pháp tính dựa trên kho ngữ liệu Wordnet được
đánh giá là cho kết quả cao, tuy nhiên WordNet chỉ hỗ trợ cho tiếng Anh, việc xây
dựng kho ngữ liệu này cho tiếng Việt là chưa có. Một số phương pháp được đề xuất
thay thế Wordnet như phương pháp phân tích chủ đề ẩn hay sử dụng mạng ngữ nghĩa
Wikipedia thay thế được xem như là phương án khả thi và hiệu quả. Các phương pháp
này tập trung vào việc bổ sung các thành phần ngữ nghĩa hỗ trợ cho độ đo tương đồng
Cosine.
Một số đề tài đáng chú ý về so sánh, đánh giá độ tương tự văn bản như “Tính
toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ” của tác giả
Đỗ Thị Thanh Nga (Đại học Công nghệ Đại học Quốc gia Hà Nội, 2010), đề tài
“Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng” của tác giả
Dương Thăng Long (Viện Đại học Mở Hà Nội, 2014).
Đề tài của tác giả Đỗ Thị Thanh Nga đưa ra mô hình tính độ tương tự ngữ nghĩa
giữa hai văn bản dựa trên độ tương tự giữa từ với từ kết hợp với tần suất đặc trưng của
từ [6]. Kết quả của đề tài tương đối khả quan với những cặp văn bản hoặc là giống
nhau nhiều hoặc là khác nhau nhiều. Tuy nhiên, do phương pháp này chưa xét đến mối
quan hệ về cấu trúc của từ/cụm từ, vị trí của câu… nên vẫn còn nhiều trường hợp
chương trình thử nghiêm cho kết quả không chính xác. Cũng chình vì thế các văn bản
có sự tương đồng cao về ngữ nghĩa không hẳn đã là giống nhau. Nói cách khác, độ

các công thức tính toán độ tương tự, ví dụ độ tương tự Cosine. Nếu độ tương tự này
đạt đến một ngưỡng đủ lớn thì người ta nói rằng chúng có liên quan về mặt ngữ nghĩa
và ta có thể thiết lập một liên kết giữa hai văn bản này.
Tuy nhiên, đối với các văn bản tiếng Việt, phương thức ngữ pháp chủ yếu là
dựa trên trật tự của từ trong câu nên nếu áp dụng mô hình biểu diễn văn bản dựa trên
tần số xuất hiện của từ có thể không cho kết quả chính xác như mong đợi. Nguyên
nhân là do vector biểu diễn văn bản không đảm bảo giữ được mối liên quan về mặt
ngữ nghĩa giữa các từ, vị trí các từ, cụm từ và vị trí của câu trong văn bản, hai vector
có trật tự từ khác nhau vẫn có thể cho độ tương tự là hoàn toàn giống nhau.
Nhằm kế thừa ưu điểm của các phương pháp đã biết, hướng tiếp cận bài toán so
sánh văn bản tiếng Việt là xác định độ tương tự của văn bản dựa trên độ tương tự của
câu và trật tự câu, độ tương tự câu dựa trên độ tương tự của từ và trật tự của từ trong
câu. Những cải tiến của phương pháp đề xuất so với so sánh văn bản tiếng Anh và các
phương pháp đã biết là:
-

Kết hợp sử dụng bộ tách từ, từ điển từ dừng và từ điển từ đồng nghĩa làm tăng
tính ngữ nghĩa của tập từ khóa và vector đặc trưng biểu diễn văn bản.

16

Thuyết minh ĐT NCKH

-

CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT

Kết hợp độ tương tự ngữ nghĩa từ (có xử lý từ đồng nghĩa) và độ tương tự thứ
tự từ vào tính độ tương tự của văn bản nhằm nâng cao chất lượng kết quả so

3.1.1. Mô hình logic
Trong mô hình này, văn bản được biểu diễn dựa theo chỉ số của các từ có nghĩa.
Từ có nghĩa là từ mang thông tin chính của văn bản, khi nhìn vào từ đó người ta biết
chủ đề của văn bản cần biểu diễn là gì. Mỗi văn bản được đánh chỉ số theo qui tắc liệt
kê các từ có nghĩa trong văn bản và với mỗi từ khóa, lưu vị trí xuất hiện cùng với mã
của văn bản chứa nó [2].
Ví dụ, có hai văn bản VB1,VB2:
“Mô hình đồ thị biểu diễn văn bản” (VB1)
“Biểu diễn văn bản sử dụng mô hình đồ thị” (VB2)
Khi đó ta có cách biểu diễn như sau:
Từ mục

Mã VB _ Vị trí XH

Mô

VB1(1), VB2(7)

Hình

VB1(2), VB2(8)

Đồ

VB1(3), VB2(9)

Thị

VB1(4), VB2(10)

Ưu điểm: việc tìm kiếm có thể thực hiện nhanh và đơn giản do trước đó ta đã
sắp xếp bảng Index theo các từ khóa. Hệ thống sẽ duyệt trên bảng Index để trỏ để trỏ
đến Index tương ứng với từ khóa nếu từ khóa tồn tại trong hệ thống, và cho ta biết các
tài liệu chứa từ khóa cần tìm.
Nhược điểm: đòi hỏi người tìm kiếm phải có kinh nghiệm tìm kiếm. Do câu
hỏi tìm kiếm được đưa vào dưới dạng Logic nên kết quả trả lại cũng có giá trị Logic,
một số tài liệu sẽ chỉ được trả lại khi thỏa mãn mọi điều kiện. Như vậy muốn tìm được
tài liệu theo nội dung thì phải biết đích xác về tài liệu. Hơn nữa, việc Index các tài liệu
phức tạp và tốn nhiều thời gian, không gian để lưu trữ; khi thêm, xóa từ khóa vào các
bảng Index chỉ số Index của văn bản cũng thay đổi theo.
3.1.2. Mô hình vector
Mô hình vector là một trong những mô hình đơn giản và thường được sử dụng
trong phần lớn các bài toán xử lý dữ liệu văn bản. Theo mô hình này, mỗi văn bản
được biểu diễn thành một vector, mỗi thành phần của vector là một từ khóa trong tập
văn bản gốc và được gán một giá trị trọng số xác định tần suất xuất hiện của từ trong
văn bản.

Hình 1: Mô hình vector biểu diễn văn bản

Phát biểu của mô hình:
⃗ (vector đặc trưng cho
Mỗi văn bản D được biểu diễn dưới dạng một vector 𝑉
⃗ = (𝑣1 , 𝑣2 , … , 𝑣𝑛 ) và n là số lượng đặc trưng hay số chiều của
văn bản D). Trong đó, 𝑉
vector văn bản(thường là số từ khóa), 𝑣𝑖 là trọng số của đặc trưng thứ i (với 1 ≤ 𝑖 ≤
𝑛).
Ví dụ: xét 2 văn bản với trọng số đặc trưng là số lần xuất hiện của từ khóa thứ i
trong văn bản, vector biểu diễn tương ứng như sau:
VB1: Life is not only life
19

Bảng 3: Vector biểu diễn văn bản

Trọng số của đặc trưng có thể tính dựa trên tần số xuất hiện của từ khóa trong
văn bản. Ma trận biểu diễn trọng số (ma trận tần suất) W ={wij} được xác định dựa
trên tần số xuất hiện của từ khóa ti trong văn bản dj. Một số phương pháp xác định wij:
 Phương pháp Boolean weighting: giá trị là 1 nếu số lần xuất hiện của từ
khóa lớn hơn một ngưỡng nào đó, ngược lại 0).
 Phương pháp dựa trên tần số từ khóa (Term Frequency Weighting).
 Phương pháp dựa trên nghịch đảo tần số văn bản (Inverse Document
Frequency).
 Tf*idf weighting.
a) Phương pháp Boolean weighting
Mô hình vector với trọng số từ khóa ti nhận giá trị đúng nếu và chỉ nếu ti xuất
hiện trong văn bản đó.
Giả sử có một cơ sở dữ liệu gồm m văn bản, D = {d1, d2,… dm}. Mỗi văn bản
được biểu diễn dưới dạng một vector gồm n từ khóa T = {t1, t2,…tn}. Gọi W = {wij} là
ma trận trọng số, trong đó wij là giá trị trọng số của từ khóa ti trong văn bản dj.
𝑤𝑖𝑗 = {

1 𝑛ế𝑢 𝑡𝑖 𝑐ó 𝑡𝑟𝑜𝑛𝑔 𝑑𝑗
0 𝑛ế𝑢 𝑛𝑔ượ𝑐 𝑙ạ𝑖

b) Phương pháp dựa trên tần số từ khóa (Term Frequency)
Các giá trị wij được tính dựa trên tần số xuất hiện của từ khóa trong văn bản.
Giả sử fij là số lần xuất hiện của từ khóa ti trong văn bản dj, khi đó wij được tính bởi
một trong ba công thức:
𝑤𝑖𝑗 = 𝑓𝑖𝑗
𝑤𝑖𝑗 = 1 + 𝑙𝑜𝑔(𝑓𝑖𝑗 )
𝑤𝑖𝑗 = √𝑓𝑖𝑗

Đây là phương pháp kết hợp của hai phương pháp TF và IDF. Trọng số wij
được tính bằng tần số xuất hiện của từ khóa ti trong văn bản dj và độ hiếm của từ khóa
ti trong tập văn bản.
Công thức tính wij:
(1 + log(𝑓𝑖𝑗 )) log (

𝑤𝑒𝑖𝑔ℎ(𝑖, 𝑗) = {
0

𝑁
) 𝑛ế𝑢 𝑓𝑖𝑗 ≥ 1
𝑑𝑓𝑖
𝑛ế𝑢 𝑓𝑖𝑗 = 0

Trong đó:
o weigh(i,j): trọng số của từ thứ i trong văn bản thứ j.
o fij (term frequency): số lần xuất hiện của từ thứ i trong văn bản thứ j, fij
càng cao thì từ đó càng miêu tả tốt nội dung văn bản.
o dfi (document frequency): số văn bản có chứa từ thứ i.
Nhận xét:
Ưu điểm: mô hình vector là mô hình biểu diễn văn bản được sử dụng khá phổ
biến trong các hệ xử lý văn bản. Mối quan hệ giữa các văn bản được tính toán dựa trên
các vector biểu diễn nên dễ dàng thực hiện.
Nhược điểm: vì mỗi văn bản được biểu diễn thành một vector n chiều, với số
chiều thường là số từ khác nhau trong tập văn bản, do đó không gian biểu diễn có số
chiều tương đối lớn, việc lưu trữ và tính toán trên vector tốn kém và phức tạp.

21

3.2.1. Mô hình đồ thị khái niệm
Mô hình đồ thị khái niệm sử dụng mạng ngữ nghĩa để biểu diễn văn bản thành đồ thị.
Mỗi từ trong văn bản là một khái niệm và được biểu diễn bẳng đỉnh hình vuông. Đỉnh hình
oval thể hiện mối quan hệ giữa các khái niệm. Các đỉnh hình vuông được nối với nhau dựa
trên mối quan hệ trong mạng ngữ nghĩa và qua trung gian là đỉnh hình oval.
Ví dụ ta có câu: “John is going to Boston by bus”, đồ thị khái niệm có dạng:

Hình 2: Ví dụ mô hình đồ thị khái niệm
22

Thuyết minh ĐT NCKH

CHƯƠNG III: MÔ HÌNH BIỂU DIỄN VĂN BẢN TIẾNG VIỆT

Trong hình, các khái niệm là “Go”, “Person: John”, “City: Boston” và “Bus”,
các mối quan hệ “Agnt”, “Dest” và “Inst”.
Ưu điểm của CGs là mô hình hóa văn bản một cách trực quan, chính xác và logic. Hạn
chế của mô hình là khác phức tạp, đòi hỏi phân tích ngữ nghĩa sâu, chuyên biệt và phụ thuộc
vào lĩnh vực.

3.2.2. Mô hình đồ thị hình sao
Trong đồ thị hình sao, đỉnh trung tâm là nét khái quát cấu trúc của văn bản. Sau khi
đỉnh trung tâm được xác lập, các đỉnh còn lại sẽ được triển khai. Ngoài đỉnh trung tâm, các
đỉnh còn lại biểu diễn từ trong văn bản. Cạnh nối giữa các đỉnh được gán nhãn, thể hiện mối
quan hệ giữa các đỉnh.
Ví dụ:

Hình 3: Ví dụ mô hình đồ thị hình sao

Hình 5: Ví dụ mô hình đồ thị đơn giản
Ưu điểm của mô hình là lưu trữ được các thông tin cấu trúc như thứ tự xuất hiện, vị trí
của từ trong văn bản và làm tăng hiệu quả của các bài toán phân lớp cũng như gom cụm văn
bản.

3.3.5. Mô hình đồ thị có hướng, cạnh không gán nhãn, cạnh là khoảng cách n giữa
hai từ trong văn bản
Mô hình này còn có tên gọi khác là mô hình khoảng cách n đơn giản. Trong mô hình
này, người dùng cung cấp tham số n. Thay vì chỉ quan tâm từ “A” trực tiếp ngay trước từ “B”
ta còn chú ý đến n từ đứng trước từ “B”. Cạnh được xây dựng giữa hai từ khi giữa chúng có
24

Thuyết minh ĐT NCKH

CHƯƠNG III: MÔ HÌNH BIỂU DIỄN VĂN BẢN TIẾNG VIỆT

số từ xuất hiện nhiều nhất là (n-1), ngoại trừ trường hợp các từ được phân cách bởi các dấu
câu.
Ví dụ: ta có câu “Cánh đồng lúa xanh bát ngát”, với n = 2, mô hình biểu diễn câu như
sau:

Hình 6: Ví dụ mô hình đồ thị khoảng cách n đơn giản
Ưu điểm của mô hình là tận dụng được mối quan hệ giữa các từ, vùng lân cận của từ
trong câu và có thể áp dụng vào bài toán phân lớp văn bản.

25

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

NGHIÊN CỨU KĨ THUẬT ĐÁNH GIÁ ĐỘ TƯƠNG ĐỒNG VĂN BẢN ỨNG DỤNG TRONG SO SÁNH VĂN BẢN TIẾNG VIỆT - Pdf 37

Tài liệu, ebook tham khảo khác

Học thêm