BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP VIỆN
NGHIÊN CỨU ĐỘ ĐO TƯƠNG ĐỒNG
VĂN BẢN TRONG TIẾNG VIỆT VÀ ỨNG
DỤNG HỖ TRỢ ĐÁNH GIÁ VIỆC SAO
CHÉP BÀI ĐIỆN TỬ
Mã số: V2014-33
Xác nhận của cơ quan Chủ nhiệm đề tài
chủ trì đề tài TS. Dương Thăng Long Hà Nội – 11/2014
Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng
Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014)
2
I.3. Mục đích nghiên cứu 9
I.4. Đối tượng và phạm vi nghiên cứu 10
I.5. Phương pháp nghiên cứu 10
PHẦN II: NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU 11
Chương 1. Các vấn đề về xử lý ngôn ngữ tự nhiên và ứng dụng 11
1.1. Xử lý ngôn ngữ tự nhiên 11
1.2. Vấn đề về độ tương tự trong văn bản 14
1.3. Vấn đề về sự sao chép hay đạo văn và một số kỹ thuật 19
Chương 2. Phương pháp đánh giá độ tương đồng văn bản tiếng Việt 23
2.1. Giới thiệu 23
2.2. Phương pháp đo độ tương đồng văn bản trong tiếng Việt 24
2.2.1. Độ tương tự ngữ nghĩa của văn bản 25
2.2.2. Độ tương tự về thứ tự các từ trong văn bản 27
2.2.3. Độ tương tự theo ma trận so sánh từng nhóm từ loại 28
2.2.4. Kết hợp giữa độ đo để đánh giá độ tương tự hai văn bản 29
Chương 3. Xây dựng hệ thống ứng dụng thử nghiệm 32
3.1. Công nghệ sử dụng 32
3.1.1. Ngôn ngữ lập trình Java 32
3.1.2. Bộ thư viện JVNTextPro 34
3.1.3. Google Translate API 38
3.2. Chương trình ứng dụng thử nghiệm 39
PHẦN III: KẾT LUẬN & KIẾN NGHỊ 43
III.1. Kết luận 43
III.2. Kiến nghị 43
TÀI LIỆU THAM KHẢO 44
Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng
Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014)
6DANH MỤC TỪ VIẾT TẮT
Stt Từ viết tắt Ý nghĩa đầy đủ
1 NLP Xử lý ngôn ngữ tự nhiên (Natural Language
Processing)
2 IC Hàm lượng thông tin (Information Content)
3 WordNet Mạng từ ngữ nghĩa
4 POS Phân nhóm loại từ trong văn bản
5 LCS Nút con chung thấp nhất (Lowest Common
Subsummer)
6 LSO Nút con chung thấp nhất (Lowest Super-
Ordinate)
7 SIM Độ tương tự (Similarity)
Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng
Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014)
7
PHẦN I: PHẦN MỞ ĐẦU
I.1. Tính cấp thiết của đề tài
Xử lý ngôn ngữ tự nhiên (Natural Language Processing) là một lĩnh vực
nghiên cứu thường có sự kết hợp giữa công nghệ thông tin và ngôn ngữ học.
Trong đó, vai trò của công nghệ thông tin ngày càng chứng tỏ sức mạnh và tầm
quan trọng trong các nghiên cứu cũng như kết quả ứng dụng. Cho đến nay đã có
nhiều kết quả nghiên cứu [V1-V5, A1-A9] và triển khai ứng dụng đem lại hiệu
trên kho ngữ liệu như là dữ liệu Web [Nan10] hoặc kho ngữ liệu có sẵn [Che13].
Các phương pháp mang tính thống kê dựa trên kho ngữ liệu đòi hỏi phải có một
kho ngữ liệu đủ lớn và đa dạng mới đem lại hiệu quả cao, bên cạnh đó mạng từ
tiếng Anh đã và đang được phát triển rất tốt và đem lại hiệu quả cao trong các
phương pháp.
Đối với xử lý ngôn ngữ trong tiếng Việt, hiện có một số cá nhân và tổ chức
nghiên cứu xây dựng cả về lý thuyết, mô hình và triển khai ứng dụng. Trong đó
một nhánh của Đề tài Khoa học công nghệ cấp Nhà nước “Nghiên cứu, xây dựng
và phát triển một số tài nguyên và công cụ thiết yếu cho xử lý văn bản tiếng
Việt” [Tha14] đang tập trung phát triển. Tuy vậy, các phương pháp đánh giá độ
tương tự văn bản tiếng Việt chủ yếu dựa trên kho ngữ liệu với việc kế thừa các
kết quả nghiên cứu từ tiếng Anh. Trong [Tha14], các tác giả đã tổng hợp các
phương pháp đánh giá độ tương tự giữa từ với từ và trên cơ sở đó đánh giá độ
tương tự giữa câu với câu. Các ví dụ minh họa cho việc mở rộng sang đo độ
tương tự trong văn bản tiếng Việt cũng được xem xét khá chi tiết.
Bên cạnh đó, cũng có nhiều công trình nghiên cứu về lĩnh vực này và bước
đầu có những ứng dụng thử nghiệm nhất định. Điển hình như là VNQTAG, công
cụ tìm kiếm itim.vn, hoặc JVnTextPro. Trong đó:
+ VNQTAG đã được phát triển từ lâu với bộ dữ liệu nhỏ nên độ chính xác
chưa cao.
+ Công cụ tìm kiếm itim.vn là một sản phẩm thương mại, hiện đang trong
giai đoạn phát triển và đưa vào sử dụng thử nghiệm, cũng chú trọng việc tách từ
trong câu văn Tiếng Việt để phục vụ cho tìm kiếm chính xác hơn. Itim.vn ghi
nhận các phản hồi của người dùng về kết quả tách từ để phục vụ cho việc thống
kê tìm kiếm kết quả của mình. Tuy nhiên vì đang trong giai đoạn thử nghiệm, độ
chính xác của việc tách từ là chưa cao.
+ JVnTextPro là hệ thống công cụ dùng lại phần lớn kết quả của đề tài
VLSP.
Có thể thấy, quy mô nhất và hoàn thiện nhất là nhánh xử lý văn bản tiếng
việt trong để tài VLSP tiếp cận theo phương pháp học máy. Nhóm nghiên cứu đã
I.3. Mục đích nghiên cứu
Nghiên cứu một số phương pháp đo độ tương đồng văn bản trong ngôn ngữ
tiếng Việt, thiết kế hệ thống hỗ trợ tự động đánh giá sự giống nhau về văn bản
tiếng Việt, đề xuất xây dựng thử nghiệm một số phần chức năng của hệ thống hỗ
trợ tự động đánh giá sự giống nhau của văn bản giúp cho việc xác định nhanh
chóng các kết quả bài luận dạng điện tử của sinh viên có trung thực hay không,
ứng dụng trong tổ chức quản lý đào tạo của các cơ sở giáo dục. Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng
Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014)
10
I.4. Đối tượng và phạm vi nghiên cứu
Các mô hình tính toán xác định độ đo tương đồng văn bản cả về cú pháp và
ngữ nghĩa, mức tương đồng văn bản ở các cấp độ từ, câu, đoạn văn hay toàn bộ
bài văn và ứng dụng trong tiếng Việt.
Các công cụ để lập trình và xây dựng thử nghiệm cho một mô hình được đề
xuất để đánh giá độ tương đồng hai văn bản tiếng Việt.
Hệ thống hỗ trợ tự động đánh giá sự sao chép các bài luận điện tử giúp cho
việc đánh giá sơ bộ các kết quả bài thu hoạch trong đào tạo nhanh chóng và
thuận tiện.
I.5. Phương pháp nghiên cứu
Thu thập, khảo sát và hệ thống hóa các kết quả nghiên cứu đã có về vấn đề
đo độ tương đồng văn bản và các ứng dụng đối với tiếng Việt.
Nghiên cứu lý thuyết về mô hình độ đo tương đồng văn bản, ứng dụng các
mô hình vào thiết kế và xây dựng hệ thống đo độ tương đồng văn bản tiếng Việt,
kết hợp thực nghiệm trên các dữ liệu mẫu và dữ liệu thu thập thực tế để đánh giá
hệ thống.
nghệ xử lý văn bản và xử lý tiếng nói không còn cách biệt, công nghệ xử lý tiếng
nói không chỉ dựa vào các kỹ thuật xử lý tín hiệu mà còn dựa vào cả việc hiểu
ngôn ngữ. Tham số của mô hình thống kê hoặc mô hình trạng thái có thể huấn
luyện từ các kho ngữ liệu lớn, nhiều mô hình gần đây được chứng tỏ có hiệu quả
cao như Maximum Entropy Markov Model (MEMM), Conditional Random
Fields (CRF), v.v.
Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng
Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014)
12
Ngày nay, cùng với sự phát triển của công nghệ thông tin, dữ liệu văn bản
được sản sinh ra ngày một rất nhiều và cần phải được xử lý đáp ứng nhu cầu của
con người để tìm ra thông tin, tri thức hữu ích. Một số bài toán tiêu biểu của xử
lý ngôn ngữ với mức độ khác nhau về xử lý và sử dụng ngôn ngữ của con người
như (theo [Wiki]):
- Nhận dạng chữ viết: Có hai kiểu nhận dạng, thứ nhất là nhận dạng chữ in,
ví dụ nhận dạng chữ trên sách giáo khoa rồi chuyển nó thành dạng văn bản điện
tử như dưới định dạng doc của Microsoft Word chẳng hạn. Phức tạp hơn là nhận
dạng chữ viết tay, có khó khăn bởi vì chữ viết tay không có khuôn dạng rõ ràng
và thay đổi từ người này sang người khác. Với chương trình nhận dạng chữ viết
in có thể chuyển hàng ngàn đầu sách trong thư viện thành văn bản điện tử trong
thời gian ngắn. Nhận dạng chữ viết của con người có ứng dụng trong khoa học
hình sự và bảo mật thông tin (nhận dạng chữ ký điện tử). Sản phẩm được ứng
dụng khá rộng rãi trong việc số hóa các tài liệu là VnDocR của Viện Công nghệ
thông tin – Viện hàm lâm khoa học và công nghệ Việt Nam.
- Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản
tương ứng. Giúp thao tác của con người trên các thiết bị nhanh hơn và đơn giản
hơn, chẳng hạn thay vì gõ một tài liệu nào đó bạn đọc nó lên và trình soạn thảo
sẽ tự ghi nó ra. Đây cũng là bước đầu tiên cần phải thực hiện trong ước mơ thực
đánh lừa của các trang web nhằm giới thiệu sản phẩm (có tên tiếng Anh là SEO
viết tắt của từ search engine optimization). Thực tế cho đến bây giờ chưa có máy
tìm kiếm nào hiểu được ngôn ngữ tự nhiên của con người trừ trang
www.ask.com được đánh giá là "hiểu" được những câu hỏi có cấu trúc ở dạng
đơn giản nhất. Mới đây cộng đồng mạng đang xôn xao về trang Wolfram Alpha,
được hứa hẹn là có khả năng hiểu ngôn ngữ tự nhiên của con người và đưa ra
câu trả lời chính xác. Lĩnh vực này hứa hẹn tạo ra bước nhảy trong cách thức
tiếp nhận tri thức của cả cộng đồng.
- Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn
theo mong muốn nhưng vẫn chứa những nội dung thiết yếu nhất.
- Khai phá dữ liệu (data mining) và phát hiện tri thức: Từ rất nhiều tài liệu
khác nhau phát hiện ra tri thức mới. Thực tế để làm được điều này rất khó, nó
gần như là mô phỏng quá trình học tập, khám phá khoa học của con người, đây
là lĩnh vực đang trong giai đoạn đầu phát triển. Ở mức độ đơn giản khi kết hợp
với máy tìm kiếm nó cho phép đặt câu hỏi để từ đó công cụ tự tìm ra câu trả lời
dựa trên các thông tin trên web mặc cho việc trước đó có câu trả lời lưu trên web
hay không (giống như trang Yahoo! hỏi và đáp, nơi chuyên đặt các câu hỏi để
người khác trả lời), nói một cách nôm na là nó đã biết xử lý dữ liệu để trả lời câu
hỏi của người sử dụng, thay vì máy móc đáp trả những gì chỉ có sẵn trong bộ
nhớ.
Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng
Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014)
14
Ngoài ra, với đặc thù trong xử lý tiếng Việt, các nhóm nghiên cứu đã và
đang phát triển nhiều phương pháp để giải quyết thêm các bài toán liên quan
như:
- Phân tách từ vựng tiếng Việt.
- Phân tách câu tiếng Việt.
- Tự động thêm dấu: chữ viết tiếng Việt là chữ viết có dấu thanh. Trong các
Trong [Muf09], đề cập đến việc đánh giá độ tương tự văn bản có thể chia
thành 2 tiếp cận chính: thứ nhất là sử dụng mạng từ ngữ nghĩa (WordNet) để
trích rút các đặc trưng từ các văn bản cần đánh giá, thứ hai là sử dụng thông tin
cú pháp của văn bản. Tuy nhiên, nhiều tác đã thực hiện các nghiên cứu sâu rộng
về các phương pháp được sử dụng WordNet với mục tiêu xác định sự giống
nhau giữa các khái niệm. Các tác giả phân biệt ba khái niệm: mối quan ngữ
nghĩa, khoảng cách ngữ nghĩa, và sự tương đồng. Họ cho rằng sự giống nhau là
"một trường hợp đặc biệt của mối quan hệ ngữ nghĩa". Một ví dụ đã được đưa ra
để phân biệt giữa các mối quan ngữ nghĩa và sự tương đồng là hai từ “ô tô” và
“xăng”. Hai từ này có liên quan chặt chẽ hơn so với “ô tô” và “xe đạp”, tuy
nhiên cặp từ “ô tô” và “xe đạp” có nhiều tương tự hơn. Họ định nghĩa khái niệm
khoảng cách ngữ nghĩa như là nghịch đảo của độ tương tự ngữ nghĩa hoặc mức
độ liên quan với nhau và cho rằng "hai khái niệm gần gũi với nhau: nếu giống
nhau hoặc mối quan hệ ở mức độ cao, và ngược lại chúng rất xa nhau".
Hình 2.1: Ví dụ về mạng từ tiếng Anh
Để sử dụng mạng từ WordNet, các định nghĩa và ký hiệu sau đây được sử
dụng [Muf09, Tha14]:
- Chiều dài của đường đi ngắn nhất trong WordNet từ nút (synset, hay gọi là
khái niệm) c
i
đến nút c
j
(đo bằng số cạnh hoặc số nút) được ký hiệu bằng len(c
i
,
c
j
).
nghĩa giữa hai khái niệm c1 và c2, khi đó mối liên hệ rel (w1, w2) giữa hai từ w1
và w2 được tính như sau,
)}2,1({)2,1(
max
)2(2),1(1
ccrelwwrel
wScwSc ∈∈
=
.
Trong đó
)(wS
là tập hợp các khái niệm trong cùng một phân loại mà ở đó
mang ý nghĩa của từ w. Như vậy, mức độ của mối liên hệ giữa hai từ là bằng mối
liên hệ gần nhất của các cặp từ mà chúng thể hiện ý nghĩa cho hai từ đó.
Sau đây chúng ta sẽ xem xét một số phương pháp xác định mối liên hệ giữ
nghĩa giữa hai từ (nói cách khác là mức độ tương tự ngữ nghĩa - sim) dựa trên
mạng từ WordNet (theo [Muf09, Nga10, Pta12]).
- Thứ nhất, phương pháp sử dụng độ dài đường nối giữa hai nút của cặp từ
cùng với trọng số của đường, tức là số lần đổi hướng trên đường nối:
)2,1(.)2,1()2,1( wwturnskwwlenCwwrel
−
−
=
trong đó, C và k là các hằng số và turns(w1,w2) là số lần đổi hướng đi trên
đường nối giữa hai từ w1 và w2.
- Thứ hai, phương pháp dựa trên độ dài đường nối hai từ và độ sâu của nút
cha chung thấp nhất giữa chúng:
))2,1(()2,1( cclsoICccsim
=
.
- Thứ năm, Jiang và Conrath, cũng sử dụng khái niệm hàm lượng thông tin
nhưng ở dạng xác suất có điều kiện, tức xác suất bắt gặp một nút con khi đã có
một cha:
))2,1((2)2()1(
1
)2,1(
cclsoICcICcIC
ccsim
−+
=
.
- Thứ sáu, Yuhua Li và cộng sự, mức độ mối liên hệ ngữ nghĩa giữa hai từ là
một hàm phi tuyến mà nó kết hợp giữa độ dài đường ngắn nhất giữa hai từ và độ
sâu của nút cha chung thấp nhất, được tính như sau:
))2,1((.))2,1((.
))2,1((.))2,1((.
)2,1(.
.)2,1(
wwlsodepthwwlsodepth
wwlsodepthwwlsodepth
wwlen
e
e
ee
j
trong câu đó. Từ w
j
được chọn là từ có độ tương tự lớn nhất với từ
w
i
đã xem xét. Độ tương tự này phải vượt ngưỡng quy định trước, nếu không nó
Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng
Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014)
18
sẽ được thiết lập giá trị 0. Tính toán giá trị của mỗi thành phần v
i
trong véc-tơ
đặc trưng V1={v
1i
: i=1…N} của câu S1 như sau,
)(*)(*),(
111 jijii
wIwIwwrelv =
.
Trong đó, từ w
i
∈ T là từ thứ i trong tập T, w
1j
∈S1 là từ thứ j trong câu S1,
I(w) là trọng số thông tin của từ w và được tính là,
)1log(
vv
VV
VV
VVSSsim
1
2
2
1
2
1
1
21
21
21
2121
.
||.||
.
),cos(),(
rr
r
r
rr
,
- Tính theo mức độ tương quan:
∑∑
∑
==
=
∑
∑
=
=
=
N
i
ii
N
i
ii
vv
vv
SSsim
1
21
1
21
21
),max(
),min(
),(
,
- Tính theo Die:
∑
∑
=
=
+
thuật. Một nghiên cứu [Abu12] cho thấy 70% sinh viên thú nhận đã có một vài
đạo văn, với khoảng một nửa trong đó mang hành vi phạm tội gian lận trên các
bài viết luận. Thêm vào đó, 40% sinh viên thú nhận sử dụng phương pháp "cắt
dán" để hoàn thành bài luận của mình. Phân biệt giữa các tài liệu ăn cắp ý tưởng
và tài liệu không ăn cắp ý tưởng một cách hiệu quả là một trong những vấn đề
chính trong lĩnh vực phát hiện đạo văn.
Có rất nhiều công cụ phần mềm hiện có để xác định việc đạo văn. Tuy nhiên,
nhìn chung trong thực tế những phương pháp đạo văn này là khó xác định. Một
số phương pháp bao gồm sao chép các đoạn văn bản, trích dẫn (đại diện cho
cùng một nội dung trong các từ khác nhau), sử dụng nội dung mà không trích
dẫn tham khảo, khéo léo trình bày (trình bày cùng một nội dung nhưng sử dụng
các hình thức khác nhau), sao chép mã chương trình (sử dụng mã lệnh chương
trình mà không được sự cho phép hay trích dẫn), thông tin sai lệch của tài liệu
tham khảo (thêm tham chiếu đến không chính xác hoặc không tồn tại nguồn).
Để giải quyết các loại đạo văn này cần một phiên bản nâng cao của việc kết
hợp các thuật toán là cần thiết để giảm sự không trung thực trong môi trường học
thuật.
Phương pháp xác định sự sao chép hay đạo văn trong các tài liệu, theo đề
cập trong [Abu12], hai tác giả Lancaster và Culwin đã xác định các giai đoạn
quan trọng được nhiều nhà nghiên cứu sử dụng để phát hiện đạo văn như thu
thập, phân tích, xác nhận và điều tra.
Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng
Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014)
20Hình 2.2: 4 giai đoạn của quá trình phát hiện đạo văn
- Giai đoạn 1 – thu thập: Đây là giai đoạn đầu tiên của quá trình phát hiện
đạo văn, và nó đòi hỏi các sinh viên hoặc tác giả nghiên cứu tải lên các kết quả
hoặc bài viết thông qua công cụ web, các công cụ web hoạt động như một giao
liệu gốc. Chuỗi ký tự giống nhau có thể được phát hiện một cách chính xác hoặc
một phần bằng cách sử dụng các tiếp cận so khớp ký tự. Có thể sử dụng thuật
toán n-gram (16-gram, 8-gram, hay 5-gram) hoặc kỹ thuật fingerprint để tìm các
chuỗi khớp nhau và phát hiện đạo văn dựa trên tỷ lệ các chuỗi khớp nhau tìm
thấy.
- Phương pháp dựa trên cấu trúc: nhiều tác giả nghiên cứu đề xuất các
phương pháp dựa vào các đặc điểm cấu trúc của văn bản như tiêu đề, các phần
nội dung, đoạn văn, và tài liệu tham khảo. Trong đó, biểu diễn các đặc trưng
theo cấu trúc cây là một mô hình ánh xạ tự tổ chức nhiều tầng (ML-SOM). Hai
tác giả Chow và Rahman đã xây dựng những ý tưởng dựa trên hai lớp, lớp trên
cùng và lớp dưới cùng. Lớp trên cùng biểu diễn việc phân cụm các tài liệu, trong
khi lớp dưới cùng sử dụng hệ số tương đồng Cosine để đánh giá văn bản giống
nhau.
- Các phương pháp dựa trên phân lớp và gom cụm: kỹ thuật gom cụm
(clustering) là một trong những kỹ thuật truy vấn thông tin được sử dụng trong
nhiều lĩnh vực như tóm tắt văn bản, phân loại văn bản hay phát hiện đạo văn. Nó
được sử dụng để cải thiện hiệu quả với việc giảm thời gian tìm kiếm trong tài
liệu để tóm tắt văn bản và làm giảm thời gian so sánh trong việc phát hiện đạo
văn. Nhóm của Si, hay Zini và cộng sự sử dụng từ khóa để tìm các cụm tương tự
giữa các tài liệu.
- Phương pháp dựa trên cú pháp: kỹ thuật này quan sát việc sử dụng các thẻ
part-of-speech (POS) mang tính cú pháp để biểu diễn cấu trúc của văn bản làm
cơ sở so sánh và phân tích. Kỹ thuật này xếp hạng thư tự các tài liệu dựa trên các
thẻ POS. Trong đó, tác giả Elhadi và Al-Tobi để xuất việc sử dụng dãy con
chung dài nhất (LCS) để tính toán sự tương đồng giữa các tài liệu và xếp hạng
chúng theo thứ tự các tài liệu theo mức độ liên quan.
Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng
Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014)
22
kho ngữ liệu đủ lớn và đa dạng mới đem lại hiệu quả cao, trong khi mạng từ
tiếng Anh đã và đang được phát triển rất tốt và đem lại hiệu quả cao trong các
phương pháp.
Đối với mạng từ tiếng Việt, hiện đang được các cá nhân và tổ chức nghiên
cứu xây dựng, trong đó một nhánh của Đề tài Khoa học công nghệ cấp Nhà nước
“Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho
xử lý văn bản tiếng Việt” [Tha14] đang tập trung phát triển. Tuy vậy, các
phương pháp đánh giá độ tương tự văn bản tiếng Việt chủ yếu dựa trên kho ngữ
liệu với việc kế thừa các kết quả nghiên cứu từ tiếng Anh. Trong [Tha14], các
tác giả đã tổng hợp các phương pháp đánh giá độ tương tự giữa từ với từ và trên
cơ sở đó đánh giá độ tương tự giữa câu với câu. Các ví dụ minh họa cho việc mở
rộng sang đo độ tương tự trong văn bản tiếng Việt cũng được xem xét khá chi
tiết.
Các phương pháp đánh giá độ tương tự văn bản trong tiếng Anh chủ yếu dựa
trên hai yếu tố chính.Thứ nhất, đánh giá độ tương tự ngữ nghĩa giữa các từ với
nhau, nhiều tác giả đề cập đến việc sử dụng mạng từ (wordnet)
[Zha08,She06,She12,Pta12,Zha10], một số khác dựa trên kho ngữ liệu Web
[Nan10] hoặc dựa trên phân tích ngữ nghĩa ẩn [Ink06]. Thông thường, các đánh
giá này được dùng để tạo ra các véc-tơ đặc trưng của các văn bản tương ứng, rồi
sau đó sử dụng các phép đo để xác định độ tương tự ngữ nghĩa giữa các văn bản.
Thứ hai, đánh giá độ tương tự theo trật tự hay cấu trúc thứ tự của các từ trong
văn bản (word-order) được đề cập trong [She06, Zha08, Che13]. Ngoài ra, trong
[Che13] đề xuất yếu tố đánh giá dựa trên tỷ số của tập các từ chung của hai văn
Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng
Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014)
24
bản đối với tổng số từ của cả hai văn bản đó (random walk probability), trong
[Zha08], các tác giả đề xuất yếu tố đánh giá dựa trên ma trận đo độ tương tự giữa
các cặp từ theo phân nhóm từ loại (part-of-speech). Các yếu tố này được kết hợp
T
i
= { w
1
, w
2
, …, w
n
i
}
Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng
Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014)
25
trong đó, n
i
là số từ vựng tách được của văn bản d
i
.
Như đã đề cập, để đánh giá độ tương tự của hai văn bản chúng ta sẽ khảo sát
và áp dụng cả 3 yếu tố gồm đánh giá dựa trên véc-tơ đặc trưng, đánh giá dựa trên
cấu trúc thứ tự các từ trong văn bản và đánh giá dựa trên phân nhóm từ loại
[Zha08]. Việc kết hợp các yếu tố này theo từng trọng số nhất định sẽ được khảo
sát nhằm đem lại hiệu quả của phép đánh giá. Sau đây là chi tiết các đánh giá
này.
2.2.1. Độ tương tự ngữ nghĩa của văn bản
Việc đánh giá độ tương tự ngữ nghĩa hai văn bản nhiều tác giả, chẳng hạn
trong [Zha08, She12], đề cập đến việc xây dựng véc-tơ đặc trưng ngữ nghĩa cho
các văn bản. Mỗi thành phần trong véc-tơ này của một văn bản được thiết lập từ
việc tính toán độ tương tự một từ trong văn bản đó với các từ trong hai văn còn
i
. Một tập các từ không giống nhau của cả hai văn bản trên được
thiết lập là,
T = T
1
∪ T
2
= { w
1
, w
2
, …, w
m
}
bao gồm m từ phân biệt. Rõ ràng m ≤ m
1
+ m
2
vì có thể có một số từ lặp lại trong
một văn bản hoặc giữa hai văn bản. Khác với văn bản tiếng Anh đề cập trong
[She12], văn bản tiếng Việt thì các âm tiết trong các từ thể hiện số nhiều giống
với số ít, nên các danh từ chỉ số ít hay số nhiều là không phân biệt mà chỉ thêm
các lượng từ.
Chẳng hạn, khi có hai văn bản T
1
= { con_chó, cắn, con_mèo } và T
2
= {
con_mèo, cắn, con_chuột } thì tập các từ phân biệt sẽ là T = { con_chó, cắn,
con_mèo, con_chuột}. Véc-tơ đặc trưng ngữ nghĩa cho văn bản T