Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa - Pdf 22

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Thị Oanh PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT
DỰA TRÊN TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ Thông tin Hà Nội – 2012

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Major: Information Technology

Supervisor: Assoc. Prof. Ha Quang Thuy
Co-Supervisor: Masters. Pham Quang Nhat Minh

HA NOI – 2012
i

LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc nhất tới PGS.TS. Hà Quang Thụy,
ThS Phạm Quang Nhật Minh đã tận tình chỉ bảo và hướng dẫn em thực hiện khóa luận
tốt nghiệp.
Em xin cảm ơn các thầy, cô trong trường Đại học Công nghệ đã giảng dạy và cho
em những kiến thức quý báu, làm nền tảng để em hoàn thành khóa luận, cũng như
trong công việc tương lai.
Em xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên trong phòng thí nghiệm
KTLab: TS. Phan Xuân Hiếu, CN Lê Đức Trọng, CN Trần Xuân Tứ, Nguyễn Thị
Thùy Linh, … đã hỗ trợ em rất nhiều trong suốt quá trình làm khóa luận.
Em cũng xin được gửi lời tri ân tới các bạn trong lớp K53CLC, K53CC đã luôn
bên cạnh và ủng hộ em trong suốt quá trình học tập tại trường.
Cuối cùng, em muốn gửi lời cảm ơn sâu sắc tới gia đình và bạn bè - những người
thân yêu luôn ở bên yêu thương che chở em để em vượt qua những khó khăn trong

nghĩa quan trọng. Khóa luận đề xuất giải pháp xác định và tinh chỉnh ngưỡng phán quyết kế
thừa trong tiếp cận phát hiện kế thừa văn bản dựa trên từ vựng và đề nghị một mô hình phát
hiện kế thừa văn bản có tích hợp giải pháp xác định và tinh chỉnh ngưỡng phán quyết nói trên.
Thực nghiệm mô hình đề xuất trên dữ liệu tiếng Việt chứng tỏ giải pháp đề xuất có
tính hiệu quả: độ đo F1 của phán quyết sau khi tinh chỉnh trung bình tăng 3% so với chưa tinh
chỉnh
Từ khóa: Kế thừa ngữ nghĩa, RTE, từ điển đồng nghĩa

iii

RECOGNIZING VIETNAMESE TEXTUAL ENTAILMENT BASED ON
LEXICAL AND SYNONYM DICTIONARY
Oanh Ha Thi
QH-2008-I/CQ course, information technology faculty.
Abtract:
Recognizing semantic relation is an important task in the field of natural language
processing and data mining. Recoginzing textual entailment (RTE) is the task which finds the
“semantic inference” relationship of the text (T) from the hypothesis (H). RTE has the science
– technology meaning and attracts the attension of many research groups. Many research
projects in RTE were published in magazines in the international scientific conference which
has the typical branch about RTE in annual Text Analysis Conference. TAC was held by the
America national Institue of Standardization and Technology.
The thesis focused on researching and clarifying the RTE task and some methods to
recognize textual entailment on the conferences. On the basic of studying and comparing
some appoaches, the thesis proposed a model to RTE based on lexical combined domain
knowledge.
This appoach (Valentin Jijkoun and Maarten de Rijke, 2006 [20], Ken-ichi Yokote et
al [22]) showed the significant meaning of the thresold value of recognizing textual
entailment. The thesis proposed a solution and model to identify and refine the thresold in
recognizing textual entailment based on lexical.

………………………………………………………………………………………………………………………………i
PHÁT HIỆN KẾ THỪA VĂN BẢN DỰA TRÊN
…………………………………………………………… ii
LỜI CAM ĐOAN
………………………………………………………………………………………………………………………iv
Danh sách các từ viết tắt
………………………………………………………………………………………………………….vii
Danh sách bảng biểu
……………………………………………………………………………………………………………… viii
MỞ ĐẦU
………………………………………………………………………………………………………………………………………1
Chương 1 : Giới thiệu chung
……………………………………………………………………………………………………1
1.1.

Động lực và mục tiêu nghiên cứu
2
1.2.

Khái niệm kế thừa văn bản
4
1.3.

Bài toán phát hiện kế thừa văn bản
5
1.4.

Mối quan hệ giữa dịch máy và kế thừa văn bản
6
1.5.

Kết luận
17
Chương 3: Mô hình phát hiện kế thừa văn bản tiếng Việt
……………………………………………….19
3.1.

Cơ sở lý thuyết
19
3.1.1.

Thuật toán độ tương đồng từ vựng
19
3.1.2.

Ngưỡng phán quyết kế thừa
20
3.1.3.

Trọng số của từ
20
3.2.

Độ đo độ tương đồng từ vựng (wordsim)
21
3.3.

Tri thức miền từ điển đồng nghĩa tiếng Việt
22
3.4.

29
4.2.

Dữ liệu thực nghiệm
30
4.3.

Thử nghiệm chương trình
31
4.4.

Đánh giá hệ thống
31
4.6.

Đánh giá
35
Kết luận và định hướng nghiên cứu tiếp theo
…………………………………………………………………….36
Tài liệu tham khảo
……………………………………………………………………………………………………………………37

vii Danh sách các từ viết tắt
Viết tắt Tiếng Anh Tiếng Việt
H Hypothesis Giả thuyết
IE Information Extraction Trích xuất thông tin
IR Information Retrieval Thu thập thông tin

Hình 1: Tam giác dịch máy……………………………………………………………6
Hình 2: Hình chữ nhật RTE……………………………………………………………7
Hình 3: Một số hướng tiếp cận giải quyết bài toán………………………………… 13
Hình 4: Mô hình giải quyết bài toán………………………………………………….26
Hình 5: Dữ liệu thực nghiệm…………………………………………………… … 30
Hình 6: Kết quả thí nghiệm với trường hợp chưa tinh chỉnh ngưỡng……………… 34
Hình 7: Kết quả thí nghiệm với trường hợp đã tinh chỉnh ngưỡng………………… 34
1

MỞ ĐẦU
Một hiện tượng cơ bản của ngôn ngữ tự nhiên đó là sự nhập nhằng trong cách
diễn đạt. Cùng một nội dung có thể được diễn đạt bởi nhiều văn bản khác nhau dựa
trên sự thay đổi ngữ nghĩa. Trên cơ sở đó, từ một diễn đạt này chúng ta có thể suy
luận ra một diễn đạt khác nếu chúng nói về cùng một nội dung trong cùng một ngữ
cảnh cụ thể. Kế thừa (suy luận) được ứng dụng rộng rãi trong nhiều khía cạnh của đời
sống. Kế thừa xảy ra thường xuyên trong giao tiếp hàng ngày liên quan tới việc hiểu
và sử dụng ngôn ngữ tự nhiên. Thông thường khi nói chuyện, chúng ta không hiểu
theo nghĩa đen với mỗi lời phát biểu của người khác hoặc không diễn đạt đúng suy
nghĩ của bản thân theo cách tường minh nhất. Trong giao tiếp, con người xử lý rất tốt
vấn đề này. Tuy nhiên, máy tính thường khó suy luận và hiểu được những cuộc đối
thoại của con người. Do đó, nếu con người muốn xây dựng một hệ thống đối thoại thì
phải xử lý với sự ngụ ý hoặc sự kế thừa này như là một thách thức chính cần giải
quyết.
Ý thức được lợi ích của các bài toán xử lý ngôn ngữ tự nhiên nói chung và bài
toán kế thừa văn bản nói riêng, em chọn hướng nghiên cứu nhằm giải quyết bài toán
phát hiện kế thừa văn bản cho tiếng Việt làm đề tài khóa luận của mình.
Cấu trúc của khóa luận được chia thành 4 chương:

luận ra một diễn đạt khác nếu chúng nói về cùng một nội dung trong cùng một ngữ
cảnh cụ thể. Kế thừa (suy luận) được ứng dụng rộng rãi trong nhiều khía cạnh của đời
sống. Giả sử một ai đó đang tìm hiểu về một vấn đề, họ sẽ tìm kiếm câu trả lời qua
sách báo, bạn bè hay trên Web. Trong hầu hết các trường hợp, thông tin nhận được có
thể không chính xác mặc dù nó là đúng theo quan điểm của người nào đó. Chính vì
vậy, hậu quả của việc nắm bắt thông tin sai lệch là rất lớn. Do đó, suy luận đóng một
vài trò quan trọng trong việc xác nhận hoặc phủ nhận thông tin tìm kiếm ban đầu.
Xét ví dụ: An muốn biết liệu sông Amazon có phải là con sông dài nhất thế giới
hay không. Một cách tự nhiên, bạn ấy có thể tìm độ dài chính xác của sông Amazon và
các sông khác mà bạn ấy biết, sau đó so sánh chúng. Tuy nhiên, bạn ấy biết được rằng
Ai Cập là đất nước có con sông dài nhất thế giới chảy qua, trong khi đó Ai Cập và
Amazon không thuộc cùng một châu lục. Tương tự như vậy, John không biết chắc
chắn ai là tổng thống hiện tại của Mỹ. Bush hay Obama, khi mà John nhận được câu
trả lời do tìm kiếm là cả Bush và Obama đều là tổng thống của Mỹ. Nếu anh ấy thực
hiện một suy luận dựa trên tài liệu nhận được chứa câu: “George Bush đã về hưu”, câu
trả lời đúng sẽ là Obama.
Tóm lại, việc tìm được một thông tin hoàn toàn chính xác đối với câu hỏi đặt ra
là không phải luôn thực hiện được, nhưng suy luận có thể giúp rất nhiều. Trong cả hai
trường hợp trên, thông tin nhận được kế thừa (suy luận) từ câu trả lời thay vì là câu trả
lời chính xác.
3

Kế thừa xảy ra thường xuyên trong giao tiếp hàng ngày liên quan tới việc hiểu
và sử dụng ngôn ngữ tự nhiên. Thông thường khi nói chuyện, chúng ta không hiểu
theo nghĩa đen với mỗi lời phát biểu của người khác hoặc không diễn đạt đúng suy
nghĩ của bản thân theo cách tường minh nhất.
Xét đoạn hội thoại ngắn sau:
• A: Cậu đã nhìn thấy điện thoại Ipad mới của mình chưa?
• B: Ồ, đẹp! Mình cũng muốn có một cái.
• A: Bạn phải có một cái.

quan hệ giữa các biểu diễn của văn bản, ý nghĩa rút ra được từ một biểu diễn có thể
suy luận được từ một biểu diễn khác của văn bản. Nói một cách chính xác hơn, kế thừa
văn bản có thể được hiểu là “một mối quan hệ giữa một văn bản nhất quán T với một
ngôn ngữ thể hiện của nó – giả thuyết H. Chúng ta nói T kế thừa H (H là một hệ quả
của T), ký hiệu là T=>H, nếu như ý nghĩa của H, đặt vào ngữ cảnh của T thì có thể
suy ra được từ ý nghĩa của T.”
Hiện nay có khá nhiều cách tiếp cận về khái niệm kế thừa văn bản. Một cách
chung nhất thì văn bản T được gọi là kế thừa từ giả thuyết H nếu như sự thật về H có
thể suy luận được từ T. Điều này có nghĩa là T bao hàm ý nghĩa của H khi đọc cả hai.
Hình thức hơn, ta có thể nói T kế thừa H khi một số biểu diễn của H có thể trùng khớp
(qua một số bước chuyển đổi bảo toàn ngữ nghĩa) với một số (hoặc một phần của) các
biểu diễn của T, ở một cấp độ chi tiết và trừu tượng nhất định.
Trong khóa luận này, em tiếp cận kế thừa văn bản theo cách định nghĩa của Iftene A
[11] trong hội nghị RTE4. Nội dung khái niệm được phát biểu như sau:
“T kế thừa H nếu như tính chất đúng của H có thể suy ra được từ T trong bối cảnh mà
T sinh ra.”
Dưới đây là một số ví dụ minh họa để hiểu rõ hơn về khái niệm kế thừa văn bản:
Văn bản Giả thuyết Kế
thừa
Blue Mountain Lumber là một chi
nhảnh của công ty lâm nghiệp đa quốc
gia Ernslaw One của Malaysia
Blue Mountain Lumber
sở hữu Ernlaw One.
No
Tập đoàn Boeing đặt tại Chicago đã
hủy bỏ ba đơn hàng vào năm 2006 mà
đã được đặt bởi Air Canada.
Trụ sở của tập đoàn
Boeing nằm ở Canada.

bản T và giả thuyết H. Việc phân loại mối quan hệ kế thừa giữa văn bản và giả thuyết
có thể theo 2 cách dựa trên số nhãn kế thừa mà hệ thống gán cho một cặp văn bản giả
thuyết.
Phân loại kế thừa 3 lớp bao gồm các nhãn :
• Kế thừa: Khi T kế thừa H.
• Mâu thuẫn: Khi T không kế thừa H.
• Không xác định: Khi không có đủ điều kiện để xác định xem T kế thừa H
hay không.
Phân loại kế thừa 2 lớp: Trong phân loại 2 lớp, mối quan hệ mâu thuẫn và
không xác định đều được phân vào lớp “Không kế thừa”. 2 lớp sử dụng là:
• Kế thừa: Khi T kế thừa H.
• Không kế thừa: Khi nội dung trong T mẫu thuẫn với nội dung trong H hoặc
không xác định được quan hệ giữa T và H.
Hiện nay, đa số các hệ thống phát hiện kế thừa sử dụng sự phân lớp nhị phân
(hai nhãn). Việc phán quyết kế thừa được gán nhãn là YES/NO (YES: trong trường
6

hợp kế thừa và NO nếu ngược lại). Trong khóa luận này, em tiến hành thực nghiệm
theo nhãn nhị phân như trên.
Dựa trên tiếp cận về quan hệ kế thừa trên, bài toán được phát biểu như sau:
Đầu vào: Tập các cặp câu văn bản T và giả thuyết H thuộc cùng một chủ đề.
Đầu ra: Gán nhãn kế thừa YES/NO với từng cặp.
1.4. Mối quan hệ giữa dịch máy và kế thừa văn bản
Kế thừa văn bản và dịch máy có mối quan hệ với nhau [18]. Cấu trúc của chúng
có nhiều nét tương tự nhau. Nếu chúng ta tạo ra một minh họa tương tự như hình tam
giác trong cộng đồng dịch máy (Machine Translation - MT) (Hình 1) thì có thể hình
dung RTE như là một hình chữ nhật (Hình 2). Tam giác MT cho biết: văn bản được
dịch từ ngôn ngữ ban đầu sang ngôn ngữ đích, trong quá trình dịch tồn tại nhiều đường
đi có thể. Hệ thống có thể dịch trực tiếp dựa trên chuỗi biểu diễn hoặc trước khi dịch
áp dụng một số phân tích ngôn ngữ để có được ý nghĩa của hai văn bản. Ngoài ra, độ

bản (TAC - Text Analysis Conference, từ năm 2008 tới nay
1
). Tính tới nay, RTE đã
trải qua 7 kỳ hội nghị với hàng trăm bài báo với rất nhiều các công trình nghiên cứu
được công bố. Hội nghị RTE 7 được tổ chức tại Gaithersburg, Maryland, USA vào
tháng 12 năm 2011.
Theo tổng hợp của Dagan và cộng sự, 2005 [9], RTE-1 được tổ chức vào năm
2005 đã đưa ra chuNn đầu tiên cho bài toán phát hiện kế thừa văn bản. Tập dữ liệu
RTE-1 bao gồm tập các đoạn văn bản thông thường, bao gồm văn bản (T) gồm một
hoặc hai câu và giả thuyết (H) gồm một câu. Các hệ thống tham gia được yêu cầu đưa
ra phán quyết cho mỗi cặp (T,H) về việc có kế thừa hay không. Các cặp đại diện cho
sự phán quyết thành công hay thất bại của suy luận thuộc rất nhiều kiểu ứng dụng khác
nhau như: QA, IE, IR và MT.Trong cuộc thi này, hầu hết các nhóm tham gia đều tập
trung vào sự trùng lặp từ vựng giữa T và H, các hệ thống được xây dựng dựa trên
hướng logic, các mô hình xác suất hoặc mô hình học máy có giám sát. Bộ dữ liệu này
được chia thành 2 tập con, tập phát triển (development set) bao gồm 567 cặp và tập
kiểm tra (test set) bao gồm 800 cặp. Trong đó, số lượng các cặp tích cực (có kế thừa)
cân bằng với các cặp tiêu cực (không kế thừa).
Các hội nghị sau từ RTE-2 đến RTE-5 vẫn tiếp tục phát triển từ cuộc thi trước đó
với mục đích chính là nâng cao độ dài của văn bản đánh giá (nâng lên mức độ đoạn và
càng về sau thì độ dài trung bình của văn bản càng cao lên). Trong RTE-2
2
được tổ
chức vào năm 2006 với vấn đề trọng tâm là: làm sao để cung cấp nhiều hơn các ví dụ
thực tế của cặp văn bản-giả thuyết, chủ yếu dựa vào đầu ra của các hệ thống thực tiễn.
Tập dữ liệu của RTE-2
3
chứa 1600 cặp văn bản-giả thuyết và cũng được chia thành hai
tập: tập phát triển và tập kiểm tra với số lượng mỗi tập là 800 cặp. Các hệ thống cho

những bộ dữ liệu văn bản – giả thuyết chuNn và được thực hiện bởi những người trong
ban tổ chức cuộc thi. Trong mỗi ứng dụng các cặp văn bản giả thuyết được chọn bao
gồm cả ví dụ kế thừa và không kế thừa. Thông thường, T chứa một (hai hoặc ba) câu,
H thường là một câu ngắn [18].
Tìm kiếm thông tin (Information Retrieval - IR): Các giả thuyết (H) được tạo ra
tương ứng với những câu truy vấn có nghĩa, biểu diễn một số quan hệ ngữ nghĩa cụ
thể. Những truy vấn này thường dài và cụ thể hơn so với một truy vấn từ khóa chuNn
và đại diện cho biến thể hướng ngữ nghĩa trong tìm kiếm thông tin. Các truy vấn được
lựa chọn bằng cách kiểm tra những câu nổi bật trong văn bản tin tức và sau đó được
tìm kiếm trên máy tìm kiếm web. Văn bản ứng viên (T) được lựa chọn từ những tài
liệu nhận được từ máy tìm kiếm. Trong đó, người ta chọn ra cả những trường hợp kế
thừa và không kế thừa để đảm bảo tính khách quan, bao trùm của dữ liệu. Vì vậy,
trong lĩnh vực IR, RTE chiếm một vị trí quan trọng trong việc tìm kiếm thông tin dựa
trên các nguồn dữ liệu có sẵn. Các hệ thống tìm kiếm thông tin nhận đầu vào là các từ
khóa và trả về tập dữ liệu chứa từ khóa đó. Kết quả trả về từ máy tìm kiếm thường rất
lớn. Người sử dụng muốn có được thông tin chính xác phải tự mình duyệt các câu trả
lời. Trong nhiều trường hợp, máy tìm kiếm trả về những kết quả không liên quan mấy
tới từ khóa hoặc bỏ qua những văn bản cần thiết. Một số tài liệu không chứa từ truy
vấn nhưng vẫn phù hợp. Ví dụ, một tài liệu về “orange” có thể phù hợp với những
truy vấn về “tropical fruit” , “tropical” hay “fruit” mặc dù những từ này không xuất
10

hiện trong tài liệu. RTE được sử dụng để xác định xem một tài liệu có phù hợp với câu
truy vấn hay không bất kể sự xuất hiện hay vắng mặt của từ truy vấn.
Tài liệu so sánh (Comparable Documents): Cặp T-H được xác định bằng cách kiểm
tra cụm những bài báo tin tức bao trùm một câu chuyện phổ biến. Sau đó con người
kiểm tra cặp câu “liên kết” có thành phần từ vựng trùng nhau một phần nhưng ngữ
nghĩa thì có hoặc không kế thừa. Một số cặp được lấy trên Web sử dụng Google news,
những cặp còn lại thu thập từ một nguồn có sẵn. Động lực của việc thu thập này là
việc thường sử dụng trùng lặp từ vựng là một gợi ý cho việc trùng lặp ngữ nghĩa trong

bản hoặc giả thuyết, khi đó một bản dịch đúng sẽ tương ứng với quan hệ kế thừa. Các
bản dịch đôi khi được chỉnh về mặt ngữ pháp để có thể chấp nhận được.
Thu thập diễn giải (Paraphrase Acquisition - PP): Hệ thống thu thập diễn giải cố
gắng tiếp cận cặp (hoặc bộ) biểu thức từ vựng, cú pháp để truyền đạt những nghĩa
tương đương hoặc kế thừa. Người chú thích chọn một văn bản T từ một vài câu
chuyện tin tức chứa một mối quan hệ nhất định, một quy tắc diễn giải và một hệ thống
thu thập diễn giải. Kết quả của việc áp dụng các quy tắc diễn giải trên T được chọn
như là H. Giả thuyết diễn giải đúng được gợi ý bởi hệ thống, được áp dụng trong một
ngữ cảnh thích hợp để tạo ra cặp văn bản – giả thuyết, ngược lại là một ví dụ sai. Ví
dụ, với câu “Cô gái đã được tìm thấy trong Drummondville”, và bằng cách áp dụng
quy tắc diễn giải “X được tìm thấy trong Y = Y chứa X”, chúng ta sẽ có câu giả thuyết
là “Drummondville chứa các cô gái” (có thể không kế thừa một cách chắc chắn).
1.7. Tóm tắt chương 1
Trong chương này, khóa luận đã giới thiệu khái quát về kế thừa văn bản, bài toán phát
hiện kế thừa văn bản thông qua việc tìm hiểu các kết quả tổng hợp và quá trình tiến
hóa qua các kỳ hội nghị RTE-1-7. Chương 2 của khóa luận trình bày một số hướng
tiếp cận đã và đang được sử dụng trong bài toán phát hiện kế thừa văn bản trong các
kỳ hội nghị.
12

Chương 2: Một số hướng tiếp cận giải quyết bài toán
Qua các kỳ hội nghị RTE, rất nhiều kỹ thuật và phương pháp được sử dụng để giải
quyết bài toán phát hiện quan hệ kế thừa. Với mục đích tìm hiểu các phương thức phát
hiện kế thừa văn bản, chương 2 sẽ trình bày các hướng tiếp cận giải quyết bài toán và
một số phương pháp đã được sử dụng trong các hệ thống phát hiện kế thừa văn bản và
cho kết quả tốt theo đánh giá của các hội nghị RTE.
2.1. Một số hướng tiếp cận giải quyết bài toán
RTE đã trải qua 7 kỳ hội nghị với rất nhiều các hệ thống phát hiện kế thừa văn bản
được công bố. Hướng giải quyết bài toán mà các tác giả đưa ra là rất phong phú và đa
dạng. Nhìn chung, hướng tiếp cận mà các tác giả sử dụng trong những năm gần đây

phương pháp nào là tối ưu hơn phương pháp nào. Cách tốt nhất để có thể giải quyết tốt
bài toán RTE là kết hợp nhiều phương pháp theo nhiều khía cạnh giải quyết vấn đề.
Trong khóa luận này, em xây dựng một hệ thống phát hiện quan hệ kế thừa sử dụng
hướng tiếp cận dựa trên thuật ngữ (từ vựng) và tri thức miền từ điển để tạo ra kết luận
về mối quan hệ kế thừa trong văn bản tiếng Việt. Sau đây khóa luận sẽ đi sâu vào phân
tích hai hướng tiếp cận: dựa trên từ vựng và tri thức.
2.2. Hướng tiếp cận dựa trên từ vựng
Bài toán phát hiện kế thừa văn bản (RTE) đã được đưa ra lần đầu tiên vào năm
2005. Trong các hướng tiếp cận giải quyết bài toán như trên thì hướng tiếp cận dựa
trên thuật ngữ (từ vựng) là hướng nghiên cứu phổ biến nhất. Nó có mặt trong hầu hết
các hệ thống xuyên suốt từ hội nghị RTE1 tới RTE7. Cơ sở của sự tương đồng về nội
dung, ngữ nghĩa là sự tương đồng trong cách diễn đạt, sử dụng từ ngữ mà điển hình là
sự trùng lặp từ vựng hoặc các từ đồng nghĩa, cấu trúc giống nhau. Chính vì vậy, một
hệ thống phát hiện quan hệ kế thừa với dữ liệu thuộc ngôn ngữ nào thì hướng tiếp cận
dựa trên từ vựng cũng là hướng tiếp cận được quan tâm xử lý đầu tiên. Động lực của
phương pháp này là việc thường sử dụng trùng lặp từ vựng là một gợi ý cho việc trùng
lặp ngữ nghĩa trong các cách diễn đạt, ví dụ trong tài liệu so sánh hay tóm tắt nhiều tài
liệu.
Số lượng các bài báo và công trình nghiên cứu về kế thừa văn bản dựa trên từ vựng
là rất lớn, các thuật toán mà các tác giả sử dụng là rất đa dạng. Tiêu biểu trong chuỗi
thuật toán từ vựng đó là các thuật toán liên quan tới việc chỉnh sửa xâu [11] [8] [14].

Trích đoạn Trọng số của từ Phát biểu bài toán Tóm tắt chương 3 Môi trường thực nghiệm

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa - Pdf 22

Tài liệu, ebook tham khảo khác

Học thêm