LUẬN VĂN: NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT ỨNG DỤNG CHO TÓM TẮT VĂN BẢN doc - Pdf 15

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LÊ QUÝ TÀI

NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT
ỨNG DỤNG CHO TÓM TẮT VĂN BẢN
LUẬN VĂN THẠC SĨ Hà Nội - 2011
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Hà Nội - 2011
i

LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm nghiên cứu, tìm
hiểu của riêng cá nhân tôi. Trong toàn bộ nội dung của luận văn, những điều được
trình bày hoặc là của cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất
cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp.
Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho
lời cam đoan của mình.

Hà Nội, tháng 6 năm 2011
TÁC GIẢ LUẬN VĂN Lê Quý Tài

ii

LỜI CẢM ƠN
Trước hết tôi xin xin gửi lời cảm ơn đặc biệt tới TS. Phạm Bảo Sơn, người đã
định hướng đề tài và tận tình hướng dẫn chỉ bảo tôi trong suốt quá trình thực hiện
luận văn cao học này.
Tôi xin chân thành cảm ơn các thầy cô trường Đại học Công nghệ, Đại học
Quốc Gia Hà Nội đã tận tình giảng dạy và truyền đạt những kiến thức, những kinh
nghiệm quý báu trong suốt khóa học cao học.
Cuối cùng, tôi xin dành một tình cảm biết ơn tới gia đình và những người thân
đã luôn ở bên cạnh, động viên, chia sẻ cùng tôi trong suốt thời gian học cao học
cũng như quá trình thực hiện luận văn cao học.
iii

iv

Chương 3. ỨNG DỤNG PHƯƠNG PHÁP CẤU TRÚC ĐỂ TÓM TẮT VĂN BẢN
TIẾNG VIỆT 20
3.1 Mô hình tóm tắt sử dụng phương pháp cấu trúc 20
3.2 Tiền xử lý văn bản 21
3.3 Xử lý từ 22
3.4 Xây dựng đồ thị liên kết 24
3.5 Sinh văn bản tóm tắt 28
Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 33
4.1 Môi trường thử nghiệm 33
4.2 Dữ liệu thử nghiệm 33
4.3 Phương pháp đánh giá 33
4.4 Kết quả thực nghiệm 36
4.4.1 Thử nghiệm xác định ngưỡng 36
4.4.2 Kết quả thử nghiệm đối với từng phiên bản 37
KẾT LUẬN 42
TÀI LIỆU THAM KHẢO 44
PHỤ LỤC 46
v

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
STT Ký hiệu, viết tắt Tên đầy đủ
1 IDF
Inverse document frequency
Tần số tài liệu ngược
2 IR
Information Retrieval
Tìm kiếm thông tin
3 TF

Ngày nay, với sự phát triển như vũ bão của công nghệ thông tin, Internet cũng
như các dịch vụ trực tuyến, ngày càng có nhiều thông tin được tạo ra. Ta có thể truy
cập các thông tin đó qua sách, báo, Internet và các phương tiện truyền thông. Hơn
nữa, nhu cầu đọc, tìm kiếm và lưu trữ thông tin của con người cũng ngày càng tăng
lên. Tuy nhiên, với một lượng lớn thông tin như vậy thì người ta không thể nào có
đủ thời gian và sức lực để đọc hết được chúng. Giải pháp là tóm tắt lại các văn bản
đó, từ đó giúp tiết kiệm thời gian và công sức nhưng vẫn có thể đọc và xử lý được
nhiều văn bản.
Tóm tắt văn bản tự động đã bắt đầu được nghiên cứu từ những năm 50 của thế
kỉ trước. Đã có nhiều công trình nghiên cứu về lĩnh vực này và có được những kết
quả đáng kể. Tóm tắt văn bản đã được sử dụng trong các phần mềm xử lý văn bản
(Microsoft Office Word…), trong khai phá cơ sở dữ liệu văn bản (Oracle…), trong
các ứng dụng tìm kiếm thông tin trực tuyến (hệ thống tìm kiếm Google, Yahoo…)
và đều thu được những kết quả rất đáng khích lệ.
Tuy nhiên, đối với Tiếng Việt, do sự phức tạp của ngôn ngữ nên hiện chưa có
nhiều công trình nghiên cứu về tóm tắt văn bản và kết quả của các công trình nghiên
cứu về tóm tắt văn bản tiếng Việt còn hạn chế so với các ngôn ngữ khác mà đặc biệt
là so với tiếng Anh.
Vì vậy, chúng tôi chọn đề tài: “Nghiên cứu các phương pháp xử lý tiếng Việt
ứng dụng cho tóm tắt văn bản” nhằm nghiên cứu những vấn đề tổng quan về xử lý
ngôn ngữ tự nhiên và một số phương pháp tóm tắt văn bản tiên tiến đã được ứng
dụng và thu được kết quả khả quan đối với tiếng Anh; đồng thời nghiên cứu những
đặc điểm của tiếng Việt nhằm cải tiến và ứng dụng những phương pháp đó để có thể
xây dựng ứng dụng tóm tắt văn bản tiếng Việt.
Nội dung của luận văn được chia làm 4 chương:
Chương 1. Tổng quan về tóm tắt văn bản
Chương này trình bày những vấn đề tổng quan về bài toán tóm tắt văn bản,
một số hướng tiếp cận hiện đại và các phương pháp đánh giá kết quả của văn bản
tóm tắt.
Chương 2. Bài toán tóm tắt văn bản tiếng Việt

bản dưới dạng giản lược một cách tự động nhằm đáp ứng yêu cầu nào đó từ phía
người dùng.
Đỗ Phúc, Hoàng Kiếm (2006) [5] định nghĩa tóm tắt văn bản tự động là việc
tìm các ý chính của văn bản.
Tựu chung lại, có ba đặc điểm quan trọng cần phải xem xét trong hệ thống
tóm tắt văn bản:
1) Bản tóm tắt có thể được tạo ra từ một hoặc nhiều văn bản.
2) Bản tóm tắt cần truyền tải các thông tin quan trọng.
3) Bản tóm tắt cần phải ngắn.
1.1.2 Lịch sử phát triển của tóm tắt văn bản
Tóm tắt văn bản bắt đầu từ những năm cuối thập kỉ 1950 với nghiên cứu của
Luhn (1958) [17] dựa trên tần số từ. Ý tưởng cơ bản của phương pháp tần số từ dựa
trên kiến thức cho rằng tần số của từng từ trong văn bản là một độ đo hữu dụng để
đánh giá tầm quan trọng của chúng.
Tiếp theo đó là phương pháp tóm tắt dựa trên vị trí của các câu trong văn bản
của Baxendale (1958), và những nghiên cứu của Edmundson (1969) [14] về vị trí
của các câu trong văn bản và các từ/cụm từ mang ý nghĩa tổng quát (từ/cụm từ dấu
hiệu). Theo đó, những câu bắt đầu và kết thúc của đoạn văn/bài viết hay những câu
4

chứa những từ như “important” (đặc biệt), “result are” (kết quả là), “paper
introduce” (bài báo giới thiệu về)… là những câu có ý nghĩa quan trọng.
Đầu những năm 1970, tiếp tục có những nghiên cứu với hướng tiếp cận ngoài
(sử dụng các cụm từ dấu hiệu) và được ứng dụng trong các phần mềm thương mại
(Pollock và Zamora).
Những năm 1980, phát triển nhiều nghiên cứu với nhiều hướng khác nhau, đặc
biệt là hướng tiếp cận mức thực thể dựa trên trí tuệ nhân tạo như sử dụng script
(Lehnert 1981), (DeJong 1982), các luật sản xuất và logic (Fum 1985), mạng ngữ
nghĩa (Reimer và Hahn 1988), cũng như các hướng tiếp cận kết hợp (Rau 1989) hay
(Aretoulaki 1994).

trong văn bản nguồn mà là được “viết lại” một cách tự động. Với dạng này, người ta
cần nhiều kĩ thuật xử lý ngôn ngữ. Hiện tại, đây vẫn là vấn đề khó, chưa thể giải
quyết được một cách triệt để.
Căn cứ vào mức độ xử lý, có thể chia thành 2 dạng:
- Tiếp cận mức ngoài (surface-level): thông tin được miêu tả dưới dạng khái
niệm về các đặc trưng nông (shallow feature). Các đặc trưng nông bao gồm các
thuật ngữ (term) quan trọng qua thống kê (dựa vào tần số của các thuật ngữ trong
văn bản), các thuật ngữ quan trọng dựa vào vị trí, các thuật ngữ trong các cụm từ
dấu hiệu hay các thuật ngữ trong câu truy vấn của người dùng. Kết quả là một bản
tóm tắt dạng trích xuất (extract).
- Tiếp cận mức sâu (deeper-level): ở mức này, bản tóm tắt có thể là dạng trích
xuất hoặc dạng tóm tắt (abstract) và cần phải sử dụng đến sinh tổng hợp ngôn ngữ
tự nhiên. Với dạng tiếp cận này, phải cần đến những phân tích về mặt ngữ nghĩa,
chẳng hạn sử dụng hướng tiếp cận thực thể để xây dựng dạng biểu diễn của các thực
thể văn bản (đơn vị văn bản) và mối quan hệ giữa các thực thể rồi từ đó tìm ra phần
quan trọng. Mối quan hệ giữa các thực thể gồm quan hệ ngữ nghĩa như: đồng nghĩa,
trái nghĩa, nghĩa hẹp, nghĩa rộng…, quan hệ cú pháp: dựa trên cây phân tích cú
pháp và các mối quan hệ khác.
Căn cứ vào mục đích của bản tóm tắt, có thể chia làm 3 dạng:
- Trình bày sơ lược (indicative): Đưa ra những thông tin ngắn gọn về chủ đề
chính của văn bản. Dạng tóm tắt này thường được sử dụng trong các hệ thống tìm
kiếm thông tin. Thông thường, độ dài của văn bản tóm tắt loại này chỉ từ 5 đến 10%
độ dài của toàn bộ văn bản.
- Tóm tắt cung cấp tin tức (Informative): Cung cấp các chủ đề con của toàn bộ
văn bản, kiểu tóm tắt này có độ dài từ 20-30% văn bản gốc.
- Phê bình và đánh giá: Văn bản tóm tắt đưa ra những quan điểm của người
tóm tắt về chủ đề được đưa ra. Tuy nhiên, kiểu tóm tắt này dường như vượt quá tầm
của các hệ thống tóm tắt tự động hiện nay.
Việc phân loại tóm tắt dựa theo mục đích như trên không loại trừ lẫn nhau, có
thể một bản tóm tắt vừa có chức năng cung cấp tin tức lại vừa là kiểu trình bày sơ

Điều quan trọng trong việc tóm tắt văn bản là mức độ nén, tức là tỉ lệ giữa độ dài
của văn bản tóm tắt so với văn bản gốc (đôi khi cũng được tính bằng phần bù của tỉ
số này). Thông thường, tỉ lệ nén được tính dựa trên độ dài của văn bản, hoặc có thể
tính bằng nội dung thông tin. Tỉ lệ nén dao động từ 1% đến 30%, nếu tỉ lệ nén giảm
thì thông tin sẽ bị mất nhiều hơn. Văn bản tóm tắt có thể là văn bản liền mạch hoặc
văn bản rời rạc. Quá trình tóm tắt có thể chia thành 3 pha: phân tích văn bản đầu
vào, biến đổi, tổng hợp chỉnh sửa cho phù hợp với yêu cầu đầu ra.
Phân tích
Tài liệu
Biến đổi
Tổng hợp kết quả
Văn bản
tóm t
ắ
t

7

1.2.1 Các phương pháp áp dụng trong pha phân tích
Trong pha này, văn bản nguồn được phân tích để xác định các đơn vị ngữ liệu
và các đặc trưng của chúng, kết quả của pha này là đầu vào cho pha biến đổi. Các
phương pháp áp dụng trong pha này bao gồm:
a)Phương pháp thống kê
Các phương pháp thuộc loại này sử dụng các số liệu thống kê về độ quan trọng
của các từ, cụm từ, câu hoặc đoạn văn. Các phương pháp thống kê gồm:
- Dựa vào vị trí:
+ Chủ đề, tiêu đề: tiêu đề hay chủ đề của các đoạn văn thường chứa các từ và
ngữ quan trọng.
+ Câu ở đầu hoặc cuối đoạn: xác suất câu đầu đoạn hay câu cuối đoạn chứa ý
chính của cả đoạn là rất lớn, đặc biệt là câu đầu đoạn. Ngoài ra các đoạn đầu và cuối

các từ vựng này, ta đánh giá độ mạnh của chúng và chọn ra những câu phù hợp.
Morris và Hirst (1991) là những người đưa ra mô hình tính chuỗi từ vựng đầu tiên.
Chuỗi từ vựng không những chỉ dùng trong tóm tắt văn bản mà còn được coi là lý
thuyết tổng quát của vấn đề ngữ nghĩa trong xử lý ngôn ngữ tự nhiên
+ Phương pháp liên kết tham chiếu (word coreferences)
Phương pháp này gọi là phương pháp trích chọn trùng lặp (anaphora-based
method). Theo phương pháp này, các cụm trùng lặp được chọn ra, phân rã xem đâu
là từ (cụm từ) tham chiếu và từ (cụm từ) được tham chiếu. Sau khi phân tách các
cụm trùng lặp, chúng ta tạo chuỗi các từ (cụm từ) tham chiếu đến cùng một từ được
tham chiếu. Chuỗi dài nhất sẽ được coi là trọng tâm của đoạn, các câu chứa các từ
trong chuỗi này có một độ ưu tiên nào đó thì sẽ được chọn.
Kết thúc pha phân tích sẽ là việc tổng hợp các chỉ số đánh giá độ quan trọng
của các đơn vị ngữ liệu và thực hiện việc chọn các đơn vị ngữ liệu nào có độ quan
trọng lớn làm đầu vào cho pha sau. Có thể nhận thấy các phương pháp thống kê dễ
cài đặt hơn các phương pháp cấu trúc. Việc cài đặt các phương pháp thống kê đơn
thuần chỉ là các công thức toán học, còn để cài đặt các phương pháp cấu trúc thì lại
cần thực hiện rất nhiều kĩ thuật về cấu trúc dữ liệu và thậm chí là các kĩ thuật trong
lĩnh vực trí tuệ nhân tạo.
1.2.2 Các phương pháp áp dụng trong pha biến đổi
Pha biến đổi có nhiệm vụ biến đổi đơn vị ngữ liệu được trích xuất trong pha
phân tích như cụm từ, câu, đoạn văn. Thông thường pha biến đổi thực hiện rút gọn
bản thân bên trong một câu, rồi có thể rút gọn đoạn mà không gây ảnh hưởng đến
độ chính xác. Các phương pháp trong pha biến đổi gồm: [7].
a) Giản lược về cấu trúc câu
Lược bỏ các thành phần thừa, ít mang ý nghĩa trong câu, giúp cấu trúc câu
được thu gọn lại. Công việc này thường dựa trên phân tích cú pháp và phân tích ngữ
nghĩa các thành phần trong câu. Áp dụng phân tích cú pháp chúng ta được các cấu
trúc của câu, qua đó ta có thể thay thế thành phần bằng những thành phần tương
đương, ghép thành phần có nghĩa tương đương theo một luật nào đó. Phương pháp
này có thể làm câu ngắn gọn hơn, tuy nhiên khó bảo toàn được văn phong.

độ phức tạp và chi phí đánh giá sẽ tăng cao [18]. Có nhiều kiểu đánh giá khác nhau
tuỳ thuộc vào kiểu tóm tắt của hệ thống. Có thể là đánh giá trong (intrinsic) – tập
trung vào chất lượng bản tóm tắt và đánh giá ngoài (extrinsic) – tập trung vào nhiệm
vụ (McKeown 1998).
Các tiêu chí đánh giá:
- Độ mạch lạc (Coherence): đánh giá mức độ rõ ràng của văn bản tóm tắt, tính
súc tích, khả năng có thể đọc và hiểu được của bài viết…
10

- Độ hàm chứa thông tin (Informationess): tỉ lệ thông tin của văn bản gốc
trong văn bản tóm tắt.
- Độ liên quan (Relevance): xác định mức độ phù hợp của văn bản tóm tắt với
chủ đề cho trước (chủ đề có thể là một câu truy vấn).
- Độ dễ đọc hiểu (Reading Comprehence): một người được giao việc đọc văn
bản kết quả, sau đó trả lời các câu hỏi, hệ thống sẽ phải cho điểm và từ đó đưa ra
phần trăm những câu trả lời đúng.
1.3.1 Các phương pháp đánh giá trong
a) So sánh với văn bản tóm tắt khác
Ý tưởng cơ bản của phương pháp này là đem văn bản do hệ thống tóm tắt so
sánh với các bản tóm tắt khác (có thể do hệ thống tóm tắt khác thực hiện hoặc do
con người thực hiện). Thông thường là đem so sánh với văn bản tóm tắt do con
người thực hiện. Việc so sánh giữa các bản tóm tắt này có thể do con người thực
hiện hoặc có thể thực hiện tự động. Khi so sánh, có thể sử dụng một số độ đo sau
[18]:
- Độ chính xác (Precision) và độ bao phủ (Recall). Tuy nhiên, 2 độ đo này
chưa đủ để phân biệt các bản tóm tắt, các bản tóm tắt khác nội dung nhưng vẫn có
cùng độ đo.
- Độ đo hạng câu (Sentence Rank): thay thế cho độ bao phủ, khi đó, một bản
tóm tắt được đặc trưng bởi hạng của các câu trong các bản tóm tắt thích hợp. Hạng
của các câu trong bản tóm tắt do hệ thống thực hiện và trong các bản tóm tắt dùng

đề đó.
- Đánh giá mức độ đọc hiểu: trước tiên, một người được đọc các văn bản tóm
tắt từ một hoặc nhiều văn bản, sau đó trả lời các câu hỏi kiểm tra. Hệ thống tự động
tính điểm các câu trả lời và đánh giá tỉ lệ trả lời đúng. Nếu bản tóm tắt cho phép trả
lời các câu hỏi giống như khi đọc toàn bộ văn bản nguồn thì bản tóm tắt đó có khả
năng cung cấp thông tin cao.
Hovey và Marcu (1998) thực hiện đo mức độ cung cấp thông tin dựa trên việc
người ta có thể khôi phục lại các thông tin quan trọng trong văn bản khi đọc bản
tóm tắt của văn bản đó. Bằng thực nghiệm, tác giả tiến hành dựng lại văn bản gốc
dựa trên việc đọc văn bản tóm tắt kết hợp phỏng đoán.
12

Chương 2
BÀI TOÁN TÓM TẮT VĂN BẢN TIẾNG VIỆT
Chương này trình bày về một số hướng tiếp cận bài toán tóm tắt văn bản tiếng
Việt. Đồng thời cũng đưa ra những đặc trưng quan trọng cần chú ý của tiếng Việt
dưới góc độ của lĩnh vực xử lý ngôn ngữ tự nhiên, từ đó lựa chọn phương pháp cho
bài toán tóm tắt văn bản tiếng Việt.
2.1 Một số hướng tiếp cận bài toán tóm tắt văn bản
Tại Việt Nam hiện nay, lĩnh vực xử lý ngôn ngữ tự nhiên đã có được thành
tích trong các bài toán phân tách từ, phân lớp và phân nhóm văn bản. Tuy nhiên bài
toán tóm tắt văn bản chưa có nhiều nghiên cứu và đa phần các công trình nghiên
cứu đều sử dụng hoặc cải tiến các phương pháp dựa trên thống kê, cũng có một số
nghiên cứu có dựa trên ngữ nghĩa để nâng cao độ chính xác.
Có thể kể đến một số công trình nghiên cứu như:
Đỗ Phúc, Hoàng Kiếm (2006) [5] đã sử dụng cây hậu tố để phát hiện các dãy
từ phổ biến trong các câu của văn bản, dùng từ điển đồng nghĩa và WordNet tiếng
Việt để giải quyết vấn đề nghĩa của từ, rồi dùng kĩ thuật gom cụm để gom các câu
trong văn bản (vector đặc trưng cho câu) và hình thành các vector đặc trưng cụm,
sau đó rút ra câu chứa nhiều thành phần của các vector đặc trưng cụm.

pháp tiếng Việt [1] thì xét ở phương diện ngữ pháp có thể định nghĩa từ là đơn vị
nhỏ nhất mà có nghĩa và có thể hoạt động tự do (trong câu), từ là đơn vị trung tâm
của ngữ pháp Việt Nam, chi phối toàn bộ cú pháp tiếng Việt, đảm nhận và san sẻ
các chức năng năng cú pháp trong câu và góp phần đưa câu vào các cấu tạo ngôn
ngữ lớn hơn câu. Từ đây trở đi, khái niệm từ được dùng với nghĩa trên khi nói về
tiếng Việt, còn đối với các ngôn ngữ châu Âu (ví dụ tiếng Anh), từ (word) vẫn được
hiểu theo nghĩa là “cụm kí tự được ngăn cách bởi một hoặc nhiều dấu cách”.
Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp “tự do” với nhau theo
những quan hệ ngữ pháp hiển hiện nhất định và không chứa kết từ ở đầu. Cụm từ
hoạt động trong câu mới mọi chức vụ ngữ pháp nhất định.
Câu là sự tổng hợp của các từ biểu thị một tư tưởng trọn vẹn.
Ví dụ:
Từ ‘học’ là một từ gồm một tiếng
Từ ‘đại học’ là một từ gồm hai tiếng
Cụm từ ‘khoa học máy tính’ gồm 2 từ hay 4 tiếng
Trong các hệ thống xử lý ngôn ngữ trên các tiếng châu Âu, để xác định các từ
đặc trưng cho văn bản người ta có thể đơn giản lấy khoảng trắng làm ranh giới phân
tách từ. Đối với tiếng Việt thì ta lại không thể làm tương tự bởi nếu ta chỉ dựa vào
khoảng trắng để phân tách thì kết quả ta chỉ có được các “tiếng” vô nghĩa và do đó
độ chính xác của hệ thống có thể sẽ rất thấp. Theo Ngữ pháp tiếng Việt - Nguyễn
Hữu Quỳnh (2001) thì tiếng Việt có đến 80% là các từ 2 tiếng.
Từ tiếng Việt không có hiện tượng biến hình (ngôn ngữ đơn lập) bằng những
phụ tố mang ý nghĩa ngữ pháp bên trong từ như các ngôn ngữ Ấn – Âu. Dĩ nhiên,
14

tiếng Việt cũng có một số hình thức biến hình như trường hợp thêm tiếng “sự
trước một động từ để biến nó thành danh từ tương đương, ví dụ như động từ “lựa
chọn” và danh từ “sự lựa chọn” hay thêm tiếng “hoá” sau một danh từ để biến nó
thành động từ tương đương như danh từ “tin học” và động từ “tin học hoá”. Phụ tố
cấu tạo từ tồn tại hiển nhiên hơn ở cơ chế láy với những quy tắc ngữ âm khái quát

15

thể có tới dăm bảy nghĩa. Thông thường, các từ chỉ đồng nghĩa ở một nghĩa nào đó.
Chính vì thế nên một từ đa nghĩa có thể tham gia vào nhiều nhóm đồng nghĩa khác
nhau: Ở nhóm này nó tham gia với nghĩa này, ở nhóm khác nó tham gia với nghĩa
khác.
Ví dụ: Từ “coi” trong tiếng Việt là một từ đa nghĩa. Tuỳ theo từng nghĩa được
nêu lên để tập hợp các từ, mà “coi” có thể tham gia vào các nhóm như:
+ coi – xem: coi hát – xem hát
+ coi – giữ: coi nhà – giữ nhà
Trong mỗi nhóm từ đồng nghĩa thường có một từ mang nghĩa chung, được
dùng phổ biến và trung hoà về mặt phong cách, được lấy làm cơ sở để tập hợp và so
sánh, phân tích các từ khác. Từ đó gọi là từ trung tâm của nhóm.
Ví dụ: Trong nhóm từ “yếu, yếu đuối, yếu ớt”, từ “yếu” được gọi là từ trung
tâm.
Tuy nhiên, việc xác định từ trung tâm của nhóm không phải lúc nào cũng dễ
và đối với nhóm nào cũng làm được. Nhiều khi ta không thể xác định một cách dứt
khoát được theo những tiêu chí vừa nêu trên, mà phải dựa vào những tiêu chí phụ
như: tần số xuất hiện cao (hay được sử dụng) hoặc khả năng kết hợp rộng.
Chẳng hạn, trong các nhóm từ đồng nghĩa tiếng Việt như: hồi, thuở,
thời; hoặc chờ, đợi; hoặc chỗ, nơi, chốn, rất khó xác định từ nào là trung tâm.
Với bài toán tóm tắt văn bản thì từ đồng nghĩa cũng có một ý nghĩa khá quan
trọng bởi trong các câu, đoạn văn trong văn bản có các từ đồng nghĩa hoặc gần
nghĩa nhau và việc sử dụng từ đồng nghĩa sẽ làm nâng cao tính chính xác khi so
sánh về độ tương đồng ngữ nghĩa giữa các đơn vị văn bản.
2.2.4 Đặc điểm chính tả
Đặc điểm chính tả tiếng Việt có ý nghĩa quan trọng tiền xử lý dữ liệu văn bản.
Một số đặc điểm chính tả tiếng Việt cần quan tâm như [7]:
− Các tiếng đồng âm: như kĩ/kỹ, lí, lý… thường bị sử dụng lẫn nhau như: lý
luận, lí luận, kĩ thuật, kỹ thuật…

+ Mã dựng sẵn hai bảng fonts: TCVN 5712-VN3 (ABC), VietSea, VNU…: sử
dụng 2 bảng mã cho một kiểu chữ nên gây dư thừa và không hiện thực việc phân
biệt chữ hoa chữ thường trong các chương trình xử lý số liệu.
- Mã tổ hợp
Các bảng mã VietWare-X, Vni for Windows, TCVN 5712-VN2, BachKhoa II,
VS2, 3C25… và các trang mã 1258 (Microsoft), 1129 (IBM), ISO 10646 sử dụng
phương pháp mã tổ hợp.
Tuy nhiên, hiện nay việc sử dụng tiếng Việt trên máy tính vẫn chưa có sự
thống nhất cao về chuẩn mã tiếng Việt, gây khó khăn lớn cho việc thu thập, khai
thác và xử lý tiếng Việt. Đòi hỏi các hệ thống xử lý văn bản tiếng Việt cần phải có
bước tiền xử lý để nhận dạng và quy chuẩn các kí tự về một bảng mã chung.
Tóm tại, tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính, do đó, việc
phân loại từ (danh từ, động từ, tính từ…) và ý nghĩa từ là vấn đề khó, cần có nhiều

Trích đoạn Phương pháp đánh giá Kết quả thử nghiệm đối với từng phiên bản

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

LUẬN VĂN: NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT ỨNG DỤNG CHO TÓM TẮT VĂN BẢN doc - Pdf 15

Tài liệu, ebook tham khảo khác

Học thêm