Số hóa bởi trung tâm học liệu
1
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
NGUYỄN CẢNH TOÀN NGHIÊN CỨU VÀ PHÁT TRIỂN
PHƢƠNG PHÁP RÚT GỌN CÂU TIẾNG VIỆT DỰA TRÊN
PHƢƠNG PHÁP HỌC KHÔNG GIÁM SÁT
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Ngƣời hƣớng dẫn khoa học: TS. Nguyễn Thị Thu Hà
nhưng chắc rằng luận văn khó tránh khỏi những thiếu sót. Rất mong được sự
chỉ bảo, góp ý tận tình của Quý thầy cô và các bạn.
Số hóa bởi trung tâm học liệu
ii
MỤC LỤC LỜI CẢM ƠN i
MỤC LỤC ii
DANH MỤC TỪ VIẾT TẮT iv
DANH MỤC HÌNH VẼ v
DANH MỤC BẢNG BIỂU vi
MỞ ĐẦU 1
Chƣơng 1: TỔNG QUAN VỀ TÓM TẮT VĂN BẢN DỰA TRÊN CÁCH
TIẾP CẬN RÚT GỌN CÂU 3
1.1. Tổng quan bài toán tóm tắt văn bản 3
1.1.1. Tổng quan 3
1.1.2. Một số phương pháp tóm tắt văn bản 7
1.2. Tóm tắt văn bản dựa trên cách tiếp cận rút gọn câu 13
1.2.1. Khái niệm rút gọn câu 13
1.2.2. Một số phương pháp rút gọn câu 15
1.3. Đánh giá tóm tắt 16
1.3.1. Đánh giá theo cách thủ công 16
1.3.2. Phương pháp đánh giá BLEU 16
1.3.3. Phương pháp đánh giá ROUGE 17
1.4. Kết luận chương 1 17
Chƣơng 2: PHƢƠNG PHÁP RÚT GỌN CÂU TIẾNG VIỆT DỰA TRÊN
KỸ THUẬT HỌC KHÔNG GIÁM SÁT 18
2.1. Máy học và mô hình n-grams 18
Số hóa bởi trung tâm học liệu
iv
DANH MỤC TỪ VIẾT TẮT
NLP
Natural Language Processing
Xử lý ngôn ngữ tự nhiên
Số hóa bởi trung tâm học liệu
v
DANH MỤC HÌNH VẼ
Hình 1.1. Hệ thống tóm tắt trực tuyến Text compactor 4
Hình 1.2. Hệ thống tóm tắt ngoại tuyến 4
Hình 1.3. Cây cấu trúc tu từ 11
Hình 2.1. Mô hình không gian vector 26
Hình 2.2. Biểu diễn văn bản theo mô hình véc tơ 26
Hình 2.3. Biểu diễn văn bản theo mô hình Boolean 27
Hình 2.4. Ma trận biểu diễn văn bản 30
Hình 2.5. Ma trận ví dụ 31
Hình 2.6. Mô hình giảm chiều véc tơ 31
Hình 2.7. Quan hệ giữa văn bản và thuật ngữ 32
Hình 2.8. Một mô hình rút gọn đặc trưng văn bản 33
Hình 2.9. Mô hình đồ thị lưới 35
Hình 3.1. Sơ đồ chức năng hệ thống rút gọn câu tiếng Việt 37
Hình 3.2. Biểu đồ Use case tổng quát 38
Hình 3.3. Văn bản đã chuẩn hóa 39
Tóm tắt văn bản là kỹ thuật cho phép máy tính tự động tạo ra văn bản
tóm tắt từ một hoặc nhiều văn bản gốc khác nhau. Nhờ tính năng tóm tắt nội
dung chính và tổng hợp nội dung quan trọng từ các văn bản gốc mà tóm tắt
văn bản là một trong những lĩnh vực được các nhà nghiên cứu quan tâm từ
những năm 60 của thế kỷ 20 và vẫn là chủ đề nóng của các diễn đàn, hội thảo
trên thế giới.
Các phương pháp tóm tắt văn bản truyền thống thường dựa trên cách
tiếp cận trích rút câu. Có nghĩa, văn bản tóm tắt được tạo thành từ những câu
đã được lựa chọn từ trong văn bản gốc. Do đó, về mặt ngữ nghĩa và nội dung
của văn bản tóm tắt thường rời rạc, dẫn đến văn bản thiếu độ liền mạch
(coherence) và súc tích (concise).
Một số các phương pháp tóm tắt hiện đại thường đề cập tới vấn đề xử
lý ngôn ngữ tự nhiên để văn bản tóm tắt có độ ngôn ngữ (linguistic score) tốt,
đồng thời phản ánh liền mạch nội dung của văn bản gốc. Một trong những kỹ
thuật đó là kỹ thuật rút gọn câu. Với kỹ thuật rút gọn câu hiện nay, có sử dụng
cả hai kỹ thuật học giám sát và không giám sát. Trong cách học giám sát, các
tác giả thường đề cập tới mô hình học thống kê và yêu cầu xây dựng kho dữ
liệu dùng cho huấn luyện tương đối tỉ mỉ theo cách thủ công. Để xây dựng
được kho dữ liệu này, cần nhiều thời gian và công sức theo cách thủ công.
Bên cạnh đó, các thuật toán trong các phương pháp rút gọn câu chủ yếu là tìm
Số hóa bởi trung tâm học liệu
2
kiếm những câu rút gọn tương đương trong kho dữ liệu có sẵn, dẫn tới độ
phức tạp thuật toán cao.
Trong khuôn khổ đề tài luận văn, tôi sử dụng cách tiếp cận rút gọn câu
dựa trên phương pháp học không giám sát để:
- Tiết kiệm tối đa chi phí khi xây dựng kho ngữ liệu thủ công.
- Giảm độ phức tạp tính toán về mặt thời gian.
Luận văn được chia thành 3 chương với các nội dung sau:
như Nhật, Mỹ, Anh, Trung Quốc, đã đầu tư rất nhiều kinh phí cho việc
phát triển các hệ thống tóm tắt văn bản tự động trực tuyến (online) và
ngoại tuyến (offline).
Số hóa bởi trung tâm học liệu
4
Hình 1.1. Hệ thống tóm tắt trực tuyến Text compactor
Hình 1.1 là hình ảnh của hệ thống tóm tắt trực tuyến Text Compactor
thao tác bằng cách nhập một văn bản và lựa chọn tỉ lệ tóm tắt sẽ có được văn
bản tóm tắt có chiều dài tương ứng với tỉ lệ. Tỉ lệ tóm tắt này được tính bởi
công thức (1-1) dưới đây:
R= (chiều dài văn bản tóm tắt/chiều dài văn bản gốc)*100%. (1-1)
Hình 1.2 dưới đây là hình ảnh của hệ thống tóm tắt ngoại tuyến Gnome.
Văn bản tóm tắt là các câu được lựa chọn có màu vàng.
Hình 1.2. Hệ thống tóm tắt ngoại tuyến
Số hóa bởi trung tâm học liệu
5
Radev và các cộng sự đã định nghĩa tóm tắt là một sản phẩm tổng hợp
từ một hoặc nhiều văn bản lưu giữ các thông tin quan trọng, có ích từ văn bản
gốc và không dài quá nửa văn bản gốc. Như vậy có ba vấn đề chính khi tóm
tắt văn bản cần phải đạt được:
- Tóm tắt từ một hoặc nhiều văn bản.
- Tóm tắt giữ lại các thông tin quan trọng.
- Tóm tắt phải ngắn gọn
Định nghĩa 1.1 [Tóm tắt văn bản (Text summarization)]: Tóm tắt
văn bản là quá trình rút ra những thông tin quan trọng từ một văn bản để
tạo thành một văn bản ngắn gọn hơn theo nhiệm vụ cụ thể và yêu cầu của
Tuỳ theo yêu cầu và mục đích sử dụng, tóm tắt văn bản được phân
thành các kiểu khác nhau:
- Tóm tắt trình bày (indicative summary),
- Tóm tắt thông tin (informative summary),
- Tóm tắt hướng truy vấn (queries –oriented summary),
- Tóm tắt khái lược (generic summary),
- Tóm tắt dựa trên trích rút câu (extraction summary)
- Tóm tắt dựa trên trừu tượng (abstraction summary).
Trong các kiểu tóm tắt văn bản này, tóm tắt trình bày quan tâm tới diễn
giải văn bản mà bỏ qua ngữ cảnh, tóm tắt thông tin đưa ra tóm tắt nội dung ở
dạng ngắn nhất. Tóm tắt hướng truy vấn chỉ đưa ra nội dung mà người đọc
quan tâm. Tóm tắt khái lược đưa ra tổng quan văn bản, tóm tắt dựa trên trích
rút trích chọn ra những phần quan trọng trong văn bản như câu, mệnh đề,
thuật ngữ, Tóm tắt dựa trên trừu tượng (rút gọn câu) tạo ra một văn bản tóm
tắt đảm bảo về mặt cú pháp, ngữ nghĩa, câu được xử lý một cách tinh vi. Văn
bản tóm tắt dựa trên rút gọn câu mang lại hiệu quả cao về mặt ngôn ngữ.
Các phương pháp tóm tắt văn bản được đề xuất thường sử dụng tiếp
cận tóm tắt theo dựa trên trích rút câu. Lý do là cách tiếp cận tóm tắt dựa trên
trích rút câu dễ dàng thực hiện hơn so với cách tiếp cận tóm tắt dựa trên rút
gọn câu. Tuy nhiên, sử dụng cách tiếp cận tóm tắt văn bản dựa trên trích rút
Số hóa bởi trung tâm học liệu
7
câu thường cho kết quả là những văn bản tóm tắt với thông tin ít liền mạch
hơn theo cách tiếp cận tóm tắt dựa trên rút gọn câu. Chính vì điều này, hướng
nghiên cứu tóm tắt dựa trên rút gọn câu ngày càng thu hút nhiều sự quan tâm
của giới chuyên môn.
1.1.2. Một số phương pháp tóm tắt văn bản
1.1.2.1. Một số phương pháp tóm tắt văn bản điển hình
- Phương pháp tóm tắt văn bản bằng Naïve Bayes:
giản như ( Baxendale, 1958). Nghiên cứu này đã có một đóng góp quan trọng
bằng kỹ thuật xác định vị trí tối ưu và cách đánh giá thế nào cho hiệu quả. Một
kho dữ liệu tin tức lớn được sử dụng, kho được sưu tập bởi Zif-Davis từ chương
trình TIPSTER, nó bao gồm văn bản về máy tính (computer) và liên quan tới
phần cứng, thêm vào là tập các từ khóa chủ đề và abstract nhỏ khoảng 6 câu. Có
2 cách đánh giá được sử dụng là precision và recall.
Trong nghiên cứu tiếp theo của Lin (1999) đã bác bỏ giả thiết rằng các
đặc trưng là độc lập lẫn nhau và đã đưa ra mô hình trích rút câu sử dụng cây
quyết định thay thế cho phân loại naïve – bayes. Lin đã khảo sát rất nhiều đặc
trưng và hiệu ứng của chúng trong trích rút câu. Dữ liệu được sử dụng trong
công việc này được sử dụng tập dữ liệu văn bản chuẩn, đã được phân loại
theo các chủ đề khác nhau, cung cấp bởi hệ thống đánh giá TIPSTER-
SUMMAC. Các thực nghiệm mô tả là hệ thống SUMMARIST được phát
triển tại Trường đại học Southern California.
- Phương pháp tóm tắt văn bản bằng mạng nơ ron
Svore và các cộng sự ( 2007 ) đưa ra 1 thuật toán dựa trên mạng neural
và sử dụng tập dữ liệu đưa ra để giải quyết vấn để tóm tắt trích rút, tốt hơn
tiêu chuẩn thống kê các đặc trưng quan trọng.
Các tác giả đã sử dụng tập dữ liệu bao gồm 1365 tài liệu thu thập được
từ CNN.com, mỗi tài liệu bao gồm tiêu đề, timestamp, các đoạn quan trọng do
con người tạo ra và văn bản. Con người tạo ra đoạn quan trọng không đúng
Số hóa bởi trung tâm học liệu
9
theo nguyên văn trích rút từ trong bài báo. Svore đã huấn luyện 1 mô hình từ
các nhãn và các đặc trưng cho mỗi câu trong bài báo, có thể suy luận ra sắp
xếp của các câu trong văn bản kiểm tra. Sắp xếp được hoàn thành sử dụng
RankNet ( Burges et al.,2005), một cặp dựa trên thuật toán mạng neural thiết
kế để sắp xếp 1 tập đầu vào sử dụng phương pháp giảm gradient trong huấn
luyện. Với tập huấn luyện họ sử dụng ROUGE-1 ( Lin, 2004 ) để tính độ
3. Nếu tìm thấy, chèn từ trong chuỗi và cập nhật nó.
Sự tương thích được đo dựa vào Wordnet. Các danh từ đơn và danh từ
ghép được sử dụng như một điểm bắt đầu tới tập ứng cử. Trong bước cuối
cùng, các chuỗi từ vựng tốt sẽ được sử dụng để tạo ra các tóm tắt. Các chuỗi
từ vựng được tính trọng số bằng chiều dài. Sau đó, tác giả chọn ra các câu
quan trọng.
Trong bài báo khác, Ono và các cộng sự ( 1994) tiến tới một mô hình
tính toán đoạn diễn thuyết cho bài văn tiếng Nhật, trong đó họ thực nghiệm
một cách cẩn thận các thủ tục trích rút cấu trúc tu từ trong diễn thuyết, một
cây nhị phân biểu diễn quan hệ giữa các câu ( cây cấu trúc tu từ được sử
dụng trong Marcu,1998). Cấu trúc này đã trích rút sử dụng chuỗi các bước
xử lý ngôn ngữ tự nhiên: phân tích câu, trích rút quan hệ tu từ, tách, sinh ra
các ứng cử viên và ưu tiên lời phê bình. Đánh giá đã dựa trên độ quan trọng
tương đối của các quan hệ tu từ. Trong bước tiếp theo, các nút của cây cấu
trúc tu từ được tỉa để rút gọn câu, giữ lại những thành phần quan trọng. Thực
hiện tương tự cho các đoạn cuối cùng được tóm tắt. Đánh giá đã thực hiện
trên các câu tinh và 30 bài báo biên dịch của bản tin tiếng Nhật đã được sử
dụng như tập dữ liệu.
Marcu (1998) đã mô tả một tiếp cận tóm tắt không giống các phương
pháp cũ, không giả thiết giả thiết rằng các câu trong một tài liệu tạo thành 1
chuỗi. Bài báo này sử dụng diễn thuyết dựa trên khám phá các đặc trưng
truyền thống đã được sử dụng trong tóm tắt bài luận. Diễn thuyết được sử
dụng trong bài báo này là Thuyết cấu trúc tu từ
Số hóa bởi trung tâm học liệu
11
Marcu (1998) mô tả chi tiết thủ tục phân tích tu từ thành cây tu từ. Hình
1.3 minh họa 1 ví dụ cây diễn thuyết trong văn bản.
Hình 1.3. Cây cấu trúc tu từ
tiếp cận trích rút câu có sử dụng độ súc tích về mặt từ vựng.
- Dự án SweSum:
Viện nghiên cứu công nghệ Hoàng Gia (Royal Institute of Technology)
của Thụy Điển đã nghiên cứu dự án SweSum sử dụng cách tiếp cận trích rút
câu. Văn bản tóm tắt được tạo ra từ văn bản tiếng Thụy Điển hoặc bằng Tiếng
Anh trong lĩnh vực tin tức hoặc học thuật. Các câu được trích rút thông qua
việc lựa chọn các câu đã được sắp xếp theo thứ tự trọng số đã được huấn
luyện và đánh dấu trong kho dữ liệu.
- Dự án Tóm tắt văn bản:
Được trường Đại học Ottawa nghiên cứu sử dụng kỹ thuật máy học để
nhận dạng ra các từ khóa. Việc nhận dạng các từ khóa có thể dùng để lựa
chọn các câu trích rút. Họ sử dụng các đặc trưng bề mặt mức phân tích tần
suất và đặc trưng ngôn ngữ bề mặt như vị trí câu
- Dự án FociSum:
Hệ thống FociSum được trường đại học Columbia nghiên cứu và phát
triển dựa trên hệ thống hỏi đáp (Q&A). Các câu trong văn bản tóm tắt chính
là câu trả lời của câu hỏi của người dùng.
Số hóa bởi trung tâm học liệu
13
- Dự án ISI Summarist:
Summarist là sản phẩm tóm tắt các văn bản trên web được trường Đại
học Nam California nghiên cứu và phát triển. Nó được dùng như công cụ lưu
giữ các tin tức mới của bất kỳ ngôn ngữ nào. Summarist đầu tiên nhận dạng
các chủ đề của văn bản sử dụng kỹ thuật thống kê dựa vào các đặc trưng như
vị trí và đếm các từ. Hiện nay dự án này sử dụng cụm từ và cấu trúc tu từ.
Cách tiếp cận tóm tắt sử dụng trích rút câu.
- Dự án TRESTLE:
Đại học Seffield phát triển sản phẩm này dùng để tóm tắt các văn bản
tin tức. Hệ thống sử dụng MUC để trích rút văn bản và sinh ra tóm tắt, sử
- Đặc điểm thứ hai của rút câu là khó khăn trong nhận xét, đánh giá hệ
thống. Bởi các hệ thống đánh giá hiện tại mới chỉ sử dụng ở mức đánh giá bề
mặt (surface) mà chưa đánh giá ngôn ngữ ở mức sâu (deep language).
Vấn đề rút gọn câu được mô tả là có một câu gốc x gồm các từ x = x
1
,
x
2
, ,x
n
và câu rút gọn là y đã được loại bỏ tập con các từ trong x.
Định nghĩa 1.2 [Rút gọn câu]:
Rút gọn câu là việc loại bỏ các đoạn, mệnh đề các từ không liên quan
tới thông tin của câu ra khỏi câu. Câu sau khi rút gọn vẫn giữ nguyên ý chính
của câu gốc, có độ dài ngắn hơn và đảm bảo về mặt ngữ pháp.
Ví dụ 1.1
Câu gốc: Sau khi có bàn thắng khai hỏa trong mùa giải mới cùng Real,
chân sút 28 tuổi tiếp tục thể hiện phong độ ấn tượng trong màu áo tuyển quốc
gia ở vòng loại World Cup 2014.
Câu rút gọn: Sau khi có bàn thắng trong mùa giải cùng Real, chân sút tiếp
tục thể hiện phong độ trong màu áo quốc gia ở vòng loại World Cup 2014.
Ở ví dụ 1.1 trên đây, câu rút gọn đã được loại bỏ đi một số từ không
liên quan trong câu gốc mà không ảnh hưởng tới nội dung của câu gốc, chiều
dài của câu rút gọn cùng giảm hơn so với chiều dài câu gốc là 80%. Các từ đã
loại bỏ bao gồm: khai hỏa, mới, 28 tuổi, ấn tượng tuyển.
Số hóa bởi trung tâm học liệu
15
1.2.2. Một số phương pháp rút gọn câu
Các hệ thống tóm tắt cũ dựa chủ yếu vào trích rút câu, trong khi đó tóm
16
1.3. Đánh giá tóm tắt
1.3.1. Đánh giá theo cách thủ công
Hội thảo DUC (Document Understanding Conferrence) đã đưa ra đánh
giá về các hệ thống tóm tắt trên tập dữ liệu dùng chung kể từ năm 2001.
Nhiều chuyên gia phát triển những phương pháp đánh giá khác nhau. Đánh
giá của hội thảo DUC dựa trên chuyên gia con người. Do đó, chỉ dùng chú
thích của một người tạo các mô hình với tập dữ liệu kiểm tra khác nhau.
1.3.2. Phương pháp đánh giá BLEU
Độ đo BLEU (Bilingual Evaluation Under Study) do Papineni và cộng
sự đề xuất năm 2001. Trong độ đo này họ sử dụng trọng số xuất hiện n-gram.
BLEU gắn với NIST (National Institute of Standards and Technology). Một
phương pháp liên quan đến đánh giá tóm tắt tự động và được gọi là độ đo
NIST. NIST là phương pháp dựa trên BLEU.
Ý tưởng chính của BLEU là đánh giá độ tương tự giữa một văn bản
ứng cử (candidate) và tập các bản tham khảo dưới dạng trung bình có trọng số
của các n-gram trong văn bản cho bởi hệ thống và trong tập các văn bản tham
khảo được cho bởi con người theo công thức (1-1) như sau:
CandidatesC Cgramn
CandidatesC Cgramn
clip
n
gramnCount
gramnCount
p
)(
)(
(1-1)
Trong đó Countclip(n-gram) là số n-gram xuất hiện lớn nhất trong văn
bản cho bởi hệ thống và văn bản tham khảo và Count(ngram) là số n-gram
n
n
Re
Re
)(
)(
(1-2)
Trong công thức (1-2), n biểu thị cho chiều dài của n-gram, gram
n
và
Count
match
(gram
n
) là số chuỗi n-gram lớn nhất xuất hiện trong văn bản tóm tắt
ứng viên và tập các văn bản tóm tắt tham khảo.
1.4. Kết luận chƣơng 1
Trong chương này, tôi đã trình bày các khái niệm cơ bản về tóm tắt văn
bản, các nghiên cứu ban đầu về tóm tắt và những nghiên cứu liên quan theo
suốt thời gian từ những năm 50 của thế kỷ 20. Một số phương pháp điển hình
của tóm tắt văn bản đồng thời phân loại cách tiếp cận tóm tắt khác nhau trong
tóm tắt văn bản.
Rút gọn câu được coi như một giải pháp mới nhằm thay thế các hệ thống
cũ có chất lượng tóm tắt kém. Chương 1 của luận văn cũng đề cập tới một số các
kỹ thuật rút gọn câu cơ bản và đưa ra một số lý thuyết về đánh giá tóm tắt.
Số hóa bởi trung tâm học liệu
18
Chƣơng 2:
PHƢƠNG PHÁP RÚT GỌN CÂU TIẾNG VIỆT