ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN VĂN NGHIỆP
TÓM TẮT VĂN BẢN TIẾNG VIỆT
SỬ DỤNG PHƯƠNG PHÁP TEXTRANK
LUẬN VĂN THẠC SĨ
HÀ NỘI – 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN VĂN NGHIỆP
TÓM TẮT VĂN BẢN TIẾNG VIỆT
SỬ DỤNG PHƯƠNG PHÁP TEXTRANK
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04
LUẬN VĂN THẠC SĨ
Hướng dẫn khoa học: PGS. TS. NGUYỄN PHƯƠNG THÁI
HÀ NỘI - 2015
iii
Danh sách ký hiệu, viết tắt
Kí hiệu
Giải thích
wij
Trọng số giữa hai đỉnh Vi và Vj
S(Vi)
Trọng số của đỉnh Vi trong đồ thị
In(Vi)
Số cạnh vào đỉnh Vi
Out(Vj)
Số cạnh ra từ đỉnh Vj
Similarity(Si,Sj)
Độ tương tự giữa câu Si và câu Sj
wk
Hình 2 Đồ thị thể hiện mối quan hệ giữa các đơn vị từ vựng trong văn bản ..... 17
Hình 3 Đồ thị mô phỏng các kết nối giữa các cập câu trong văn bản ............... 23
Hình 4 Mô hình tóm tắt văn bản Tiếng Việt sử dụng TextRank.......................... 28
Hình 5 Mô hình tóm tắt văn bản Tiếng Việt sử dụng Cosine .............................. 28
Hình 6 Đồ thị mô phỏng quan hệ giữa các câu trong văn bản mẫu sử dụng
TextRank .............................................................................................................. 33
Hình 7 Đồ thị mô phỏng quan hệ giữa các câu trong văn bản mẫu sử dụng
Cosine .................................................................................................................. 34
Hình 8 Biểu đồ phân bố điểm đánh giá văn bản tóm tắt 6 tập mẫu ................... 40
Hình 9 Biểu đồ phân bố điểm đánh giá văn bản tóm tắt của 13 tập dữ liệu ...... 43
Hình 10 Giao diện chương trình tóm tắt văn bản tự động.................................. 47
Hình 11 Giao diện hiển thị đồ thị quan hệ giữa các câu trong văn bản ............ 47
v
Danh sách bảng biểu
Bảng 1 So sánh kết quả trích xuất từ khoá giữa TextRank và Hulth 2003 ......... 20
Bảng 2 Kết quả so sánh tóm tắt đơn giữa TextRank và các hệ thống khác ........ 25
Bảng 3 Danh sách chủ đề và số lượng văn bản tương ứng ................................ 37
Bảng 4 Kết quả đánh giá hệ thống tóm tắt tự động sử dụng độ đo Cosine ........ 38
Bảng 5 Thời gian tóm tắt và đánh giá các bộ dữ liệu dùng Cosine ................... 39
Bảng 6 Kết quả đánh giá hệ thống tóm tắt tự động sử dụng TextRank .............. 39
Bảng 7 Thời gian tóm tắt và đánh giá các bộ dữ liệu dùng TextRank ............... 41
Bảng 8 Kết quả đánh giá 13 bộ dữ liệu sau khi đã phân tích ............................. 43
vi
Mục lục
3.2. Thực nghiệm và đánh giá với độ đo Cosine ....................................... 38
3.3. Thực nghiệm và đánh giá với độ đo TextRank.................................. 39
3.4. Khuyến nghị tăng cường độ chất lượng văn bản tóm tắt ................. 44
3.4.1. Khuyến nghị tăng cường độ liên quan giữa các câu ...................... 44
3.4.2. Khuyến nghị tăng cường chất lượng văn bản tóm tắt ................... 45
Tổng kết .............................................................................................................. 46
Phụ lục ................................................................................................................ 48
Tài liệu tham khảo............................................................................................. 51
1
Mở đầu
Hiện nay, công nghệ thông tin đang phát triển mạnh mẽ kèm theo với nó là
sự bùng nổ của internet đã mang đến một lượng thông tin khổng lồ cho con
người. Rất nhiều người có nhu cầu tổng hợp và tóm tắt lại các thông tin để thuận
lợi cho việc tổng hợp các thông tin đó. Xuất phát từ nhu cầu đó, các phương
pháp tóm tắt tự động được nghiên cứu và phát triển. Tóm tắt dữ liệu tự động là
một lĩnh vực rất quan trọng, nó bao gồm trong đó là học máy và khai phá dữ liệu.
Bài toán tóm tắt dữ liệu tự động không chỉ dừng lại ở tóm tắt văn bản mà nó còn
mở rộng ra các loại dữ liệu đa phương tiện như hình ảnh, âm thanh và video.
Một ví dụ điển hình cho việc ứng dụng của tóm tắt dữ liệu tự động là các máy
tìm kiếm, trong đó nổi bật nhất là bộ máy tìm kiếm Google.
Hiện nay trên thế giới, nhiều nhà khoa học và các công ty tỏ ra rất quan tâm
đến bài toán tóm tắt văn bản tự động. Tại các hội nghị nổi tiếng như: DUC 2001
- 2007, TAC 2008 – 2011, ACL 2001-2015, tóm tắt văn bản tự động đã được đề
cập đến nhiều trong các bài báo. Ngoài ra, có nhiều hệ thống tóm tắt văn bản
độc lập hoặc tích hợp được phát triển như: MEAD, LexRank, chức năng tự động
tóm tắt trong Microsoft Word.
Trên thế giới có hai cách tiếp cận bài toán tóm tắt: Tóm tắt trích rút và tóm
KC.01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng
nói và văn bản tiếng Việt" và Về xử lý tiếng Việt trong công nghệ thông tin
(2006), Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam,
2009.
10. Tạ Văn Thông (2003), "Hình dung các bộ phận cơ thể người qua "loại
từ" tiếng Việt", Tạp chí Ngôn ngữ và đời sống số 9 (95).
52
11. Trần Mai Vũ (2009), Tóm tắt đa văn bản dựa vào trích xuất câu, Luận
văn thạc sĩ, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 2009
Tiếng Anh
[Ba07] Barry Schiffman (2007). Summarization for Q&A at Columbia
University for DUC 2007, In Document Understanding Conference 2007
(DUC07), Rochester, NY, April 26-27, 2007.
[BE97] Regina Barzilay and Michael Elhadad. Using Lexical Chains for
Text Summarization, In Advances in Automatic Text Summarization (Inderjeet
Mani and Mark T. Maybury, editors): 111–121, The MIT Press, 1999.
[BKO07] Blake,C., Kampov, J., Orphanides, A., West,D., & Lown, C.
(2007). UNCCH at DUC 2007: Query Expansion, Lexical Simplification, and
Sentence Selection Strategies for Multi-Document Summarization, In DUC07.
[BL06] Blei, M. and Lafferty, J. (2006). Dynamic Topic Models, In the
23th International Conference on Machine Learning, Pittsburgh, PA.
[BME02] Regina Barzilay, Noemie Elhadad, and Kathleen R. McKeown
(2002). Inferring strategies for sentence ordering in multidocument news
summarization, Journal of Artificial Intelligence Research: 35–55, 2002.
[BME99] Barzilay R., McKeown K., and Elhadad M. Information fusion in
the context of multidocument summarization, Proceedings of the 37th annual
Filtering
for
Topic-Driven
Multi-Document
Summarization, In EML Research gGmbH, 2007.
[Ji98] H. Jing (1998). Summary generation through intelligent cutting and
pasting of the input document, Technical Report, Columbia University, 1998.
[KST02] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu
(2002). Bleu: a method for automatic evaluation of machine translation,
Proceedings of the 40th Annual Meeting of the Association for Computational
Linguistics (ACL): 311–318, 2002.
54
[LH03] Chin-Yew Lin and Eduard Hovy (2003). Automatic evaluation of
summaries using n-gram co-occurrence statistics, In Human Technology
Coference 2003.
[LH97] Chin-Yew Lin and Eduard Hovy (1997). Identifying topics by
position, Fifth Conference on Applied Natural Language Processing: 283–290,
1997.
[LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley
A. Crockett (2006). Sentence Similarity Based on Semantic Nets and Corpus
Statistics, IEEE Trans. Knowl. Data Eng. 18(8): 1138-1150.
[Lu58] H. Luhn (1958). The automatic creation of literature abstracts, IBM
Journal of Research and Development, 2(2):159-165, 1958.
Category Graph for NLP Applications, In Proc. of the TextGraphs-2 Workshop,
NAACL-HLT, 2007.