Tóm tắt văn bản tiếng việt sử dụng phương pháp textrank - Pdf 37

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN NGHIỆP

TÓM TẮT VĂN BẢN TIẾNG VIỆT
SỬ DỤNG PHƯƠNG PHÁP TEXTRANK

LUẬN VĂN THẠC SĨ

HÀ NỘI – 2015

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN NGHIỆP

TÓM TẮT VĂN BẢN TIẾNG VIỆT
SỬ DỤNG PHƯƠNG PHÁP TEXTRANK

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ
Hướng dẫn khoa học: PGS. TS. NGUYỄN PHƯƠNG THÁI

HÀ NỘI - 2015

iii

Danh sách ký hiệu, viết tắt
Kí hiệu

Giải thích

wij

Trọng số giữa hai đỉnh Vi và Vj

S(Vi)

Trọng số của đỉnh Vi trong đồ thị

In(Vi)

Số cạnh vào đỉnh Vi

Out(Vj)

Số cạnh ra từ đỉnh Vj

Similarity(Si,Sj)

Độ tương tự giữa câu Si và câu Sj

wk

Hình 2 Đồ thị thể hiện mối quan hệ giữa các đơn vị từ vựng trong văn bản ..... 17
Hình 3 Đồ thị mô phỏng các kết nối giữa các cập câu trong văn bản ............... 23
Hình 4 Mô hình tóm tắt văn bản Tiếng Việt sử dụng TextRank.......................... 28
Hình 5 Mô hình tóm tắt văn bản Tiếng Việt sử dụng Cosine .............................. 28
Hình 6 Đồ thị mô phỏng quan hệ giữa các câu trong văn bản mẫu sử dụng
TextRank .............................................................................................................. 33
Hình 7 Đồ thị mô phỏng quan hệ giữa các câu trong văn bản mẫu sử dụng
Cosine .................................................................................................................. 34
Hình 8 Biểu đồ phân bố điểm đánh giá văn bản tóm tắt 6 tập mẫu ................... 40
Hình 9 Biểu đồ phân bố điểm đánh giá văn bản tóm tắt của 13 tập dữ liệu ...... 43
Hình 10 Giao diện chương trình tóm tắt văn bản tự động.................................. 47
Hình 11 Giao diện hiển thị đồ thị quan hệ giữa các câu trong văn bản ............ 47

v

Danh sách bảng biểu
Bảng 1 So sánh kết quả trích xuất từ khoá giữa TextRank và Hulth 2003 ......... 20
Bảng 2 Kết quả so sánh tóm tắt đơn giữa TextRank và các hệ thống khác ........ 25
Bảng 3 Danh sách chủ đề và số lượng văn bản tương ứng ................................ 37
Bảng 4 Kết quả đánh giá hệ thống tóm tắt tự động sử dụng độ đo Cosine ........ 38
Bảng 5 Thời gian tóm tắt và đánh giá các bộ dữ liệu dùng Cosine ................... 39
Bảng 6 Kết quả đánh giá hệ thống tóm tắt tự động sử dụng TextRank .............. 39
Bảng 7 Thời gian tóm tắt và đánh giá các bộ dữ liệu dùng TextRank ............... 41
Bảng 8 Kết quả đánh giá 13 bộ dữ liệu sau khi đã phân tích ............................. 43

vi

Mục lục

3.2. Thực nghiệm và đánh giá với độ đo Cosine ....................................... 38
3.3. Thực nghiệm và đánh giá với độ đo TextRank.................................. 39
3.4. Khuyến nghị tăng cường độ chất lượng văn bản tóm tắt ................. 44
3.4.1. Khuyến nghị tăng cường độ liên quan giữa các câu ...................... 44
3.4.2. Khuyến nghị tăng cường chất lượng văn bản tóm tắt ................... 45
Tổng kết .............................................................................................................. 46
Phụ lục ................................................................................................................ 48
Tài liệu tham khảo............................................................................................. 51

1

Mở đầu
Hiện nay, công nghệ thông tin đang phát triển mạnh mẽ kèm theo với nó là
sự bùng nổ của internet đã mang đến một lượng thông tin khổng lồ cho con
người. Rất nhiều người có nhu cầu tổng hợp và tóm tắt lại các thông tin để thuận
lợi cho việc tổng hợp các thông tin đó. Xuất phát từ nhu cầu đó, các phương
pháp tóm tắt tự động được nghiên cứu và phát triển. Tóm tắt dữ liệu tự động là
một lĩnh vực rất quan trọng, nó bao gồm trong đó là học máy và khai phá dữ liệu.
Bài toán tóm tắt dữ liệu tự động không chỉ dừng lại ở tóm tắt văn bản mà nó còn
mở rộng ra các loại dữ liệu đa phương tiện như hình ảnh, âm thanh và video.
Một ví dụ điển hình cho việc ứng dụng của tóm tắt dữ liệu tự động là các máy
tìm kiếm, trong đó nổi bật nhất là bộ máy tìm kiếm Google.
Hiện nay trên thế giới, nhiều nhà khoa học và các công ty tỏ ra rất quan tâm
đến bài toán tóm tắt văn bản tự động. Tại các hội nghị nổi tiếng như: DUC 2001
- 2007, TAC 2008 – 2011, ACL 2001-2015, tóm tắt văn bản tự động đã được đề
cập đến nhiều trong các bài báo. Ngoài ra, có nhiều hệ thống tóm tắt văn bản
độc lập hoặc tích hợp được phát triển như: MEAD, LexRank, chức năng tự động
tóm tắt trong Microsoft Word.
Trên thế giới có hai cách tiếp cận bài toán tóm tắt: Tóm tắt trích rút và tóm

KC.01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng
nói và văn bản tiếng Việt" và Về xử lý tiếng Việt trong công nghệ thông tin
(2006), Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam,
2009.
10. Tạ Văn Thông (2003), "Hình dung các bộ phận cơ thể người qua "loại
từ" tiếng Việt", Tạp chí Ngôn ngữ và đời sống số 9 (95).

52

11. Trần Mai Vũ (2009), Tóm tắt đa văn bản dựa vào trích xuất câu, Luận
văn thạc sĩ, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 2009

Tiếng Anh
[Ba07] Barry Schiffman (2007). Summarization for Q&A at Columbia
University for DUC 2007, In Document Understanding Conference 2007
(DUC07), Rochester, NY, April 26-27, 2007.
[BE97] Regina Barzilay and Michael Elhadad. Using Lexical Chains for
Text Summarization, In Advances in Automatic Text Summarization (Inderjeet
Mani and Mark T. Maybury, editors): 111–121, The MIT Press, 1999.
[BKO07] Blake,C., Kampov, J., Orphanides, A., West,D., & Lown, C.
(2007). UNCCH at DUC 2007: Query Expansion, Lexical Simplification, and
Sentence Selection Strategies for Multi-Document Summarization, In DUC07.
[BL06] Blei, M. and Lafferty, J. (2006). Dynamic Topic Models, In the
23th International Conference on Machine Learning, Pittsburgh, PA.
[BME02] Regina Barzilay, Noemie Elhadad, and Kathleen R. McKeown
(2002). Inferring strategies for sentence ordering in multidocument news
summarization, Journal of Artificial Intelligence Research: 35–55, 2002.
[BME99] Barzilay R., McKeown K., and Elhadad M. Information fusion in
the context of multidocument summarization, Proceedings of the 37th annual

Filtering

for

Topic-Driven

Multi-Document

Summarization, In EML Research gGmbH, 2007.
[Ji98] H. Jing (1998). Summary generation through intelligent cutting and
pasting of the input document, Technical Report, Columbia University, 1998.
[KST02] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu
(2002). Bleu: a method for automatic evaluation of machine translation,
Proceedings of the 40th Annual Meeting of the Association for Computational
Linguistics (ACL): 311–318, 2002.

54

[LH03] Chin-Yew Lin and Eduard Hovy (2003). Automatic evaluation of
summaries using n-gram co-occurrence statistics, In Human Technology
Coference 2003.
[LH97] Chin-Yew Lin and Eduard Hovy (1997). Identifying topics by
position, Fifth Conference on Applied Natural Language Processing: 283–290,
1997.
[LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley
A. Crockett (2006). Sentence Similarity Based on Semantic Nets and Corpus
Statistics, IEEE Trans. Knowl. Data Eng. 18(8): 1138-1150.
[Lu58] H. Luhn (1958). The automatic creation of literature abstracts, IBM
Journal of Research and Development, 2(2):159-165, 1958.

Category Graph for NLP Applications, In Proc. of the TextGraphs-2 Workshop,
NAACL-HLT, 2007.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Tóm tắt văn bản tiếng việt sử dụng phương pháp textrank - Pdf 37

Tài liệu, ebook tham khảo khác

Học thêm