Tóm tắt đơn văn bản tiếng việt sử dụng chuỗi từ vựng - Pdf 38

ĐẠI HỌC QUỐC GIA HÀ NỘI
TR

NG ĐẠI H C CÔNG NGH

KIM XUÂN PHÚC

TÓM TẮT ĐƠN VĂN BẢN TIẾNG VI T
SỬ DỤNG CHUỖI TỪ VỰNG
Ngành: Công ngh thông tin
Chuyên ngành: H th ng thông tin
Mã s : 60.48.01.04

LU N VĂN THẠC SĨ

Ng

ih

ng d n khoa h c: PGS.TS. NGUYỄN PH ƠNG THÁI

HÀ NỘI - 2015


LỜI CAM ĐOAN
‘Tôi xin cam đoan luận văn này là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả được trình bày trong luận văn là hoàn toàn trung thực và chưa từng được công bố
trong bất kỳ một công trình nào khác. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo,
công trình nghiên cứu liên quan ở trong nước và quốc tế. Ngoại trừ các tài liệu tham khảo
này, luận văn hoàn toàn là sản phẩm của riêng tôi.’


2.1.2 Các quan hệ trong mạng từ Wordnet . . . . .
2.2 Mạng từ tiếng Việt . . . . . . . . . . . . . . . . . . .
2.2.1 Từ điển của Laconec . . . . . . . . . . . . . .
2.2.2 Mạng từ tiếng Việt của đề tài KC.01.20/11-15
2.3 Sử dụng mạng từ tiếng Việt . . . . . . . . . . . . . .
3 Ứng dụng xích từ vựng trong
3.1 Xích từ vựng . . . . . . . .
3.2 Xây dựng xích từ vựng . . .
3.3 Sử dụng xích từ vựng . . . .

tóm
. . .
. . .
. . .

4 Thực nghiệm và các kết quả
4.1 Dữ liệu sử dụng . . . . . . . . .
4.2 Phương pháp đánh giá . . . . .
4.2.1 Đánh giá đồng chọn . .
4.2.2 Đánh giá tự động . . . .
4.3 Thực nghiệm . . . . . . . . . .
4.3.1 Môi trường thực nghiệm
4.3.2 Tiền xử lý . . . . . . . .
4.3.3 Đánh giá kết quả . . . .

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

3
3
4
6

.
.
.
.
.
.

18
18
20
20
21
22
22
22
22

.
.
.
.
.
.
.
.

.
.
.
.

.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.


.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.


.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.


MỤC LỤC
4.4

Số lượng từ tiếng Việt chia theo từng loại trong mạng từ . . . . . . . 11

3.1

Ví dụ về xếp hạng độ quan trọng các câu khi sử dụng xích từ vựng . 17

4.1
4.2
4.3
4.4
4.5

Thống kê chi tiết kho ngữ liệu Corpus_LTH . . . . . . . . . . . . .
Tập văn bản sử dụng . . . . . . . . . . . . . . . . . . . . . . . . . .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 . . . . . . . . . . .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Chính trị
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Khoa học
Công nghệ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Văn hóa .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Xã hội . .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Khoa học
Giáo dục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Kinh tế .

4.8
4.9
4.6
4.7

vi

Princeton Wordnet
Natural Language Toolkit

vii


MỞ ĐẦU
Ngày nay, dưới sự bùng nổ của kỷ nguyên Internet, thông tin văn bản được lưu trữ
trên mạng Internet trở nên vô cùng lớn. Hằng ngày, số lượng thông tin văn bản tăng
lên không ngừng. Khối lượng thông tin khổng lồ này mang lại lợi ích không nhỏ cho
con người, tuy nhiên cùng với đó là sự quá tải khiến cho chúng ta gặp rất nhiều khó
khăn trong việc tìm kiếm, xử lý và tổng hợp thông tin. Để cải thiện khả năng tìm
kiếm cũng như tăng hiệu qủa cho các công việc xử lý thông tin, tóm tắt tự động
là giải pháp không thể thiếu để giải quyết vấn đề này. Đối với tiếng Việt, bài toán
tóm tắt văn bản tiếng Việt đóng một vai trò quan trọng trong việc khai thác hiệu
quả thông tin trong kho ngữ liệu văn bản tiếng Việt lớn. Nó có ứng dụng rất lớn
trong các hệ thống như: tìm kiếm thông minh, đa ngôn ngữ, tổng hợp thông tin...
Đối với lĩnh vực an ninh quốc phòng, tóm tắt tin tức có thể giúp cho cán bộ nghiệp
vụ thu thập đủ các thông tin cần thiết và kịp thời theo dõi, đánh giá, xử lý nguồn
thông tin một cách nhanh chóng.
Nội dung luận văn này được chúng tôi trình bày như sau:
• Chương 1: Tổng quan về tóm tắt văn bản tự động
• Chương 2: Mạng từ
• Chương 3: Xích từ vựng
• Chương 4: Thực nghiệm và các kết quả
• Chương 5: Kết luận
Chúng tôi đưa ra cái nhìn khái quát về hiện trạng tóm tắt văn bản tại Chương 1. Ở
Chương 2, chúng tôi giới thiệu về mạng từ bao gồm mạng từ tiếng Anh của trường
đại học Princeton, các mạng từ tiếng Việt hiện có. Chúng tôi giới thiệu các kiến
thức chung và các cách áp dụng xích từ vựng ở Chương 3. Trong Chương 4, chúng

J. Kupiec, J.O. Pedersen, and F. Chen. A trainable document summarizer. In In the proceedings
of the 18th ACM SIGIR conference on research and development in information retrieval, pages
68–73, 1995.
C-Y Lin and E.H. Hovy. Identifying topics by position. In In Proceedings of the Applied Natural
Language Processing Conference (ANLP-97), page 283–290, 1997.

32


Bibliography

33

H.P. Luhn. The automatic creation of literature abstracts. IBM Journal of Research and Development, 2(2), 1958.
J. Lyons. Semantics. 2 vols. New York: Cambridge University Press, 1977.
Dat Quoc Nguyen, Dai Quoc Nguyen, Dang Duc Pham, and Son Bao Pham. RDRPOSTagger:
A Ripple Down Rules-based Part-Of-Speech Tagger. In Proceedings of the Demonstrations at
the 14th Conference of the European Chapter of the Association for Computational Linguistics,
pages 17–20, Gothenburg, Sweden, April 2014. Association for Computational Linguistics. URL
/>M.L. Nguyen, Shimazu Akira, Xuan-Hieu Phan, Tu-Bao Ho, and Horiguchi Susumu. Sentence
extraction with support vector machine ensemble. In Proceedings of the First World Congress
of the International Federation for Systems Research: The New Roles of Systems Sciences For
a Knowledge-based Society, 2005.
Phuong-Thai Nguyen, Van-Lam Pham, Hoang-An Nguyen, Huy-Hien Vu, Thi-Thu-Ha Truong,
and Ngoc-Anh Tran. A two-phase approach for building vietnamese wordnet. In The 8th Global
Wordnet Conference, 2015.
Tadashi Nomoto and Yuji Matsumoto. A new approach to unsupervised text summarization. In
SIGIR, pages 26–34, 2001.
Đỗ Phúc and Hoàng Kiếm. Rút trích ý chính từ văn bản tiếng Việt. Tạp chí Công nghệ Thông tin
và Truyền thông, 2004.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status