Nghiên cứu mô hình ngôn ngữ N-Gram và ứng dụng trong bài toán thêm dấu cho tiếng Việt không dấu - Pdf 41

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CNTT&TT

CAO ĐỨC TƯ

NGHIÊN CỨU MÔ HÌNH NGÔN NGỮ N-GRAM
VÀ ỨNG DỤNG TRONG BÀI TOÁN THÊM DẤU
CHO TIẾNG VIỆT KHÔNG DẤU
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01

LUẬN VĂN THẠC SĨ : KHOA HỌC MÁY TÍNH

Thái Nguyên - 2011
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CNTT&TT

CAO ĐỨC TƯ

NGHIÊN CỨU MÔ HÌNH NGÔN NGỮ N-GRAM
VÀ ỨNG DỤNG TRONG BÀI TOÁN THÊM DẤU
CHO TIẾNG VIỆT KHÔNG DẤU
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01

LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH

LỜI CẢM ƠN
Luận văn được hoàn thành bởi sự nỗ lực của bản thân, sự giúp đỡ tận
tình của các thầy cô trường Đại học công nghệ thông tin và truyền thông
thuộc Đại học Thái Nguyên, thầy cô Viện công nghệ thông tin thuộc Viện
Khoa học và Công nghệ Việt Nam.Đã tận tình chỉ dạy, giúp đỡ em trong cả
quá trình học tập và hoàn thành luận văn.
Xin bày tỏ lòng biết ơn sâu sắc đến TS. Vũ Tất Thắng Viện công nghệ
thông tin thuộc Viện Khoa học và Công nghệ Việt Nam, người đã tận tình chỉ
dẫn tôi trong suốt quá trình xây dựng đề cương và hoàn thành luận văn.
Xin cảm ơn các anh chị em trong lớp cao học K8 đã giúp đỡ, đóng góp
ý kiến chia sẽ những kinh nghiệm học tập, nghiên cứu trong suốt khóa học.
Mặc dù đã cố gắng hết sức để hoàn thành luận văn , song không thể
tránh khỏi sai sót. Xin kính mong nhận được nhận xét và sự đóng góp của qu ý
Thầy Cô và bạn bè.
Thái Nguyên, ngày 30 tháng 9 năm 2011
Học viên
Cao Đức Tư

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn


3

MỤC LỤC
1
CHƢƠNG 1: GIỚI THIỆU CHUNG ............................................................. 5
1.1.Đặt vấn đề: ............................................................................................ 5
1.2.Mục tiêu: ............................................................................................... 7

THÊM DẤU TIẾNG VIỆT .......................................................................... 56
4.1. Bài toán thêm dấu tiếng Việt .............................................................. 56
4.2. Các phƣơng pháp đánh giá kết quả thêm dấu:..................................... 57
4.3. Các hệ thống thêm dấu ứng dụng về N-gram đã có: ........................... 59
4.4. Đề xuất hệ thống: ............................................................................... 63
4.5. Thử nghiệm hệ thống: ........................................................................ 66
CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI .... 6760
5.1. Các kết quả đạt đƣợc: ..................................................................... 6760
5.2.Hạn chế và hƣớng phát triển của đề tài: ........................................... 6760
TÀI LIỆU THAM KHẢO ............................................................................ 61

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn


5

DANH MỤC CÁC KÝ HIỆU VIẾT TẮT
Viết tắt
Diễn giải
ACL
Association for Computational
Linguistics
SMS
Short Message Services
SRI
Stanford Research Institute
LM
language Model

Hình 3-5. Số lƣợng các cụm Ngram (từ) có tần số từ 1 đến 10 ..................... 51
Hình 4-1. Sự trùng khớp của các bản dịch máy với bản dịch mẫu ............ 5158
Hình 4-2. Lƣu đồ thực hiện mô hình ứng dụng trong VietPad ...................... 60
Hình 4-3. Lƣu đồ thực hiện của mô hình N-gram ......................................... 55
Hình 4-4. Lƣu đồ thực hiện của mô hình đề xuất ...................................... 6356
Hình 4.5. Mô hình test thêm dấu đề xuất. ................................................. 6659

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn


7

DANH MỤC BẢNG
Bảng 3 -1. Số lƣợng các cụm n-gram trong văn bản huấn luyện với âm tiết . 48
Bảng 3-2: Số lƣợng các cụm N-gram trong văn bản huấn luyện với từ ..... 4942
Bảng 3-3: Tần số của tần số các cụm N-gram áp dụng cho âm tiết ........... 5043
Bảng 3-4. Tần số của tần số các cụm Ngram với từ ...................................... 51
Bảng 3-5: Bộ nhớ và độ hỗn loạn thông tin khi áp dụng loại bỏ trong âm tiết
................................................................................................................. 4552
Bảng 3-6: Bộ nhớ và độ hỗn loạn thông tin khi áp dụng loại bỏ với từ ......... 53
Bảng 3-7: Độ hỗn loạn thông tin của các phƣơng pháp làm mịn cho âm tiết
................................................................................................................. 5447
Bảng 3-8: Độ hỗn loạn thông tin của các phƣơng pháp làm mịn cho từ .... 5447

MỞ ĐẦU
1. Lý do chọn đề tài:
Trong lĩnh vực xử lí ngôn ngữ tự nhiên, sử dụng các mô hình ngôn ngữ
sẽ giúp giới hạn không gian tìm kiếm để có các giải pháp tốt nhất có thể có

2. Mục đích và nhiệm vụ:
 Mục tiêu
Về học thuật:
Đề tài này tập trung vào việc ứng dụng một số phƣơng pháp tách từ,
tiếng, phƣơng pháp làm mịn trong mô hình ngôn ngữ N-gram nhằm tăng hiệu
quả thêm dấu cho tiếng Việt không dấu.
Về phát triển và triển khai ứng dụng:
Kết quả của đề tài sẽ ứng dụng trong việc hỗ trợ trong việcthêm dấu
cho tiếng Việt không dấu.
 Nhiệm vụ
- Nghiên cứu các vấn đề khi xây dựng mô hình ngôn ngữ N-gram
- Nghiên cứu các phƣơng pháp làm mịn trong mô hình ngôn ngữ Ngram.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....



read....

data error !!! can't not
read....


data error !!! can't not
read....

data error !!! can't not
read....


data error !!! can't not
read....

data error !!! can't not
read....




Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status