THuật toán nhận dạng văn bản tiếng Việt - pdf 25

Chia sẻ link tải Luận văn: Một phương pháp nhận dạng văn bản tiếng Việt : Nghiên cứu các phép xử lý và nhận dạng văn bản, ứng dụng mô hình Markov ẩn trong nhận dạng cấu trúc chữ Việt


Nhà xuất bản:Khoa Công nghệ
Ngày:2001
Chủ đề:Công nghệ thông tin
Nhận dạng văn bản
Tiếng Việt
Miêu tả:86 tr
Trình bày cơ sở lý thuyết toán học của bài toán nhận dạng chữ Việt (chữ in và chữ viết tay). Xây dựng các mô hình nhận dạng cấu trúc chữ và mô hình nhận dạng từ tiếng Việt. Xử lý văn bản và nhận dạng văn bản. Các kết quả cài đặt thử nghiệm
Luận văn Thạc Sỹ Công nghệ thông tin Khoa Công nghệ Đại học Quốc gia Hà Nội


> « P | à từ lâu, nhân loại mơ ước có thể chế tạo ra được các máy móc có một số
khả năng của con người, như khả năng nghe, hiểu tiếng nói hay nhìn và
nhận định được các vật thề xung quanh. Nhưng mãi tới gần đây khi những tiến bộ
công nghệ cho phép cùng với sự phát triển của những lý thuyết trong lĩnh vực xử lý
thông tin, mơ ước đó mới đang dần trở thành hiện thực.
Chúng ta biết rằng, con người nhận thức được thế giới khách quan bằng các giác
quan và tư duy của mình. Hiện nay, chúng ta đã có nhiều thiết bị cảm nhận (sensor)
có khả năng thu nhận thông tin của môi hường xung quanh giống với chức năng
cua các giác quan con người. Đơn giản như một chiếc micro để có thể thu nhận âm
thanh cho đến những chiếc camera có khả năng thu nhận hình ảnh. vấn đề tiếp đó là
phải xử lý các thông tin thu được như thế nào.
Đối với con người thì quá trình xử lý thông tin là quá trình tư duy dựa trên cơ chế
hoạt động của bộ não. Đây là một quá trình rất phức tạp mà cho đến ngày nay,
chúng ta mới chỉ nắm bắt được một phần nhỏ cơ chế hoạt động của nó. Có lẽ sẽ
chăng bao giờ máy móc mới đạt tới khả năng tư duy của con người, nhưng trong sự
nồ lực từng bước của mình, các nhà khoa học đã phân tách các mảng thông tin ra
từng phần nhất định và xử lý riêng trong những khuôn khổ đó. Chính sự xử lý riêng
biệt này đã tạo ra được những thành công nhất định trong việc tạo ra những hệ
thống kỳ thuật có một số năng lực "tư duy" gần với con người.
Việc tạo ra các hệ thống có khả năng nhận định thông tin là một trong những hướng
nghiên cứu đã có những thành công. Trong các hệ thống này, từ một dạng thông tin
thu nhận được, hệ thống sẽ phân tách ra thành các mẫu thông tin riêng biệt, sau đó
biểu diễn các mẫu thông tin này, sắp xếp, phân loại chúng, và dùng những kỹ thuật
xu lý để nhận ra ý nghĩa của các thông tin đó. Đây chính là tư tưởng chủ đạo của bài
toán nhận dạnu mầu (Pattern Recognition). Phạm vi ứng dụng của lý thuyết nhận dạng mẫu đã được áp dụng cho các lĩnh vực như: Nhận dạng tín hiệu, nhận dạng
tiếng nói, nhận dạng ảnh v.v...
Nhận dạng anh có thể coi là công đoạn cuối cùng của quá trình xử lý ảnh. Rất nhiều
lý thuyết và kỹ thuật xử lý ảnh đã được phát triển với mục đích để nhận dạng tốt
hơn các đối tượng trong bức ảnh thu được. Kỹ thuật nhận dạng ảnh cơ bản dựa vào
việc phân tích và biến đổi các mẫu để rút ra được những đặc trưng của đối tượng
cần nhận dạng. Việc gán ý nghĩa cho các lớp mẫu cũng chính là việc nhận dạng
được các mẫu sẽ xếp vào lóp đó.
Nhận dạng chữ (chữ in và chữ viết tay) là một trong những vấn đề nhận dạng ảnh
nhằm mục đích tự động hoá quá trình thu nhận các thông tin dạng chữ. Trên thế giới
đà có một số hệ thống nhận dạng chữ viết cỡ lớn có độ chính xác tương đối cao.
Ngoài yếu tố bí mật công nghệ, chữ viết của mỗi dân tộc có những đặc thù riêng,
đòi hỏi những người con của dân tộc đó phải quan tâm nghiên cứu, khai thác triệt đế
các yếu tố đặc thù của tiếng mẹ đẻ nhằm phát triển các hệ thống nhận dạng chữ viết
phù hợp.
Cách thức thu thập thông tin bằng phương pháp nhận dạng tự động chữ viết mang
nhiều ý nghĩa thực tiễn. Có thể kể ra đây một số ứng dụng dựa trên khả năng nhận
dạng chữ đã được nghiên cứu và đưa vào sử dụng như: Tự động đọc văn bản chữ in,
hệ thống kiểm tra các thông số ghi tiên sản phẩm, hệ thống số liệu hoá bản đồ, hệ
thống tự động phân loại các thư từ và bưu kiện, hệ thống thống kê tự động các phiếu
điều tra v.v...
Nghiên cứu vấn đề này, ngay từ đầu tui đã thấy có nhiều khó khăn, bởi ngay cả với
những hệ thống nhận dạng chữ viết cỡ lớn trên thế giới, thành công mới chỉ đạt
được trên một số bộ kí tự phổ biến. Mặt khác, chữ viết của dân tộc ta, ngoài các
nguyên âm ă, â, ê, ô ơ, ư còn có các dấu thanh đặc trưng. Song vì nhu cầu khám phá
đẽ có thêm hiểu biết, sau khi tham khảo một số tài liệu đã được nghiên cứu trong và
ngoài nước, tui mạnh dạn hoàn thành luận văn với đề tài: "Một phương pháp nhận
dạng văn bản Tiếng Việt" sử dụng mô hình Markov ấn trong nhận dạng chữ in và chừ viết tay có ràng buộc, với mong muốn trưởng thành hơn trên con đường nghiên
cứu khoa học và hiểu rõ hơn ngôn ngữ của dân tộc mình.
Luận văn được trình bày cụ thề qua 6 nội dung chính:
• Tông quan.
• Trình bày cơ sở lý thuyết toán học cho vấn đề cần nghiên cứu
• Xây dụng các mô hình nhận dạng cấu trúc chữ Việt
• Xây dựng mô hình nhận dạng từ Tiếng Việt
• Xử lý văn bản và nhận dạng văn bản
• Ket quả cài đặt thử nghiệm


https://mega.nz/#!lMN2Tapa!-oNzflvkzlLu ... JHG08IDzE0
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status