041_Nghiên cứu và ứng dụng trích chọn đặc trưng trong nhận dạng chữ viết tay tiếng Việt - Pdf 63

- 12 -
NGHIÊN CỨU VÀ ỨNG DỤNG TRÍCH CHỌN ĐẶC TRƯNG
TRONG NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆTĐinh Việt Cường
MSSV: 0121815
Email: [email protected]

Cán bộ hướng dẫn: TS. Nguyễn Việt Hà

1. Giới thiệu
Ngoài những khó khăn chung của bài toán
nhận dạng chữ viết tay, nhận dạng chữ viết tay
tiếng Việt còn có những khó khăn do đặc thù
của tiếng Việt đem lại. Hệ thống dấu của tiếng
Việt khiến cho số lượng kí tự là rất lớn trong đó
có những nhóm kí tự rất giống nhau và khó
phân biệt (các kí tự có dấu xuất phát từ cùng
một nguyên âm chỉ khác nhau phần dấ
u). Điều
này khiến cho hiệu quả nhận dạng là rất thấp
khi chúng ta chỉ nhận dạng tất cả các kí tự trong
một lần (nhận dạng một cấp). Để khắc phục
những khó khăn này, em đề xuất giải pháp:
nhận dạng nhiều cấp bằng cách chia tập kí tự ra
thành nhiều nhóm (mỗi nhóm gồm các kí tự
gần giống nhau) đồng thời áp dụng phương
pháp trích ch
ọn đặc trưng phù hợp cho từng
nhóm kí tự để nâng cao chất lượng nhận dạng.

ta cần sử dụng phương pháp trích chọn đặc
trưng phù hợp để việc nhận dạng đạt được hiệu
quả cao nhất.
3. Trích chọn đặc trưng áp dụng cho bài
toán
Theo giải pháp được đề ra trong phần giới
thiệu, chúng ta cần tiến hành các bước: phân
loại kí tự thành các nhóm và sau đó với mỗi
nhóm áp dụng phương pháp trích chọn đặc
trưng phù hợp.
Phân loại kí tự:
Việc phân nhóm các kí tự tiếng Việt viết
thường được thực hiện dựa trên quy tắc: các kí
tự gần giống nhau, dễ gây nhầm lẫn thì sẽ được
phân về một nhóm. Theo quy tắc này các kí tự
có d
ấu xuất phát từ cùng một chữ cái có phần
thân giống nhau, chỉ khác nhau phần dấu nên ta
sẽ xếp vào một nhóm; đối với các kí tự không
có dấu, các kí tự có cấu trúc hình học tương tự
như nhau cũng được xếp chung vào một nhóm,
ví dụ (nhóm chữ r và s, nhóm chữ d và đ…).
Trích chọn đặc trưng áp dụng cho các
nhóm:
Để nâng cao chất lượng cho hệ nhận dạng
nhiều cấp tương ứng với bả
ng phân nhóm kí tự,
việc trích chọn đặc trưng cho ảnh đầu vào cần
đạt được những mục tiêu sau:


phần dấu của kí tự, tìm ra đặc trưng trên
phần dấu để phân biệt các dấu. Khi đã phân
biệt được dấu, chúng ta sẽ phân biệt được
cả kí tự.

Trích chọn đặc trưng cho các nhóm kí tự
không dấu: có nhiệm vụ tìm ra những đặc
trưng riêng của các kí tự trong cùng một
nhóm.
4. Thực nghiệm
Do chưa có cơ sở dữ liệu kí tự viết tay tiếng
Việt chuẩn nào nên cùng với việc xây dựng hệ
thống thực nghiệm, chúng em đã tiến hành thu
thập cơ sở dữ liệu theo các tiêu chuẩn sau (đây
cũng chính là phạm vi của bài toán mà chúng
em đang giải quyết):
• Kiểu chữ “đứng” theo nghĩa không quá
nghiêng về bên trái hoặc phải.
• Chữ viết không thiếu hoặc thừa nét, dấu
được đặt chuẩn theo quy định của tiếng
Việt.
Để kiểm tra tính hiệu quả của các phương
pháp trích chọn đặc trưng, chúng ta thường phải
sử dụng mô hình nhận dạng. Mô hình nhận
dạng được em sử dụng trong các thực nghiệm ở
đây là mạng neuron. (việc nghiên cứu và cài đặt
mạng neuron được thực hiện bởi một thành
viên khác trong nhóm)
Thực nghiệm 1: Thực nghiệm khẳng định
tính hiệu quả của việc trích chọn đặc trưng

Thực nghiệm 2: Thực nghiệm khẳng định
hiệu quả của việc phân nhóm
Trong thực nghiệm này, việc phân nhóm kí
tự được tiến hành và ứng với mỗi nhóm kí tự đó
ta áp dụng một ph
ương pháp trích chọn đặc
trưng phù hợp (bằng cách tiến hành nhiều thực
nghiệm khác để lựa chọn). Tỷ lệ nhận dạng
đúng trên tập test là 95.8% cao hơn rất nhiều so
với khi ta không phân nhóm kí tự (81.12%).
Ngoài ra chúng em (em và hai thành viên
khác trong nhóm) cũng đã cài đặt được hệ
thống thực nghiệm chung cho bài toán Nhận
dạng đoạn văn bản viết tay tiếng Việt nét liền
và thu được kết quả
ban đầu rất khả quan.
5. Kết luận
Sau quá trình nghiên cứu về trích chọn đặc
trưng và bài toán nhận dạng chữ viết tay tiếng
Việt, em đã đề xuất một giải pháp khắc phục
được những khó khăn của bài toán và cài đặt
được hệ thực nghiệm nhận dạng chữ viết tay
tiếng Việt với tỷ lệ nhận dạng đúng khá cao
(95.8%) dựa trên việc phân nhóm kí tự và áp
dụng trích chọn đặc trưng phù hợp cho mỗ
i
nhóm. Đây là một tỷ lệ cao so với các hệ nhận
dạng chữ viết tay ở Việt Nam hiện nay.
Trong thời gian tới em sẽ tiếp tục mở rộng
phạm vi của bài toán và hướng tới phát triển


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status