- 38 -
NGHIÊN CỨU VÀ ỨNG DỤNG PHÂN ĐOẠN ẢNH TRONG
NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆT
Ngô Trí Hoài
MSV: 0122195
Email: [email protected]
Người hướng dẫn: TS. Nguyễn Việt Hà
1. Giới thiệu
Trong thời gian gần đây, ở Việt Nam, nhận
dạng chữ tiếng Việt, đặc biệt là chữ viết tay là
những bài toán được nghiên cứu rất nhiều để áp
dụng vào các dự án tin học hoá. Mô hình bài
toán tổng thể mà chúng em đang nghiên cứu
Nhận dạng văn bản viết tay tiếng Việt nét liền
được tiến hành theo trình tự chính như sau: tiền
nhận dạng (tiền xử lý, tách dòng, tách từ), nhận
d
ạng từ sử dụng bộ nhận dạng kí tự (trích chọn
đặc trưng ảnh của kí tự và nhận dạng kí tự bằng
mạng neuron) với bộ thống kê ngữ cảnh và cuối
cùng là hậu xử lý (ghép các kí tự nhận dạng
được thành các từ, đoạn văn tương ứng và ghi
ra file output). Khoá luận này trình bày những
nghiên cứu, giải pháp và kết quả mà em đạt
được khi cài đặt các công việc của giai đ
oạn
tiền nhận dạng nhằm xử lý, phân tách trang văn
bản thành các thành phần nhỏ hơn thích hợp
(nearest neighbours) và sử dụng tia quay
(project profile) [3].
Hai phương pháp sử dụng biến đổi Hough và
láng giếng gần nhất cho kết quả có độ chính
xác cao nhưng lại tiêu tốn nhiều thời gian tính
toán của hệ thống. Ph
ương pháp sử dụng tia
quay cho kết quả có độ chính xác tương đối tốt,
đồng thời có tốc độ thực hiện cao, thích hợp với
bài toán nhận dạng chữ viết tay. Em đã lựa
chọn phương pháp này để thực hiện cài đặt.
3. Tách dòng, từ
Sau quá trình tiền xử lý, chúng ta nhận được
một trang văn bản đã được khôi phục và tăng
cường chất lượng. Trang văn bản chúng ta nhận
được thường có rất nhiều vùng miền khác nhau,
cần phải thực hiện việc phân tách thành các
vùng, miền khác nhau. Mỗi vùng miền có thể là
vùng bảng, vùng ảnh, vùng chữ…
Quá trình phân tách trang văn bản thường
được tiến hành theo phương pháp là phân tích
top-down và bottom-up. Đối với phân tích top-
down, một trang văn bản được chia
đoạn từ
thành phần lớn thành các thàh phần nhỏ hơn.
Đối với phân tích bottom-up, người ta thực hiện
phân tích cấu trúc từ các thành phần nhỏ nhất,
sau đó kết hợp thành các thành phần lớn hơn
cho đến khi có được trang văn bản. Trên thực
tế, người ta còn áp dụng kết hợp cả hai phương
từ rất nhều lần. Thậm chí giữa các kí tự trong
cũng một từ không có khoảng cách do thường
dính nhau. Ví thế, để thực hiện việc phân tách
dòng văn bản thành các từ, em sử dụng phương
pháp biểu đồ tần suất theo bề ngang của dòng
văn bản.
4. Nhận dạng từ
Theo cách tiếp cận thông thường, sau khi có
được các từ riêng biệt, mỗi từ sẽ được tách
thành các kí tự khác nhau rồi chuyển cho bộ
nhận dạng kí tự để thực hiện nhận dạng. Tuy
nhiên, cách tiếp cận đó chỉ phù hợp với chữ in
chứ không phù hợp với chữ viết tay do các kí tự
trong một từ của chữ viết tay thường bị dính
liền với nhau. Việc tìm ra một cách tách chính
xác hoàn toàn là khó có thể
thực hiện được.
Đối với vần đề này, em sử dụng phương
pháp nhận dạng như sau : trước hết, tìm tất cả
các vị trí cắt có khả năng trên từ; sau đó, thực
hiện nhận dạng tất cả các từ có thể sinh ra từ
các lát cắt này. Cuối cùng là chọn ra từ có khả
năng nhất [1].
Để tìm ta các vị trí cắt có khả năng trên từ,
em thực hiện k
ết hợp giữa phương pháp biểu đồ
tần suất kết hợp với tìm kiếm các vị trí có
đường cong đặc trưng, điều này đảm bảo rằng
các vị trí cắt đúng không bị bỏ sót.
Nhằm hỗ trợ cho bộ nhận dạng từ trong việc
Thực nhiệm bộ nhận dạng từ với 400 từ
khác nhau cho kết quả 386 từ (chiếm 96.5%)
xác định được đầ
y đủ các vị trí cắt đúng, trong
đó 380/386 từ nhận dạng đúng, 6/386 từ nhận
dạng sai do lỗi của mạng neural và do từ cần
nhận dạng không có trong bộ thống kê ngữ
cảnh.
6. Kết luận
Như vậy, qua khoá luận này em đã nghiên
cứu, cài đặt được một số phương pháp trong
việc tiền nhận dạng (tiền xử lý ảnh, tách dòng,
tách từ) đồng thời cài đặt được bộ nhận dạng từ
với kết quả tương đối khả quan.
Vấn đề cần tiếp tục nghiên cứu : thực hiện
các bước phân vùng với trang văn bản gồm
nhiều thành phầ
n hoàn chỉnh; mở rộng hạn chế
đối với mẫu tiếng Việt có thể phân tích được;
cải thiện thuật toán xác định các vị trí cắt có
khả năng.
Tài liệu tham khảo
[1] Nguyễn Thị Thanh Tân, “Nhận dạng chữ
viết tay hạn chế dựa trên mô hình mạng
neural kết hợp với thống kê ngữ cảnh”,
Luận văn thạc sĩ 2004.
[2] William K.Pratt, “Digital Image
Processing”, John Wiley & Sons 2001.
[3] A. Marcolino, V. Ramos, M Ramalho,
J.Caldas Pinto, “Line and Word Matching