- 42 -
NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG NHẬP TÀI LIỆU TỰ ĐỘNG BẰNG
NHẬN DẠNG QUANG HỌC
Nguyễn Thanh Phúc
MSV: 0220247
Email:[email protected]
Cán bộ hướng dẫn : ThS Đào Kiến Quốc
1. Mở đầu
Nhập dữ liệu tự động đang là bài toán ngày
càng thu hút nhiều sự chú ý vì khả năng áp dụng
rộng rãi vào thực tế cũng như những hiệu quả mà
nó mang lại. Trong hệ thống này, khử nhiễu, khử
nghiêng và phân vùng ảnh là một phần có vai trò
đặc biệt quan trọng. Chức năng của nó là chính
xác ảnh và tách ra các vùng được nhập thông tin
để làm đầu vào cho module nhận dạng chữ. Dựa
trên đặc điểm phân bố có hướng và đồng đều của
form văn bản, chúng tôi đã sử dụng phương pháp
phép chiếu để khử nghiêng ảnh do phương pháp
này đạt được độ chính xác cao đối với những ảnh
có đặc trưng trên. Cũng dựa trên đặc điểm của
kiểu form văn bản là dữ liệu được nhập vào các ô
trên form ( nghĩa là nằm trong giới hạn giữa các
đường thẳng), giải pháp đề ra cho phân vùng là
thông qua việc xác định các đường thẳng kết hợp
với sử dụng hệ tọa độ tương đối để xác định các
vùng nhập dữ liệu. Chúng tôi đã tiến hành thực
bài toán. Bởi vì :
• Phương pháp phép chiếu cho kết quả với
độ chính cao trên các form văn bản thuộc
pham vi của bài toán.
• Có thể thực hiện một số cải tiến để giảm
bớt khối lượng tính toán.
• Dễ hiểu, dễ bảo trì.
b) Giải pháp phân vùng ảnh
Dựa trên đặc điểm của kiểu form nhập dữ
liệu là dữ liệu được nhập vào các ô trên form (
nghĩa là nằm trong gi
ới hạn giữa các đường
thẳng) Chúng tôi đưa ra thuật toán xác định vùng
nhập dữ liệu thông qua việc xác định các đường
thẳng.
Trong phương pháp này, trước tiên chúng
tôi nhận dạng tất cả các đường thẳng có trong
ảnh. Sau đó các đường thẳng này sẽ được đối
chiếu với các đường thẳng có trong form mẫu để
xác định thứ tự chính xác và khử nhiễu. Cuối
cùng sau khi nhận dạng được các đường thẳng,
vùng nhập dữ liệu sẽ được tính thông qua tọa độ
gián tiếp tới các đường thẳng đó. Và bởi vì các
tọa độ gián tiếp này là các tọa độ địa phương nên
độ chính xác trong việc xác định các vùng là rất
cao. - 43 -
4. Thực nghiệm
Tập ảnh thực nghiệm được chia ra làm 2
loại : Loại 1 gồm các ảnh có tập các đường thẳng
với độ dày là 1 pixel và Loại 2 gồm các ảnh có
tập các đường thẳng với độ dày ≥ 2 pixel.
Độ chính xác của phương pháp xác định đường thẳng
DPI Độ chính xác –
Loại 1 (%)
Độ chính xác –
Loại 2 (%)
100 73.35 96.14
150 87.61 98.85
200 91.53 99.15
300 94.11 99.46
Kết quả thực nghiệm cho thấy việc xác định
các đường thẳng cho kết quả chính xác đối với
các trường hợp nằm trong phạm vi của bài toán 5. Kết luận
Trong quá trình nghiên cứu nhiều dạng
Form văn bản cũng như nhiều thuật toán khác
nhau, chúng tôi đã lựa chọn, cải tiến và đưa ra
được một số các giải pháp riêng cũng như cài đặt
thành công các thuật toán về lọc nhiễu, tách nền
và xác định góc nghiêng của ảnh.
Các công việc cần được nghiên cứu tiếp:
• Tích hợp với module nhận dạng chữ viết
tiếng việt.
• Xây module quản trị tài liệu dạng Form.
• Nâng cao hiệu năng và độ chính xác cho