Nghiên cứu các kỹ thuật xử lý ảnh phục vụ việc nâng cao chất lượng nhận dạng tiếng việt - Pdf 31

ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN

NGUYỄN XUÂN CƯỜNG

NGHIÊN CỨU CÁC KỸ THUẬT XỬ LÝ ẢNH PHỤC VỤ
VIỆC NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG VIỆT

LUẬN VĂN THẠC SĨ

Hà Nội - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN

NGUYỄN XUÂN CƯỜNG

NGHIÊN CỨU CÁC KỸ THUẬT XỬ LÝ ẢNH PHỤC VỤ
VIỆC NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG VIỆT
Ngành: Công nghệ Thông tin
Chuyên ngành: Quản lý Hệ thống Thông tin
Mã số: Chuyên ngành đào tạo thí điẻm

LUẬN VĂN THẠC SĨ

NGƯỜ I HƯỚNG DẪN KHOA HỌC: Ts. Vũ Duy Linh

Hà Nội – 2015





3

MỤC LỤC
BẢNG KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT ...............................................................................................6
MỞ ĐẦU........................................................................................................................................................7
CHƯƠNG 1 – TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ THƯ VIỆN OPENCV ...............................................9
1.1 Giới thiệu về xử lý ảnh .........................................................................................................................9
1.1.1 Phần thu nhận ảnh .......................................................................................................................10
1.1.2 Tiền xử lý ....................................................................................................................................10
1.1.3 Phân đoạn ảnh (phân vùng ảnh) ..................................................................................................11
1.1.4 Biểu diễn và mô tả .......................................................................................................................11
1.1.5 Nhận dạng và nội suy ..................................................................................................................11
1.1.6 Cơ sở tri thức ...............................................................................................................................11
1.2 Những vấn đề cơ bản trong hệ thống xử lý ảnh .................................................................................12
1.2.1 Điểm ảnh .....................................................................................................................................12
1.2.2 Độ phân giải của ảnh ...................................................................................................................13
1.2.3 Mức xám của ảnh ........................................................................................................................13
1.2.4 Định nghĩa ảnh số........................................................................................................................13
1.2.5 Mối liên hệ giữa các điểm ảnh ....................................................................................................14
1.3 Những vấn đề khác trong xử lý ảnh ...................................................................................................14
1.3.1 Biến đổi ảnh ................................................................................................................................14
1.3.2 Nén ảnh .......................................................................................................................................15
1.4 Một số phương pháp biểu diễn ảnh ....................................................................................................15
1.4.1 Mã loạt dài...................................................................................................................................15
1.4.2 Mã xích........................................................................................................................................15
1.4.3 Mã tứ phân ..................................................................................................................................16
1.5 Thư viện OpenCV ..............................................................................................................................16
1.5.1 Tổng quan....................................................................................................................................16

3.2.2 Xử lý đường kẻ ô trong văn bản ..................................................................................................46
3.2.3 Xử lý tăng DPI cho văn bản ........................................................................................................47
3.3 Mã chương trình .................................................................................................................................48
3.3.1 Đưa ảnh màu về đa mức xám ......................................................................................................48
3.3.2 Tăng độ nét ..................................................................................................................................49
3.3.3 Tăng độ sáng ...............................................................................................................................51
3.3.4 Tăng độ tương phản ....................................................................................................................53
3.3.5 Loại bỏ phông nền .......................................................................................................................54
3.3.6 Loại bỏ nhiễu...............................................................................................................................56
3.3.7 Tăng DPI .....................................................................................................................................58
3.3.8 Xóa đường kẻ ô ...........................................................................................................................59
3.4 Hình ảnh triển khai chương trình .......................................................................................................62


5
CHƯƠNG 4 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...........................................................................64
4.1 Kết luận ..............................................................................................................................................64
4.2 Hướng phát triển ................................................................................................................................64
TÀI LIỆU THAM KHẢO ............................................................................................................................65


6

BẢNG KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT
Ký hiệu
OCR

Ý nghĩa
Optical Character Recognition
Nhận dạng ký tự bằng quang học

Với mục đích như trên luận văn có những nội dung như sau:
- Luận văn tổng hợp lý thuyết về xử lý ảnh – giải pháp nâng cao chất lượng
hình ảnh phục vụ cho nhận dạng, cụ thể ở đây là nhận dạng tiếng Việt.
- Luận văn mô tả một số phương pháp xử lý ảnh. Nền tảng lý thuyết này sẽ
được triển khai thử nghiệm trong luận văn này.


8

- Luận văn đã mô tả từng bước triển khai xử lý ảnh, đưa ra kết quả sau khi xử
lý.
Cấu trúc luận văn
Với mục tiêu xây dựng ứng dụng tiền xử lý ảnh phục vụ cho nhận dạng, luận
văn được chia làm bốn chương:
Chương 1: Tổng quan về tiền xử lý ảnh và thư viện OpenCV
Chương này giới thiệu về các khái niệm trong xử lý ảnh, giới thiệu qua về thư
viện xử lý ảnh OpenCV.
Chương 2: Một số phương pháp tiền xử lý nâng cao chất lượng ảnh
Từ các khái niệm xử lý ảnh được đưa ra ở Chương I, chương này giới thiệu một
số phương pháp tiền xử lý ảnh như: nhị phân hóa, tăng cường độ sáng, tăng cường
độ tương phản, loại bỏ phông nền, khử nhiễu, …
Chương 3: Triển khai chương trình và kết quả
Chương này giới thiệu về chương trình đã được triển khai, các bước thực hiện
và các kết quả của mỗi bước đạt được.
Chương 4: Kết luận và hướng phát triển
Chương này tôi tổng kết lại các kết quả và các đóng góp mà việc thực hiện đề
tài đem lại. Ngoài ra, tôi cũng đề xuất các phương hướng nghiên cứu tiếp theo,
nhằm giúp cho đề tài trở lên hoàn thiện hơn.




10

Đầu tiên ảnh tự nhiên từ thế giới ngoài được thu nhận qua các thiết bị thu (như
Camera, máy chụp ảnh, scan, …). Trước đây, các tấm ảnh thu được qua máy chụp
hình với phim âm bản, không có tác dụng trong xử lý ảnh. Gần đây, với sự phát
triển của công nghệ, ảnh màu hoặc đen trắng được lấy ra từ Camera, sau đó nó
được chuyển trực triếp thành ảnh số tạo thuận lợi cho xử lý tiếp theo – máy ảnh số,
chụp qua điện thoại … là những ví dụ gần gũi. Mặt khác, ảnh cũng có thể tiếp nhận
từ vệ tinh, có thể quét từ ảnh chụp bằng máy quét ảnh. Hình 1.1 dưới dây mô tả các
bước cơ bản trong xử lý ảnh.

Thu nhận
ảnh

Tiền xử
lý ảnh

Phân
đoạn ảnh

Biểu diễn
và mô tả

Nhận dạng
và nội suy

Cơ sở tri thức

Hình 1.1 Các bước cơ bản trong xử lý ảnh

Như đã nói ở trên, ảnh là một đối tượng khá phức tạp về đường nét, độ sáng tối,
tương phản, dung lượng điểm ảnh, môi trường để thu ảnh phong phú kéo theo
nhiễu. Trong nhiều khâu xử lý và phân tích ảnh ngoài việc đơn giản hóa các
phương pháp toán học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt chước
quy trình tiếp nhận và xử lý ảnh theo cách của con người. Trong các bước xử lý đó,
nhiều khâu hiện nay đã xử lý theo phương pháp trí tuệ con người.


12

Cảnh quan

Thu
ảnh

Nén
ảnh

Truyền
ảnh

Lưu
ảnh

Ảnh được
cải tiến

Trích
chọn
đặc

trúc

Mô tả và
nội suy

Xử lý ảnh

Nhận dạng – biểu diễn

Hình 1.2 Quá trình xử lý ảnh
1.2Những vấn đề cơ bản trong hệ thống xử lý ảnh
1.2.1 Điểm ảnh
Ảnh gốc (ảnh tự nhiên) là ảnh liên tục về không gian và độ sáng. Để xử lý bằng
máy tính (số), ảnh cần phải được số hóa. Số hóa ảnh là sự biến đổi gần đúng một
ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí (không gian) và độ
sáng (mức xám). Khoảng cách giữa các điểm ảnh đó được thiết lập sao cho mắt
người không phân biệt được ranh giới giữa chúng. Mỗi một điểm như vậy gọi là
điểm ảnh, hay được gọi tắt là Pixel. Trong ảnh hai chiều, mỗi pixel ứng với cặp tọa
độ (x,y).
Định nghĩa:
Điểm ảnh (Pixel) là một phần tử của ảnh số tại tọa độ (x,y) với độ xám hoặc
màu nhất định. Kích thước và khoảnh cách giữa các điểm ảnh đó được chọn thích
hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu)
của ảnh số gần như ảnh thật. Mỗi phần tử trong ma trận được gọi là một phần tử
ảnh.


13

1.2.2 Độ phân giải của ảnh

cặp điểm ảnh có quan hệ với nhau ký hiệu là p, q. Chúng ta có các khái niệm sau:
- Các lân cận của điểm ảnh
- Các mối liên kết điểm ảnh: liên kết 4, 8, liên kết m – liên kết hỗn hợp.
- Khoảng cách giữa các điểm ảnh

Bộ nhớ

Đầu đo

Bộ số hóa

Máy tính số
Bộ hiển thị

Hình 1.3 Các thành phần chính của hệ thống xử lý ảnh
Ảnh mức xám được áp dụng trong nhiều lĩnh vực như sinh vật học hoặc trong
công nghiệp. Thực tế chỉ ra rằng bất kỳ ứng dụng nào trên ảnh, mức xám cũng ứng
dụng được trên ảnh màu. Với lý do đó, hệ thống ban đầu nên chỉ bao gồm các thiết
bị thu nhận và hiển thị ảnh đen trắng.
1.3Những vấn đề khác trong xử lý ảnh
1.3.1 Biến đổi ảnh
Trong xử lý ảnh do số điểm ảnh lớn các tính toán nhiều (độ phức tạp tính toán
cao) đòi hỏi dung lượng bộ nhớ lớn, thời gian tính toán. Các phương pháp khoa học
kinh điển áp dụng cho xử lý ảnh hầu hết khó khả thi. Người ta sử dụng các phép
toán tương đương hoặc biến đổi sang miền xử lý khác để dễ tính toán. Sau khi xử lý
dễ dàng hơn được thực hiện, dùng biến đổi ngược để đưa về miền xác định ban đầu,
các biến đổi thường gặp trong xử lý ảnh gồm:


15


Hình 1.4. Hướng các điểm biên và mã tương ứng:
A11070110764545432
1.4.3 Mã tứ phân
Theo phương pháp này, một vùng ảnh coi như bao kín một hình chữ nhật.
Vùng này được chia làm 4 vùng con (Quadrant). Nếu 1 vùng con gồm toàn điểm
đen (1) hay toàn điểm trắng (0) thì không cần chia tiếp. Trong trường hợp ngược
lại, vùng con gồm cả điểm đen và điểm trắng gọi là vùng không đồng nhất, ta tiếp
tục chia thành 4 vùng con tiếp và kiểm tra tính đồng nhất của các vùng con đó. Quá
trình chia dừng lại khi mỗi vùng con chỉ chứa thuần nhất điểm đen hoặc điểm
trắng. Quá trình đó tạo thành một cây chia theo bốn phần gọi là cây tứ phân. Như
vậy, cây biểu diễn ảnh gồm một chuỗi các ký hiệu b (black), w (white) và g (grey)
kèm theo ký hiệu mã hóa 4 vùng con. Biểu diễn theo phương pháp này ưu việt hơn
so với các phương pháp trên, nhất là so với mã loạt dài. Tuy nhiên, để tính toán số
đo các hình như chu vi, mô men là tương đối khó khăn.
1.5 Thư viện OpenCV
1.5.1 Tổng quan
OpenCV (Open Source Computer Vision) là một thư viện mã nguồn mở về thị
giác máy với hơn 500 hàm và hơn 2500 các thuật toán đã được tối ưu về xử lý ảnh,
và các vấn đề liên quan tới thị giác máy. OpenCV được thiết kế một cách tối ưu, sử
dụng tối đa sức mạnh của các dòng chip đa lõi … để thực hiện các phép tính toán
trong thời gian thực, nghĩa là tốc độ đáp ứng của nó có thể đủ nhanh cho các ứng
dụng thông thường.
Thư viện OpenCV được viết trên nền tảng C++, C, Python và Java để có thể
chạy được trên nhiều nền tảng khác nhau, nghĩa là có thể chạy trên hệ điều hành
Window, Linux, Mac, iOS, Android. Việc sử dụng thư viện OpenCV tuân theo quy


17


(warping), thay đổi hiệu ứng của ảnh.
- Cách thức tạo và phân tích ảnh nhị phân
Ảnh nhị phân thường xuyên được sử dụng trong các hệ thống kiểm tra có
khuyết điểm hình dạng hoặc các bộ phận quan trọng. Sự biểu diễn ảnh cũng rất
thuận tiện khi chúng ta biết rõ vật thể cần bắt.
- Cách thức cho tính toán thông tin 3D (method for computin 3D information)
Những hàm này rất có ích khi cần sắp xếp và xác định với một khối lập thể
(with a stereo rig) hoặc với không gian nhìn phức tạp (multiple views) từ một
camera riêng.
- Các phép toán cho xử lý ảnh, thị giác máy và biểu diễn ảnh (image interpretation)
OpenCV sử dụng các phép toán phổ biến như: đại số học, thống kê và hình học.
- Đồ họa
Những giao diện này giúp bạn viết chữ và vẽ trên hình ảnh. Thêm vào đó
những chức năng này sử dụng nhiều trong ghi nhãn và đánh dấu.
- Phương thức GUI
OpenCV bao gồm cửa sổ giao diện của chính bản thân nó. Trong khi đó những
giao diện này được so sánh giới hạn với khả năng có thể thực hiện trong mỗi môi
trường. Chúng cung cấp những môi trường API đa phương tiện và đơn giản để hiển
thị hình ảnh, cho phép người dùng nhập dữ liệu thông qua chuột, bàn phím và điều
khiển quá trình.
- Cấu trúc dữ liệu và giải thuật


19

Với những giao diện này bạn có thể giữ lại, tìm kiếm và lưu các danh mục điều
khiển, các tuyển tập (cũng như các tập lệnh được gọi), đồ họa và sơ đồ nhánh một
cách hiệu quả.
- Khả năng tồn tại lâu dài của dữ liệu (Data persistence)
Những phương pháp này cung cấp các giao diện một cách thuận lợi để lưu trữ

PythonMagick (Python), RMagick (Ruby), hoặc TclMagick (Tcl / TK). Với một
giao diện ngôn ngữ sử dụng ImageMagick để sửa đổi hoặc tạo ra hình ảnh động và
Automagically.
ImageMagick được cung cấp như một phần mềm miễn phí hoặc là mã nguồn
để bạn có thể tự do sử dụng.
Một phần nhỏ trong luận văn có sử dụng đến ImageMagick, nội dung này sẽ
được đề cập đến trong phần triển khai chương trình.


21

CHƯƠNG 2 – MỘT SỐ PHƯƠNG PHÁP TIỀN XỬ LÝ NÂNG CAO CHẤT
LƯỢNG ẢNH
2.1 Cải thiện ảnh sử dụng các toán tử điểm
Nâng cao chất lượng là bước cần thiết trong xử lý ảnh nhằm hoàn thiện một số
đặc tính của ảnh. Nâng cao chất lượng ảnh gồm hai công đoạn khác nhau: tăng
cường ảnh và khôi phục ảnh. Tăng cường ảnh nhằm hoàn thiện các đặc tính của
ảnh như:
- Lọc nhiễu, làm trơn ảnh.
- Tăng độ tương phản, điều chỉnh mức xám của ảnh.
- Làm nổi biên ảnh.
Các thuật toán triển khai việc nâng cao chất lượng ảnh hầu hết dựa trên các kỹ
thuật trong miền điểm, không gian và tần số. Toán tử điểm là phép biến đổi đối với
từng điểm ảnh đang xét, không liên quan đến các điểm lân cận khác, trong khi đó,
toán tử không gian sử dụng các điểm lân cận để quy chiếu tới điểm ảnh đang xét.
Một số phép biến đổi có tính toán phức tạp được chuyển sang miền tần số để thực
hiện, kết quả cuối cùng được chuyển trở lại miền không gian nhờ các biến đổi
ngược.
Khái niệm về toán tử điểm
Xử lý điểm ảnh thực chất là biến đổi giá trị của một điểm ảnh dựa vào giá trị

hoặc do tính không tuyến tính hay biến động nhỏ của bộ cảm nhận ánh sáng. Để
điều chỉnh lại độ tương phản của ảnh, cần điều chỉnh lại biên độ trên toàn dải hay
trên vùng có giới hạn bằng cách biến đổi tuyến tính biên độ đầu vào (dùng hàm
biến đổi là hàm tuyến tính) hay phi tuyến (hàm mũ hay hàm logarit). Khi dùng hàm
tuyến tính các độ dốc α ,β ,γ phải chọn lớn hơn một trong miền cần dãn. Các tham
số a và b (các cận) có thể chọn khi xem xét lược đồ xám của ảnh. Chú ý, nếu dãn
độ tương phản bằng hàm tuyến tính ta có:
α =β = γ = 1
α ,β ,γ > 1
α ,β ,γ < 1

ảnh kết quả trung với ảnh gốc
dãn độ tương phản
co độ tương phản

(2.3)


23

Hình 2.1 Dãn độ tương phản
Hàm mũ thường được dùng để dãn độ tương phản. Hàm có dạng:
f(u) = (X[m, n])p

(2.4)

với p là bậc thay đổi, thường chọn bằng 2.
2.1.2 Tách nhiễu và phân ngưỡng

(2.5)


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status