MỤC LỤC
TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ VÀ NHẬN DẠNG 4
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao)
DANH MỤC CÁC TỪ VIẾT TẮT
CSDL Cơ sở dữ liệu
Codeword Mã cung ứng với vectơ hướng
State Trạng thái
Observation Sự quan sát
HMM Hidden Markov Model
CCD Charge Coupled Device
MOS Metal - Oxid - Semiconductor
HSV Hue - Saturation - Value
CIE Commission Internationale d’Eclairage
ORC Optical character Recognizer
MLP MultiLayer Perception
MMI Multimedia Interface
BMW Bayerische Motoren Werke AG
IBM International Business Machines
LR Left-Right
LRB Left-Right Banded
RGB Red, Green, Blue
2D Two Dimension
3D Three Dimension
DANH MỤC CÁC HÌNH
Số hiệu
hình
Tên hình Trang
1.1. Các bước chính trong xử lý ảnh số. 5
1.2. Một tụ điện MOS. 6
1.3. Mặt nạ bộ lọc trung bình. 8
1.4. Các bước trong thuật toán lọc trung vị. 9
3.6. Mẫu chữ in hoa. 50
3.7. Chữ viết mất nét. 51
3.8. Chữ viết các nét không liền nhau. 51
3.9. Chữ viết lệch nét. 51
3.10. Vectơ định hướng. 57
3.11. Hai điểm gần nhau trên ký tự tạo thành đoạn thẳng lệch so
với phương ngang gốc
θ
.
57
3.12. Cấu trúc liên kết HMM với 3 trạng thái. 58
3.13. Mẫu ký tự với các phân đoạn. 59
3.14. Phân đoạn đường thẳng cho cấu trúc liên kết HMM. 60
3.15. Quá trình nhận dạng một ký tự. 61
3.16. Lưu đồ giải thuật trích lọc đặc trưng. 65
3.17. Lưu đồ giải thuật huấn luyện mẫu chữ viết tay. 66
3.18. Lưu đồ giải thuật nhận dạng. 67
3.19. Sơ đồ chương trình thực nghiệm. 68
3.20. Giao diện chương trình nhận dạng chữ viết tay. 68
3.21. Kết quả của quá trình trích rút đặc trưng. 70
3.22. Chức năng nhập dữ liệu. 71
3.23. CSDL của chương trình thực nghiệm 71
3.24. Mô hình Markov ẩn. 72
3.25 Chức năng nhận dạng chữ viết tay. 73
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được
ai công bố trong bất kỳ công trình nào khác.
Tác giả
Nguyễn Thị Hà Phương
3. Đối tượng và phạm vi nghiên cứu
o Đối tượng:
- Mô hình HMM.
- Chữ viết tay.
- Các kỹ thuật nhận dạng chữ viết tay.
o Phạm vi nghiên cứu:
- Nghiên cứu mô hình HMM.
- Ứng dụng mô hình HMM trong nhận dạng chữ viết tay trên một số
mẫu chữ.
4. Phương pháp nghiên cứu
o Nghiên cứu lý thuyết:
- Tham khảo tài liệu trên mạng về một số phương pháp xử lý chữ viết
tay (chủ yếu là HMM).
- Tìm hiểu lập trình bằng Matlab.
- Nghiên cứu bài toán nhận dạng chữ viết tay.
- Tìm hiểu các kỹ thuật nhận dạng chữ viết tay.
o Nghiên cứu thực nghiệm:
- Dựa trên cơ sở lý thuyết xử lý ảnh, mô hình HMM và sự hướng dẫn
của giáo viên để thực hiện việc phân tích và cài đặt thực nghiệm nhận dạng
chữ viết tay.
- So sánh và đánh giá kết quả đạt được.
5. Bố cục đề tài
- Tổng quan về xử lý ảnh số và nhận dạng.
2
- Các phương pháp xử lý nhận dạng chữ viết tay.
- Cài đặt thực nghiệm nhận dạng chữ viết tay bằng Hidden Markov
Model.
6. Tổng quan tài liệu nghiên cứu
Tìm hiểu:
- Tài liệu về mô hình Markov ẩn.
Năm 1964, máy tính đã có khả năng xử lý và nâng cao chất lượng ảnh từ mặt
trăng và vệ tinh Ranger 7 của Mỹ bao gồm: làm nổi đường biên, lưu ảnh.
4
Những năm 1970, xử lý ảnh bắt đầu được ứng dụng trong các lĩnh vực y
tế. Từ những năm 1980 tới nay, các phương tiện xử lý, nâng cao chất lượng,
nhận dạng ảnh phát triển không ngừng. Các phương pháp tri thức nhân tạo
như mạng nơron nhân tạo, các thuật toán xử lý hiện đại và cải tiến, các công
cụ nén ảnh ngày càng được áp dụng rộng rãi và thu nhiều kết quả khả quan.
1.2. TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ
Các bước chính trong xử lý ảnh số được thể hiện ở hình 1.1.
Hình 1.1. Các bước chính trong xử lý ảnh số.
1.2.1. Thu nhận ảnh
Đây là giai đoạn đầu và quan trọng trong toàn bộ quá trình xử lý ảnh.
Ảnh nhận được tại đây chính là ảnh đầu vào để đưa vào xử lý tiếp tại các giai
đoạn sau, trường hợp ảnh đầu vào có chất lượng kém, hiệu quả của các bước
xử lý tiếp theo sẽ bị giảm. Ảnh có thể nhận qua camera màu hoặc đen trắng.
Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống chuẩn CCIR
với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hóa (như loại
CCD – Change Coupled Device) là loại photodiot tạo cường độ sáng tại mỗi
điểm ảnh. Camera thường dùng là loại quét dòng, ảnh tạo ra có dạng hai
5
Xử lý mức cao
Xử lý mức trung bình
Kết luận
(Result)
Miền vấn
đề
(Problem
domain)
Xử lý mức thấp
đóng vai trò là một điểm ảnh (pixel) có địa chỉ (x,y) rõ ràng. Các điện tích
chứa trong các tụ điện của CCD được lần lượt chuyển đến thanh đọc để đọc
và chuyển về bộ nhớ, ghi lại tụ điện ở vị trí nào, được tích điện nhiều hay ít.
Hình 1.2. Một tụ điện MOS.
1.2.2. Tiền xử lý ảnh
Ảnh sau khi được thu nhận từ các thiết bị quang học (CCD) hoặc thiết bị
điện tử có thể bị nhiễu và biến dạng. Do đó, ảnh cần được đưa vào bộ tiền xử
MOS
Depletion
region
Ảnh
sáng
Ground
6
lý để nâng cao chất lượng ảnh. Chức năng chính của bước tiền xử lý ảnh là
khử nhiễu, nâng cao độ tương phản, hiệu chỉnh mức xám để làm ảnh rõ hơn
và nét hơn cho các bước tiếp theo.
a. Khử nhiễu
Nhiễu của ảnh gồm 2 loại: nhiễu hệ thống và ngẫu nhiên. Hai loại nhiễu
này khác nhau về bản chất nên việc phát hiện và khử nhiễu cũng được tiến
hành theo các phương pháp và các kỹ thuật khác nhau.
o Khử nhiễu hệ thống
Đặc trưng của nhiễu hệ thống là có tính qui luật do ảnh hưởng của một
tín hiệu nào đó trong quá trình thu nhận ảnh. Có thể loại bỏ nhiễu này bằng
cách sử dụng các phép biến đổi Fourier. Tính chất chung của phép biến đổi
Fourier là nếu có nhiễu hệ thống trên ảnh thì sau khi khử nhiễu và áp dụng
phép biến đổi Fourier ngược chúng ta sẽ thu lại được ảnh ban đầu đã loại trừ
được nhiễu hệ thống.
o Khử nhiễu ngẫu nhiên
Nhiễu ngẫu nhiên được sinh ra một cách ngẫu nhiên ngoài ý muốn trong
số của các điểm lân cận và được định nghĩa như sau:
∑ ∑
∈
−−=
Hji
jviuIjiHvuI
),(
'
),(),((),(
(1.2)
Trong đó: I(u, v) là ảnh đầu vào, I
’
(u, v) là ảnh đầu ra và H(i, j) là cửa sổ
lọc/ mặt nạ bộ lọc.
8
1 1 1
1 (x,y
)
1
1 1 1
(x-1, y-1) (x, y-1) (x+1, y-1)
(x-1, y) (x, y) (x+1, y)
(x-1, y+1) (x, y+1) (x+1,y+1)
Hình 1.3. Mặt nạ bộ lọc trung bình.
Bộ lọc trung bình thường được dùng để hướng tới việc bảo vệ biên của
ảnh khỏi bị mờ khi làm trơn ảnh. Các kiểu mặt nạ được sử dụng tùy theo các
trường hợp khác nhau.
o Lọc trung vị - Median filter
Đây là một kỹ thuật lọc phi tuyến (non-linear), hiệu quả đối với hai loại
Các đường biên và nhiễu trong ảnh tập trung nhiều vào phần tần số cao
của phép biến đổi Fourier của nó. Do đó, để làm trơn ảnh bằng phương pháp
miền tần số chúng ta có thể loại bỏ các thành phần tần số cao trong biến đổi
Fourier của ảnh.
3
7
2
1
0
0
9
5
8
Sắp xếp
3
7
2
1
0
0
9
5
8
Pk-1
Pk+1
Pk=median
P0
P2k
3 7 2
1 0 0
11
ảnh được thực hiện thông qua việc kiểm tra biểu đồ mức xám. Các thuật toán
phân đoạn ảnh đều dựa trên tính không liên tục hoặc tính tương tự của các giá
trị mức xám của ảnh.
Tính không liên tục của các giá trị mức xám trong ảnh cho chúng ta thấy
có sự thay đổi đột ngột về cường độ sáng trong ảnh. Phân đoạn ảnh có thể
thực hiện bởi ba kỹ thuật cơ bản: phân đoạn ảnh dựa trên ngưỡng, dựa trên
biên và dựa trên vùng.
o Phân đoạn ảnh dựa trên ngưỡng
Các kỹ thuật phân đoạn ảnh dựa trên ngưỡng hầu hết đều dựa vào lược đồ
mức xám của ảnh để tính toán ngưỡng. Việc tính toán ngưỡng bao hàm việc xác
định một tập các giá trị ngưỡng (có thể là một hoặc nhiều giá trị ngưỡng), dựa
vào giá trị ngưỡng để phân tách ảnh ra thành những vùng có ý nghĩa.
(a)
(b)
Hình 1.5. Phân đoạn ảnh dựa trên ngưỡng của lược đồ mức xám:
(a) Sử dụng một ngưỡng T, (b) Sử dụng hai ngưỡng T1 và T2.
Giả sử chúng ta có lược đồ mức xám của một ảnh như hình 1.5a, dựa vào
lược đồ mức xám này chúng ta có thể nhận thấy rằng ảnh này có hai nhóm
mức xám. Một nhóm thể hiện giá trị mức xám của đối tượng và nhóm còn lại
thể hiện giá trị mức xám của nền, ngưỡng T chính là giá trị để tách biệt đối
tượng ra khỏi nền. Do đó, bất kì giá trị của điểm ảnh f(x, y) nào của ảnh mà có
giá trị lớn hơn T thì được gọi là điểm thuộc đối tượng, ngược lại gọi là điểm
thuộc nền của đối tượng.
12
Thuật toán tách ngưỡng Otsu vào năm 1979 là một trong những thuật
toán lấy ngưỡng toàn cục T được đề xuất từ rất sớm và hiệu quả để tách đối
tượng ra khỏi nền.
là phương pháp phát hiện biên dựa vào sự biến thiên về giá trị độ sáng của
điểm ảnh (phương pháp đạo hàm) và phương pháp phát hiện biên dựa vào sự
13
T
biến thiên nhỏ và đồng đều về độ sáng của các điểm ảnh thuộc đối tượng
(phương pháp xử lý kết cấu của đối tượng).
Phương pháp phát hiện biên sử dụng đạo hàm có thể kể tới là: phương
pháp đạo hàm bậc nhất (phương pháp Gradient) và phương pháp đạo hàm bậc
hai (phương pháp Laplace). Phương pháp Gradient (ví dụ: sử dụng toán tử
Prewitt, Sobel, Robert ) và kỹ thuật la bàn (ví dụ: sử dụng toán tử la bàn
Kirsh, toán tử la bàn Prewitt ).
14
Ảnh gốc Phương pháp
Laplace
Phương pháp
GradientHình 1.7. Một số phương pháp tìm biên.
Ngoài ra còn có một số phương pháp phát hiện biên khác khắc phục
được những điểm yếu của hai phương pháp phát hiện biên ở trên và giải quyết
các ràng buộc trong việc phát hiện biên như: mức lỗi, định vị và hiệu suất của
phương pháp. Một trong những phương pháp hiệu quả đó là phương pháp
Canny do John Canny đề xuất vào năm 1986.
Phương pháp phát hiện biên xử lý kết cấu đối tượng hay còn gọi là
phương pháp phát hiện biên gián tiếp là phương pháp dựa vào phép xử lý kết
cấu của đối tượng, cụ thể là dựa vào sự biến thiên và đồng đều độ sáng của
các điểm ảnh thuộc một đối tượng. Nếu các vùng của ảnh được xác định thì
đường ranh giới giữa các vùng đó chính là biên cần tìm.
o Phân đoạn ảnh dựa trên vùng
1.3.1. Màu trong xử lý ảnh số
Sử dụng màu trong xử lý được thúc đẩy bởi các yếu tố:
- Màu sắc giúp chúng ta nhận diện các đối tượng đơn giản hơn và
khai thác được nhiều thông tin từ ảnh màu.
- Hệ thống thị giác của con người có thể cảm nhận, phân biệt được
hàng nghìn màu và cường độ sáng khác nhau. Những yếu tố này là
16
những thuộc tính tự nhiên quan trọng để chúng ta có thể phân tích
ảnh.
Xử lý ảnh màu được chia làm 2 phạm vi chính: xử lý toàn màu (full
color) và xử lý giả màu (pseudo color).
Trong phạm vi thứ nhất, các ảnh thường được thu nhận bằng các bộ cảm
biến màu, như máy quét ảnh màu, TV, Camera màu.
Trong phạm vi thứ hai, một ảnh màu được tách thành các kênh màu có
cường độ sáng đơn hoặc khoảng cường độ sáng.
Hiện nay, các loại xử lý ảnh màu được thực hiện theo cách thứ hai, tức là
từ ảnh màu sẽ tiến hành chuyển đổi và tách ảnh màu sang một không gian
màu khác với các kênh màu có cường độ sáng đơn hoặc ảnh có cường độ sáng
nằm trong một khoảng nào đó ví dụ như ảnh xám (0 - 255), ảnh nhị phân (0
và 1), ảnh màu bao gồm các kênh màu (ví dụ như từng kênh màu của không
gian màu RGB: R, G, B) hoặc kết hợp 2 kênh màu.
Hình 1.8. Bước sóng trong quang phổ con người nhìn thấy được.
Các thuộc tính của màu sắc thường dùng để phân biệt bằng mắt thường
là: độ sáng (Brightness), độ bão hòa (Saturation) và sắc độ (Hue). Hầu hết các
nguồn sáng mà chúng ta nhìn thấy có chứa năng lượng trong một dải bước
sóng của ánh sáng. Hue là bước sóng (Wavelength) trong dải quang phổ mà
chúng ta có thể nhìn thấy ánh sáng, tại đó lượng năng lượng từ nguồn sáng
phát ra là lớn nhất. Độ bão hòa là một thể hiện cho dãi tần có thể nhìn thấy từ
17
nguồn sáng. Trong hình 1.8, độ bão hòa được đại diện bởi độ dốc của sườn
- Hit: điểm ảnh bất kì trên phần tử cấu trúc cho phủ một điểm ảnh
trên ảnh.
Phần tử cấu trúc (Structuring element): đôi khi được gọi là một nhân
(Kernel). Trong không gian 2D hay không gian phẳng, phần tử cấu trúc bao
gồm một ma trận 0 và 1, thường có kích thước nhỏ hơn nhiều so với ảnh được
xử lý. Các điểm trung tâm của phần tử cấu trúc được gọi là điểm gốc, xác
định các điểm ảnh được xử lý, kiểu phần tử cấu trúc này còn được gọi là phần
tử cấu trúc phẳng. Các điểm ảnh trong phần tử cấu trúc có giá trị bằng 1 xác
định vùng lân cận của phần tử cấu trúc. Trong không gian 3D hay không gian
không phẳng (non-flat), các phần tử cấu trúc sử dụng các giá trị 0 và 1 để xác
định phạm vi của phần tử cấu trúc trong mặt phẳng x, mặt phẳng y và thêm
giá trị độ cao để xác định chiều thứ ba, kiểu phần tử cấu trúc này còn được
gọi là phần tử cấu trúc không phẳng. Các phần tử cấu trúc thường được quy
định theo một hình dáng và có kích thước khác nhau. Một số hình dáng của
phần tử cấu trúc thuộc về phần tử cấu trúc phẳng: chữ nhật, hình tròn, elip,
hình thoi Trong khi đó hình dáng: quả bóng (ball) và tùy ý thuộc về phần tử
cấu trúc không phẳng.
19
Hình 1.10. Một số hình dáng của phần tử cấu trúc phẳng.
Về cơ bản, xử lý hình thái học giống với lọc không gian ảnh. Phần tử cấu
trúc dịch qua mỗi điểm ảnh trên ảnh ban đầu và tạo ra điểm ảnh mới sau khi
xử lý. Giá trị của điểm ảnh mới phụ thuộc vào thao tác thực hiện. Phần lớn
các phép toán hình thái học được định nghĩa từ hai phép toán cơ bản là phép
toán co (Erosion) và giãn (Dilation) ảnh nhị phân.
1.4.2. Phép co và giãn ảnh nhị phân
a. Phép co ảnh (Erosion)
Xét tập hợp A và tập hợp B trong, thì phép co ảnh nhị phân của tập hợp
A bởi phần tử cấu trúc B được kí hiệu A B và viết dưới dạng công thức 1.7:
A B =
{ }