ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
PHẠM THỊ THÙY
NGHIÊN CỨU PHƢƠNG PHÁP PHÁT HIỆN
BIÊN ẢNH MẦU BẰNG WAVELET LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2012
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Lớp: Cao học Công nghệ thông tin K9A
Khoá học: 2010 - 2012
Chuyên ngành: Khoa học máy tính
Mã số chuyên ngành: 60 48 01
Cơ sở đào tạo: Trƣờng Đại học Công nghệ thông tin và Truyền thông Thái
Nguyên
Giáo viên hƣớng dẫn: PGS.TS Ngô Quốc Tạo
Cơ quan công tác: Trƣờng Đại học Sƣ phạm – Đại học Thái Nguyên.
Tôi xin cam đoan toàn bộ nội dung đƣợc trình bày trong bản luận văn
này là kết quả tìm hiểu và nghiên cứu của riêng tôi, trong quá trình nghiên
cứu luận văn “Nghiên cứu phương pháp phát hiện biên ảnh màu bằng
wavelet” các kết quả và dữ liệu đƣợc nêu ra là hoàn toàn trung thực. Mọi
thông tin trích dẫn đều đƣợc tuân theo luật sở hữu trí tuệ, có liệt kê rõ ràng
các tài liệu tham khảo.
Tôi xin chịu hoàn toàn trách nhiệm với những nội dung đƣợc viết trong
luận văn này.
Thái Nguyên, ngày 10 tháng 09 năm 2012
HỌC VIÊN
PHẠM THỊ THÙY
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ii
LỜI CẢM ƠN
Luận văn đƣợc thực hiện tại Trƣờng Đại học Công nghệ Thông tin và
Danh mục các hình vẽ vii
MỞ ĐẦU 1
1. Lý do lựa chọn đề tài 1
2. Mục tiêu nghiên cứu 1
3. Phạm vi nghiên cứu 1
4. Phƣơng pháp nghiên cứu 2
5. Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài 2
6. Cấu trúc của luận văn 2
CHƢƠNG 1: TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ PHƢƠNG PHÁP PHÁT
HIỆN BIÊN CHO ẢNH MÀU 3
1.1. Tổng quan về xử lý ảnh 3
1.1.1. Khái niệm xử lý ảnh 3
1.1.2. Các giai đoạn trong quá trình xử lý ảnh 3
1.1.3. Một số vấn đề cơ bản trong xử lý ảnh 5
1.1.3.1. Các khái niệm 5
1.1.3.2. Biểu diễn ảnh 8
1.1.3.3. Phân tích ảnh 9
1.1.3.4. Nhận dạng ảnh 10
1.1.3.5. Nén ảnh 10
1.2. Biên ảnh và vai trò của biên trong phân tích ảnh 11
1.2.1. Vị trí của biên trong phân tích ảnh 11
1.2.2. Biên và các kiểu biên đơn giản 11
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iv
1.2.2.1. Biên lý tƣởng 12
1.2.2.2. Biên dốc 13
1.2.2.3. Biên không trơn 14
1.3. Các hệ màu và biểu diễn ảnh màu 15
2.6.3. Phát hiện cạnh sử dụng Daublets 44
2.7. Wavelets Coifman 44
2.8. Wavelets biorthogonal 48
2.8.1. Xây dựng wavelets Biorthogonal 48
2.8.2. Tính chất của wavelets Biorthogonal 49
2.8.3. Phát hiện cạnh sử dụng Wavelets Biorthogonal 49
2.9. Kết luận chƣơng 2 50
CHƢƠNG 3: CHƢƠNG TRÌNH PHÁP HIỆN BIÊN ẢNH BẰNG PHƢƠNG
PHÁP WAVELET VÀ NHẬN XÉT ĐÁNH GIÁ CÁC PHƢƠNG PHÁP 51
3.1. Cài đặt thử nghiệm chƣơng trình Wavelet transform 51
3.2. So sánh các phƣơng pháp phát hiện biên 57
3.3. Kết luận chƣơng 3 59
KẾT LUẬN 60
TÀI LIỆU THAM KHẢO 61
PHỤ LỤC 62
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
vi
DANH MỤC CÁC CHỮ VIẾT TẮT
STT
CHỮ VIẾT TẮT
TÊN TIẾNG ANH
11
STFT
Short time fourier Transform
12
RGB
Red green blue
13
VDD
Vector dispersion detectior
14
VRD
Vector range detector Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
vii
DANH MỤC CÁC HÌNH VẼ
Hình1.1. Các giai đoạn chính trong xử lý ảnh 4
Hình 1.2. Hình chóp màu 7
Hình 1.3. Hai loại lân cận của điểm ảnh 9
Hình 1.4. Biên khép kín 12
Hình1.5. Đƣờng biên lý tƣởng 13
Hình 1.6. Biên dốc 13
Hình1.7. Biên không trơn 14
Hình1.8. Dải sóng của các ánh sáng nhìn thấy đƣợc 15
Hình 1.9. Biểu đồ màu CIE 17
Hình 1.10. Mô hình không gian màu RGB 18
Hình 1.11. Mô hình không gian màu CMY 19
Hình 1.12. Phƣơng pháp pha trộn màu trong cuộc sống 19
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
1
MỞ ĐẦU
1. Lý do lựa chọn đề tài
Có thể khẳng định CNTT đang giữ một vai trò quan trọng trong sự phát
triển của loài ngƣời nói chung và sự phát triển kinh tế, chính trị xã hội của
một đất nƣớc nói riêng, Việt Nam cũng không là một ngoại lệ. Với những
bƣớc tiến nhƣ vũ bão những thập kỉ cuối của thế kỉ XX, CNTT đã tạo nên một
diện mạo mới cho cuộc sống con ngƣời và mở ra cho nhân loại một kỉ nguyên
mới – kỉ nguyên công nghệ thông tin.
Có nhiều tài liệu nói về phƣơng pháp phát hiện biên ảnh. Mục đích của
việc dò biên sẽ đánh dấu những điểm trong một ảnh số mà có sự thay đổi đột
ngột về độ xám, tập hợp nhiều điểm biên tạo thành biên hay đƣờng biên bao
quanh ảnh. Các phƣơng pháp phát hiện biên ảnh nhƣ: Gradient, Laplace,
Canny, wavelet. Trong đó phƣơng pháp phát hiện biên theo wavelet ngày
càng đƣợc sử dụng nhiều ở trong nƣớc cũng nhƣ trên thế giới. Vì vậy, tôi thấy
cần phải đi sâu vào nghiên cứu phƣơng pháp phát hiện biên ảnh bằng wavelet
nhằm hoàn thiện, nâng cao hiệu quả và chất lƣợng việc phát hiện biên cho ảnh
màu trong xử lý ảnh số.
Trong khuôn khổ luận văn thạc sĩ, tôi chọn đề tài nghiên cứu:
“Nghiên cứu phương pháp phát hiện biên ảnh màu bằng wavelet”
2. Mục tiêu nghiên cứu
Luận văn nghiên cứu hệ thống lý thuyết liên quan đến việ c phá t hiệ n
biên trong ảnh. Cụ thể trong luận văn là nghiên cứu về phát hiện biên cho ảnh
màu bằng wavelet.
3. Phạm vi nghiên cứu
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3
CHƢƠNG 1
TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ PHƢƠNG PHÁP PHÁT HIỆN
BIÊN CHO ẢNH MÀU
1.1. Tổng quan về xử lý ảnh
1.1.1. Khái niệm xử lý ảnh
Con ngƣời thu nhận thông tin qua các giác quan, trong đó thị giác đóng
vai trò quan trọng nhất. Trong những năm trở lại đây cùng với sự phát triển
của phần cứng máy tính, xử lý ảnh và đồ họa phát triển một cách mạnh mẽ,
ngày càng có nhiều ứng dụng trong cuộc sống và nó đóng một vai trò quan
trọng trong tƣơng tác ngƣời máy [2].
Quá trình xử lý nhận dạng ảnh là một quá trình thao tác nhằm biến đổi
một ảnh đầu vào để cho ra một kết quả mong muốn. Kết quả đầu ra của một
quá trình xử lý ảnh có thể là một ảnh "tốt hơn" ảnh ban đầu hoặc một kết luận.
Nhƣ vậy mục tiêu của xử lý ảnh có thể chia làm ba hƣớng nhƣ sau:
- Xử lý ảnh ban đầu để cho ra một ảnh mới tốt hơn theo một mong muốn
của ngƣời dùng (ví dụ: ảnh mờ cần xử lý để đƣợc rõ hơn).
- Phân tích ảnh để thu đƣợc thông tin nào đó giúp cho việc phân loại và nhận
biết ảnh (ví dụ: phân tích ảnh vân tay để trích chọn các đặc trƣng vân tay).
- Từ ảnh đầu vào mà có những nhận xét, kết luận ở mức cao hơn, sâu
hơn (ví dụ: ảnh một tai nạn giao thông phác họa hiện trƣờng tai nạn).
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh đƣợc xem nhƣ
Còn quá trình lƣợng tử hoá về giá trị là quá trình rời rạc hoá về mặt giá
trị để có thể đơn giản hoá việc tính toán và đƣa vào máy để xử lý. Tuỳ theo
từng loại ảnh, độ chính xác yêu cầu và khả năng xử lý của máy tính mà ta có
các mức lƣợng tử thích hợp.
- Quá trình phân tích ảnh: thực chất bao gồm một số công đoạn cơ bản
sau đây:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
5
Tăng cƣờng chất lƣợng ảnh: việc này là cần thiết do một số nguyên nhân
nào đó (nguồn sáng kém, ảnh bị nhiễu, ) dẫn tới việc chất lƣợng thu nhận
ảnh kém. Việc tăng cƣờng và khôi phục ảnh để làm nổi bật một số đặc trƣng
chính của ảnh.
Phát hiện đặc tính nhƣ biên, phân vùng, trích chọn các đặc tính của
ảnh,
- Cuối cùng, tùy theo mục đích của ứng dụng, sẽ là giai đoạn nhận dạng,
phân lớp hoặc hỗ trợ ra quyết định cho một hệ thống cụ thể nào đó.
1.1.3. Một số vấn đề cơ bản trong xử lý ảnh
1.1.3.1. Các khái niệm
- Điểm ảnh (Picture Element)
Ảnh trong thực tế là ảnh liên tục về không gian và về giá trị độ sáng [3].
Quá trình số hoá ảnh là sự biến đổi gần đúng một ảnh liên tục thành một tập
điểm phù hợp với ảnh thật về vị trí (không gian) và độ sáng (mức xám).
Khoảng cách giữa các điểm ảnh đó đƣợc thiết lập sao cho mắt ngƣời không
phân biệt đƣợc ranh giới giữa chúng. Mỗi một điểm nhƣ vậy gọi là điểm ảnh
(PEL: Picture Element) hay gọi tắt là Pixel. Trong khuôn khổ ảnh hai chiều,
mỗi pixel ứng với cặp tọa độ (x, y).
Điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với độ xám
hoặc màu nhất định. Kích thƣớc và khoảng cách giữa các điểm ảnh đó đƣợc
L = 2
B
(trong ví dụ của ta L = 2
8
= 256 mức)
Nếu L = 2, B = 1, nghĩa là chỉ có 2 mức: mức 0 và mức 1, còn gọi là ảnh
nhị phân. Mức 1 ứng với màu sáng, còn mức 0 ứng với màu tối. Nếu L lớn
hơn 2 ta có ảnh đa cấp xám.
Nói cách khác, với ảnh nhị phân mỗi điểm ảnh đƣợc mã hóa trên 1 bit,
còn với ảnh 256 mức, mỗi điểm ảnh đƣợc mã hóa trên 8 bit. Nhƣ vậy, với ảnh
đen trắng: nếu dùng 8 bit (1 byte) để biểu diễn mức xám, số các mức xám có
thể biểu diễn đƣợc là 256. Mỗi mức xám đƣợc biểu diễn dƣới dạng là một số
nguyên nằm trong khoảng từ 0 đến 255, với mức 0 biểu diễn cho mức cƣờng
độ đen nhất và 255 biểu diễn cho mức cƣờng độ sáng nhất.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
7
Ảnh nhị phân khá đơn giản, các phần tử ảnh có thể coi nhƣ các phần tử
logic. Ứng dụng chính của nó đƣợc dùng theo tính logic để phân biệt đối
tƣợng ảnh với nền hay để phân biệt điểm biên với điểm khác.
- Ảnh màu: Trong hệ màu RGB (Red, Green, Blue) để tạo nên thế giới
màu, ngƣời ta thƣờng dùng 3 byte để mô tả mức màu, khi đó các giá trị màu:
2
8*3
=2
24
≈ 16,7 triệu màu.
Nếu bạn kiểm tra màn hình của một tivi khi nó đƣợc bật lên, bạn sẽ chú
ý thấy tại tất cả các điểm ảnh màu đƣợc tạo nên bằng ba vòng tròn nhỏ hoặc
8
Ảnh màu theo lý thuyết của Thomas là ảnh tổ hợp từ 3 màu cơ bản: đỏ
(R), lục (G), lơ (B) là thƣờng thu nhận trên các dải băng tần khác nhau. Với
ảnh màu, cách biểu diễn cũng tƣơng tự nhƣ với ảnh đen trắng, chỉ khác là các
số tại mỗi phần tử của ma trận biểu diễn cho ba màu riêng rẽ gồm: đỏ (red),
lục (green) và lam (blue). Để biểu diễn cho một điểm ảnh màu cần 24 bit. 24
bit này đƣợc chia thành ba khoảng 8 bit. Mỗi màu cũng phân thành L cấp màu
khác nhau (thƣờng L = 256). Mỗi khoảng này biểu diễn cho cƣờng độ sáng
của một trong các màu chính.
Do đó, để lƣu trữ ảnh màu ngƣời ta có thể lƣu trữ từng màu riêng biệt,
mỗi màu lƣu trữ nhƣ một ảnh đa cấp xám. Do đó, không gian nhớ dành cho
một ảnh màu lớn gấp 3 lần một ảnh đa cấp xám cùng kích cỡ.
1.1.3.2. Biểu diễn ảnh
Sau quá trình số hoá sẽ thu đƣợc một ma trận tƣơng ứng với ảnh cần xét,
mỗi phần tử của ma trận tƣơng ứng với một điểm ảnh. Ảnh thƣờng đƣợc biểu
diễn bởi một mảng hai chiều I(n,p) gồm n dòng và p cột. Nhƣ vậy, ảnh gồm n
x p pixels và ngƣời ta thƣờng kí hiệu I(x,y) để chỉ một pixel cụ thể trong ảnh.
Về mặt toán học có thể xem ảnh là một hàm hai biến f(x,y) với x,y là các
biến tọa độ. Giá trị số ở điểm (x,y) tƣơng ứng với giá trị xám hoặc độ sáng
của ảnh (x là các cột còn y là các hàng). Giá trị của hàm ảnh f(x,y) đƣợc hạn
chế trong phạm vi của các số nguyên dƣơng
ax
0 ( , )
m
f x y f
Thông thƣờng đối với ảnh xám, giá trị f
max
là 255 (2
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
10
Ngƣời ta cũng dùng các kỹ thuật phân tích ảnh để phân vùng ảnh. Từ
ảnh thu đƣợc, ngƣời ta tiến hành kỹ thuật tách (split) hay hợp (merge) dựa
theo các tiêu chuẩn đánh giá nhƣ: màu sắc, cƣờng độ, v v. Các phƣơng pháp
đƣợc biết đến nhƣ Quad-Tree, mảnh hoá biên, nhị phân hoá đƣờng biên và
các kỹ thuật phân lớp dựa theo cấu trúc.
1.1.3.4. Nhận dạng ảnh
Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tƣợng mà ngƣời
ta muốn đặc tả nó. Quá trình nhận dạng thƣờng đi sau quá trình trích chọn
các đặc tính chủ yếu của đối tƣợng. Có hai kiểu mô tả đối tƣợng:
- Mô tả tham số (nhận dạng theo tham số).
- Mô tả theo cấu trúc (nhận dạng theo cấu trúc).
Trên thực tế, ngƣời ta đã áp dụng kỹ thuật nhận dạng khá thành công với
nhiều đối tƣợng khác nhau nhƣ: nhận dạng ảnh vân tay, nhận dạng chữ (chữ
cái, chữ số, chữ có dấu).
Nhận dạng chữ in hoặc đánh máy phục vụ cho việc tự động hoá quá trình
đọc tài liệu, tăng nhanh tốc độ và chất lƣợng thu nhận thông tin từ máy tính.
Nhận dạng chữ viết tay (với mức độ ràng buộc khác nhau về cách viết,
kiểu chữ, v v) phục vụ cho nhiều lĩnh vực.
Ngoài 2 kỹ thuật nhận dạng trên, hiện nay một kỹ thuật nhận dạng mới
dựa vào kỹ thuật mạng nơ ron đang đƣợc áp dụng và cho kết quả khả quan
trong nhận dạng ký tự.
1.1.3.5. Nén ảnh
Dữ liệu ảnh cũng nhƣ các dữ liệu khác cần phải lƣu trữ hay truyền đi
trên mạng. Nhƣ đã nói ở trên, lƣợng thông tin để biểu diễn cho một ảnh là rất
lớn. Ví dụ, một ảnh đen trắng cỡ 512 x 512 với 256 mức xám chiếm 256K
bytes. Do đó làm giảm lƣợng thông tin hay nén dữ liệu là một nhu cầu cần
nó là một cái bàn. nếu ứng dụng của ta là phân lớp nhận diện đối tƣợng, thì
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
12
coi nhƣ nhiệm vụ đã hoàn thành. Tuy nhiên nếu đòi hỏi thêm về các chi tiết
khác nhƣ vân gỗ hay màu sắc,…thì với chừng ấy thông tin là chƣa đủ.
Nhìn chung về mặt toán học ngƣời ta coi điểm biên của ảnh là điểm có
sự biến đổi đột ngột về độ xám. Nhƣ vậy phát hiện biên một cách lý tƣởng là
xác định đƣợc tất cả các đƣờng bao trong các đối tƣợng. Định nghĩa toán học
của biên ở trên là cơ sở cho các kỹ thuật phát hiện biên. Điều quan trọng là sự
biến thiên mức xám giữa các ảnh trong một vùng thƣờng là nhỏ, trong khi đó
biến thiên mức xám của điểm vùng giáp ranh (khi qua biên) lại khá lớn.
Mỗi một biên là một thuộc tính gắn liền với một điểm riêng biệt và đƣợc tính
toán từ những điểm lân cận nó. Đó là một biến Vector bao gồm hai thành phần:
- Độ lớn của Gadient.
- Hƣớng φ đƣợc quay đối với hƣớng Gradient ψ.
Nhƣ mô tả trong (hình 1.4) dƣới đây, các đƣờng biên khép kín là các đƣờng
có cùng độ sáng; quy ƣớc hƣớng 0
0
là chỉ hƣớng đông.
Hình 1.4. Biên khép kín
Biên thƣờng đƣợc sử dụng trong phân tích ảnh để xác định đƣờng bao
của các vùng trong ảnh. Đƣờng bao và các thành phần của nó (các điểm biên)
vuông góc với hƣớng của Gradient.
1.2.2.1. Biên lý tưởng
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
u
x
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
14
1.2.2.3. Biên không trơn
Trên thực tế, ảnh thƣờng có biên không lý tƣởng, các điểm ảnh trên ảnh
thƣờng có sự thay đổi mức xám đột ngột và không đồng nhất, đặc biệt là ảnh
nhiễu. Trong trƣờng hợp không nhiễu (biên lý tƣởng), bất cứ một sự thay đổi
cấp xám nào cũng thông báo sự tồn tại của một biên (trƣờng hợp đó khó có khả
năng xảy ra). Ảnh thƣờng là không lý tƣởng có thể là do các nguyên nhân sau:
- Hình dạng không sắc nét.
- Nhiễu do một loạt các yếu tố nhƣ: kiểu thiết bị nhập ảnh, cƣờng độ ánh
sáng, nhiệt độ, hiệu ứng áp suất, chuyển động, bụi,… chƣa chắc rằng hai điểm
ảnh có cùng giá trị cấp xám khi đƣợc nhập lại có cùng cấp xám đó trong ảnh. Kết
quả của nhiễu trên ảnh gây ra một sự biến thiên ngẫu nhiên giữa các điểm ảnh. Sự
xuất hiện ngẫu nhiên của các điểm ảnh có mức xám chênh lệch cao làm cho các
đƣờng biên dốc trở lên không trơn chu mà trở thành các đƣờng biên gồ ghề, mấp
mô, không nhẵn, đây chính là đƣờng biên trên thực tế.
Ngày nay, những phƣơng pháp phát hiện biên hiện đại thƣờng kết hợp
nhiễu vào trong mô hình của bài toán và trong quá trình phát hiện biên cũng
đƣợc tính đến. Còn khái niệm về biên nêu ở trên đƣợc sử dụng để xây dựng
các phƣơng pháp phát hiện biên trong quá khứ, những mô hình về cách này
đƣợc coi là đơn giản và sơ sài.