Tiu lun: X l nh số nâng cao
Tổng quan
Vật liệu trong các chương trước đã bắt đầu một quá trình chuyển đổi từ phương
pháp xử lý ảnh có đầu vào và đầu ra là các ảnh, các phương pháp trong đó các yếu
tố đầu vào là ảnh, nhưng các kết quả đầu ra là các thuộc tính chiết xuất từ các ảnh
(theo nghĩa quy định tại Mục 1.1). Phân đoạn là một bước tiến quan trọng theo
hướng đó.
Phân đoạn chia nhỏ một ảnh thành các vùng thành phần hoặc các đối tượng của
nó. Mức độ phân chia được thực hiện phụ thuộc vào các vấn đề được giải quyết.
Đó là, phân đoạn nên dừng lại khi các đối tượng quan tâm trong một ứng dụng đã
được cô lập. Ví dụ, trong việc kiểm tra tự động lắp ráp điện tử, sự quan tâm nằm
trong việc phân tích ảnh của sản phẩm với mục tiêu xác định sự hiện diện hay vắng
mặt của các bất thường cụ thể, chẳng hạn như thiếu các thành phần hoặc các đường
kết nối bị hỏng. Không có điểm trong việc thực hiện phân đoạn qua mức độ chi tiết
cần thiết để xác định những yếu tố này.
Phân đoạn của ảnh không tầm thường là một trong những nhiệm vụ khó khăn
nhất trong xử lý ảnh. Độ chính xác phân đoạn xác định sự thành công hay thất bại
cuối cùng của các thủ tục phân tích trên máy vi tính. Vì lý do này, sự quan tâm đáng
kể nên được thực hiện để cải thiện khả năng của phân đoạn không đều. Trong một
số trường hợp, chẳng hạn như các ứng dụng kiểm tra công nghiệp, ít nhất một số
biện pháp kiểm soát môi trường có thể vào lúc này. Người thiết kế hệ thống xử lý
ảnh giàu kinh nghiệm luôn luôn quan tâm đáng kể đến cơ hội như vậy. Trong các
ứng dụng khác, chẳng hạn như phát hiện mục tiêu độc lập, các nhà thiết kế hệ thống
không kiểm soát môi trường. Sau đó, cách tiếp cận thông thường là tập trung vào
việc lựa chọn các loại cảm biến có nhiều khả năng tăng cường các đối tượng quan
tâm trong khi làm giảm bớt sự đóng góp của các chi tiết ảnh không thích hợp. Một
ví dụ là việc sử dụng các ảnh hồng ngoại của quân đội để phát hiện đối tượng có
chữ ký nhiệt mạnh mẽ, chẳng hạn như thiết bị và quân đội trong chuyển động.
1
Tiu lun: X l nh số nâng cao
này liên quan đến việc tính tổng của các sản phẩm các hệ số với các mức xám chứa
trong khu vực bao phủ bởi mặt nạ.
# Tạo mặt nạ 3x3
Đó là, với sự tham khảo phương trình (3.5-3), đáp ứng của mặt nạ tại bất kỳ điểm
nào trong ảnh được cho bởi
Trong đó z
i
là mức xám của điểm ảnh liên quan với hệ số mặt nạ . Thông thường,
đáp ứng của mặt nạ được xác định liên quan tới vị trí trung tâm của nó. Các chi tiết
để thực hiện các hoạt động mặt nạ sẽ được thảo luận trong phần 3.5.
!$
Việc phát hiện các điểm bị cô lập trong một ảnh về nguyên tắc là rất đơn giản. Sử
dụng mặt nạ biểu diễn trong hình 10.2(a), chúng ta nói rằng một điểm đã được phát
hiện tại vị trí mà trên đó mặt nạ là trung tâm nếu.
Trong đó T là ngưỡng âm và R được cho bởi phương trình (10.1-1). Về cơ bản, công
thức này đo lường sự khác biệt trọng số giữa điểm trung tâm và các láng giềng của
3
Tiu lun: X l nh số nâng cao
nó. Ý tưởng là một điểm bị cô lập (một điểm có mức xám khác nhau đáng kể từ nền
của nó và được đặt tại một khu vực đồng nhất hoặc gần đồng nhất) sẽ hơi khác môi
trường xung quanh của nó, và do đó có thể dễ dàng phát hiện bằng cách loại mặt nạ.
Lưu ý rằng mặt nạ trong hình 10.2(a) giống với mặt nạ thể hiện trong hình 3.39(d)
trong việc kết nối với toán tử Laplacian. Tuy nhiên, sự nhấn mạnh ở đây là đúng về
sự phát hiện của các điểm. Đó là, sự khác biệt duy nhất được xem xét quan tâm là
những điểm đủ lớn (được xác định bởi T) được coi là điểm bị cô lập. Lưu ý rằng
tổng các hệ số mặt nạ bằng 0, chỉ ra rằng đáp ứng mặt nạ sẽ là 0 trong khu vực mức
xám không thay đổi.
%&'( !$)*+,-
Chúng ta minh họa việc phân đoạn các điểm bị cô lập từ một ảnh với sự trợ giúp của
Cho R
1
, R
2
, R
3
và R
4
chỉ thị các đáp ứng của mặt nạ trong hình 10.3, từ trái sang
phải, trong đó R được cho bởi phương trình (10.1-1). Giả sử rằng bốn mặt nạ được
chạy riêng qua một ảnh. Nếu tại một điểm nhất định trong ảnh,
i j
R R>
, với mọi j
≠ i, điểm đó được cho là có nhiều khả năng liên quan với một đường theo hướng
mặt nạ i. Cho ví dụ, nếu tại một điểm trong ảnh,
i j
R R>
với k = 2,3,4,
5
Tiu lun: X l nh số nâng cao
#0 Mặt nạ dòng
điểm đặc biệt này được cho là có nhiều khả năng liên quan đến một đường ngang.
Ngoài ra, chúng ta có thể quan tâm trong việc phát hiện dòng theo một hướng cụ
thể. Trong trường hợp này, chúng ta sẽ sử dụng mặt nạ kết hợp với hướng đó và
ngưỡng đầu ra của nó, như trong phương trình (10.1-2). Nói cách khác, nếu chúng ta
quan tâm trong việc phát hiện tất cả các dòng trong một ảnh theo hướng xác định
cho bởi mặt nạ, chúng ta chỉ chạy mặt nạ qua ảnh và ngưỡng giá trị tuyệt đối của kết
quả. Các điểm bên trái đáp ứng mạnh nhất, trong đó, đối với dòng một trong những
điểm ảnh dày, tương ứng với hướng gần nhất được xác định bởi mặt nạ. Ví dụ sau
các vị trí bị cô lập. Các điểm bị cô lập này có thể được phát hiện bằng cách sử dụng
mặt nạ trong hình 10.2(a) và sau đó đã bị xóa, hoặc họ có thể xóa việc sử dụng xói
mòn hình thái, như đã thảo luận trong chương cuối.
0 "
Mặc dù việc phát hiện điểm và đường chắc chắn rất quan trọng trong bất kỳ cuộc
thảo luận về sự phân đoạn, phát hiện cạnh đến nay là phương pháp phổ biến nhất để
phát hiện các gián đoạn có ý nghĩa ở mức xám. Trong phần này, chúng tôi thảo luận
cách tiếp cận để thực hiện các dẫn xuất số bậc một và bậc hai phát sinh cho việc
phát hiện các cạnh trong ảnh. Chúng ta giới thiệu các phát sinh trong phần phần 3.7
trong nội dung nâng cao hình ảnh. Trọng tâm ở phần này là các đặc điểm của chúng
cho việc phát hiện cạnh. Một số khái niệm giới thiệu trước đây được trình bày lại
một thời gian ngắn vào đây để liên tục vì lợi ích trong cuộc thảo luận.
7+89)
Các cạnh đã được giới thiệu chính thức tại mục 3.7.1. Trong phần này, chúng ta xem
xét các khái niệm về cạnh số gần hơn một chút. Trực giác, một cạnh là một tập hợp
các điểm ảnh kết nối nằm trên ranh giới giữa hai khu vực. Tuy nhiên, chúng ta đã đi
qua một số chiều dài tại phần 2.5.2 để giải thích sự khác biệt giữa một cạnh và một
đường biên. Về cơ bản, như chúng ta sẽ thấy ngay, một cạnh là một khái niệm "cục
bộ" trong khi một vùng đường biên, do theo cách nó được định nghĩa, là một ý
tưởng toàn cục. Một định nghĩa hợp lý "cạnh" đòi hỏi khả năng đo quá trình chuyển
đổi mức xám theo một cách có ý nghĩa.
8
Tiu lun: X l nh số nâng cao
Chúng ta bắt đầu bằng cách mô hình một cạnh trực giác. Điều này sẽ dẫn chúng
ta đến một hình thức trong đó "có ý nghĩa" quá trình chuyển đổi ở mức xám có thể
được đo. Trực giác, một cạnh lý tưởng có đặc tính của mô hình thể hiện trong hình
10.5(a). Một cạnh lý tưởng theo mô hình này là một tập hợp các điểm ảnh được kết
nối (ở đây theo hướng thẳng đứng), mỗi trong số đó nằm ở một bước chuyển đổi
trực giao ở mức xám (thể hiện bởi mặt ngang trong hình vẽ).
Trong thực tế, quang học, lấy mẫu, và hình ảnh thu thập được không hoàn hảo tạo ra
tối hoặc sáng của một cạnh. Chúng ta lưu ý hai thuộc tính bổ sung của dẫn xuất thứ
hai quanh một cạnh: (1) Nó tạo ra hai giá trị cho mỗi cạnh trong một hình ảnh (một
tính năng không mong muốn), và (2) một đường thẳng tưởng tượng kết hợp các giá
trị cực dương và âm của dẫn xuất thứ hai sẽ đi qua zero gần trung điểm của cạnh.
Tính chất zero-crossing của dẫn xuất thứ hai này khá hữu dụng để định vị các trung
điểm của các cạnh dày, như chúng ta thấy ở phần sau. Cuối cùng, chúng ta lưu ý
rằng một số mô hình cạnh sử dụng một chuyển đổi làm mịn vào và ra khỏi đoạn
đường nối (Vấn đề 10.5). Tuy nhiên, những kết luận mà chúng ta đến thảo luận sau
đây đều giống nhau. Ngoài ra, đó là điều hiển nhiên từ cuộc thảo luận này mà chúng
ta đang đối phó ở đây với việc đo đạt cục bộ (như vậy, những nhận xét được thực
hiện tại mục 2.5.2 về bản chất cục bộ của các cạnh).
Mặt dầu sự chú ý như vậy cho đến nay đã được gới hạn đối với trắc đồ ngang 1-
D, lý luận tương tự áp dụng cho một cạnh định hướng bất kỳ tại bất kỳ điểm mong
muốn và giải thích kết quả như trong các cuộc thảo luận trước đó.
%&'(0 :;<'=>8>;:85$2"
?
Các cạnh hình 10.5 và 10.6 là nhiễu tự do. Các phân đoạn ảnh trong cột đầu tiên
trong hình 10.7 cho thấy cận cảnh của bốn cạnh đoạn đường nối tách một vùng đen
bên trái và một vùng màu trắng ở bên phải. Điều quan trọng là hãy nhớ rằng toàn bộ
quá trình chuyển đổi từ màu đen sang màu trắng là một cạnh duy nhất. Phân đoạn
ảnh ở phía trên, bên trái là nhiễu tự do. Ba ảnh khác trong cột đầu tiên của Hình 10.7
bị hỏng bởi cộng nhiễu Gaussian với zero mean và độ lệch tiêu chuẩn 0.1, 1.0, và
10.0 mức xám tương ứng. Đồ thị dưới đây mỗi ảnh là một trắc đồ mức xám của một
đường quét ngang qua ảnh.
11
Tiu lun: X l nh số nâng cao
Các ảnh trong cột thứ hai của hình 10.7 là các dẫn xuất bậc một của ảnh bên trái
(chúng ta thảo luận tính toán các dẫn xuất ảnh thứ nhất và thứ hai ở phần sau). Xem
xét, cho ví dụ, ảnh trung tâm ở phía trên. Như đã thảo luận kết nối với hình 10.6(b),
các dẫn xuất là zero trong các vùng màu đen và trắng không đổi. Đây là hai vùng
định một điểm trong một hình ảnh như là một điểm cạnh nếu dẫn xuất đầu tiên để
chiều của nó lớn hơn một ngưỡng quy định . Một tập hợp các điểm như vậy được
kết nối theo một tiêu chuẩn được xác định trước mối (xem Phần 2.5.2) được định
nghĩa một cạnh. Phân khúc cạnh hạn thường được sử dụng nếu cạnh là ngắn hơn so
với kích thước của hình ảnh. Một vấn đề quan trọng trong phân khúc là để lắp ráp
các phân đoạn tiến vào cạnh còn như được giải thích trong mục 10.2. Một định
13
Tiu lun: X l nh số nâng cao
nghĩa được thay thế nếu chúng ta chọn việc sử dụng dẫn xuất thứ hai chỉ đơn giản là
để xác định các điểm cạnh trong một ảnh như ngang qua zero của dẫn xuất thứ hai
của nó. Định nghĩa của một cạnh trong trường hợp này là tương tự như trên. Điều
quan trọng cần lưu ý là những định nghĩa này không đảm bảo thành công trong việc
tìm kiếm các cạnh trong một ảnh. Họ chỉ đơn giản là cung cấp cho chúng ta một
hình thức để tìm chúng.
Như trong chương 3, dẫn xuất bậc 3 trong một ảnh được tính toán sử dụng
gradient. Dẫn xuất bậc hai thu được dùng Laplacian.
@-'1
Dẫn xuất bậc một của ảnh số là dựa trên xấp xỉ khác nhau của gradient 2-D.
Gradient của ảnh f(x,y) tại vị trí (x,y) được định nghĩa là vector
Nó cũng được biết đến từ việc phân tích vector rằng các điểm vector gradient theo
hướng tỷ lệ thay đổi cực đại của f tại tọa độ (x,y).
Một số lượng quan trong trong việc phát hiện cạnh là độ lớn của vector này, ký
hiệu , với
Số lượng này cho tỷ lệ lớn nhất của việc tăng f(x,y) trên đơn vị khoảng cách theo
hướng của . Nó là một (mặc dù không chính xác đúng) thực tế phổ biến để chỉ
cũng như gradient. Chúng ta sẽ tuân theo quy ước và cũng sử dụng thuật ngữ
này thay thế cho nhau, sự khác biệt giữa các vector và độ lớn của nó chỉ trong
trường hợp nhầm lẫn là có thể.
14
Tiu lun: X l nh số nâng cao
tầm quan trọng nhiều hơn đến điểm trung tâm (Vấn đề 10.8). Hình 10.8(f) và (g)
được gọi là toán tử Sobel được sử dụng để thực hiện hai phương trình này. Toán tử
Priwitt và Sobel là một trong những toán tử được sử dụng nhiều nhất trong thực tế
để tính toán độ các gradient số.
Các mặt nạ Prewitt thực hiện đơn giản hơn các mặt nạ Sobel, nhưng sau này có
những đặc điểm đàn áp nhiễu hơi cao, một vấn đề quan trọng khi xử lý với các dẫn
xuất. Lưu ý rằng các hệ số trong tất cả các mặt nạ hình 10.8 có tổng bằng 0, chỉ thị
rằng chúng cho đáp ứng zero ở khu vực mức xám không đổi, như mong muốn cảu
toán tử dẫn xuất.
Các mặt nạ vừa thảo luận được sử dụng để thu được các thành phần gradient G
x
và G
y
. Việc tính toán gradient yêu cầu hai thành phần này kết hợp trong cách thức
thể hiện trong phương trình (10.1-4). Tuy nhiên việc thực hiện này không luôn
mong muốn bởi vì gánh nặng tính toán theo yêu cầu bởi bình phương và căn bậc hai.
Một cách tiếp cận được sử dụng thường xuyên là gradient gần đúng bởi các giá trị
tuyệt đối:
Phương trình này tính toán hấp dẫn hơn nhiều, và nó vẫn còn lưu giữ những thay
đổi tương đối ở mức xám. Như đã thảo luận tại mục 3.7.3, giá phải trả cho ưu điểm
này là các bộ lọc kết quả sẽ không đẳng hướng (không đổi khi xoay vòng) nói
chung. Tuy nhiên, đây không phải là một vấn đề khi mặt nạ như Prewitt và mặt nạ
Sobel được sử dụng để tính toán G
x
và G
y
. Các mặt nạ này cho kết quả đẳng hướng
chỉ với các cạnh thẳng đứng và nằm ngang, vì vậy ngay cả nếu chúng ta sử dụng
phương trình (10.1-4) để tính toán gradient, kết quả sẽ là đẳng hướng chỉ với các
17
trọng là để nhấn mạnh các cạnh theo hướng chéo sau đó một trong những cặp mặt nạ
trong Hình 10.9 nên được sử dụng. Đáp ứng tuyệt đối của mặt nạ Sobel chéo được
19
Tiu lun: X l nh số nâng cao
thể hiện trong hình 10.12. Đáp ứng chéo mạnh hơn của các mặt nạ là điều hiển nhiên
trong hình này. Cả hai mặt nạ đường chéo có đáp ứng tương tự với cạnh ngang và
dọc nhưng, như mong đợi, đáp ứng của nó theo hướng này là yếu hơn so với đáp
ứng của mặt nạ Sobel ngang và dọc thể hiện trong hình 10.10(b) và 10.10(c).
A,
Laplacian của một hàm 2-D f(x,y) là một dẫn xuất bậc hai được định nghĩa là
20
Tiu lun: X l nh số nâng cao
Xấp xỉ số Laplacian đã được giới thiệu tại mục 3.7.2. Cho một vùng 3x3, một trong
hai dạng gặp phải thường xuyên nhất trong thực tế là
Trường hợp của z được xác định trong hình 10.8 (a). Một xấp xỉ số bao gồm cả
những lân cận chéo được cho bởi
Mặt nạ để thực hiện hai phương trình này được thể hiện trong hình 10.13. Chúng ta
lưu ý từ các mặt nạ này sự thực hiện của các phương trình (10.1-14) và (10.1-15) là
đẳng hướng để gia tăng vòng quay 90
o
và 45
o
, tương ứng.
Laplacian thường không được sử dụng ở dạng gốc của nó cho việc phát hiện
cạnh vì nhiều lý do: như dẫn xuất bậc hai, Laplacian thường không thể chấp nhận
nhạy cảm với nhiễu (hình 10.7). Độ lớn của Laplacian tạo ra cạnh đôi (xem hình
10.6 và 10.7), ảnh hưởng không mong muốn bởi vì nó phân đoạn phức tạp. Cuối
cùng, Laplacian không thể phát hiện hướng cạnh. Với những lý do này, vai trò của
Laplacian trong việc phân đoạn bao gồm: (1) sử dụng tính chất zero-crossing của nó
Do đó, chúng ta thấy rằng mục đích của hàm Gaussian trong công thức LoG là để
làm mịn ảnh, và mục đích của toán tử Laplacian là cung cấp một ảnh với zero
crossings được sử dụng để thiết lập vị trí của các cạnh. Làm mịn ảnh làm giảm ảnh
hưởng của nhiễu và, về nguyên lý, nó tính toán sự gia tăng ảnh hưởng của nhiễu gây
ra bởi các dẫn xuất thứ hai của Laplacian. Nó là quan tâm đến việc lưu ý rằng các thí
nghiệm sinh lý thần kinh thực hiện trong đầu những năm 1980 (Ullman [1981],
Marr [1982]) cung cấp bằng chứng cho thấy một số khía cạnh tầm nhìn của con
người có thể được mô hình hóa toán học ở dạng cơ bản của phương trình (10.1-17).
%&'(BC#$")DE1--FFF
Hình 10.15(a) biểu diễn ảnh chụp sơ đồ mạch thảo luận trong phần 1.3.2. Hình
10.15(b) thể hiện gradient Sobel của ảnh này, bao gồm ở đây để so sánh. Hình
10.15(c) là một hàm Gauss không gian (với độ lệch chuẩn năm pixel) được sử dụng
để thu được một mặt nạ làm mịn không gian 27x27. Mặt nạ thu được bằng cách lấy
mẫu hàm Gaussian này tại các khoảng thời gian bằng nhau. Hình 10.15(d) là mặt nạ
không gian được sử dụng để thực hiện phương trình (10,1-15). Hình 10.15(e) là ảnh
23
Tiu lun: X l nh số nâng cao
LoG thu được bằng cách làm mịn ảnh gốc với mặt nạ làm mịn Gaussian, tiếp theo là
ứng dụng của mặt nạ Laplacian (ảnh này được cắt để loại bỏ các hiệu ứng biên giới
được tạo ra bởi mặt nạ làm mịn). Như đã nói ở đoạn trên, có thể được tính bằng
cách áp dụng (c) tiếp theo (d). Sử dụng phương pháp này cung cấp kiểm soát nhiều
hơn các chức năng làm mịn, và thường kết quả trong hai mặt nạ mà nhỏ hơn nhiều
khi so sánh với một mặt nạ hỗn hợp duy nhất mà thực hiện phương trình (10.1-17)
trực tiếp. Một mặt nạ hỗn hợp thường là lớn hơn bởi vì nó phải kết hợp các hình
dạng phức tạp hơn thể hiện trong hình 10.14(a).
Kết quả LoG được thể hiện trong hình 10.15(e) là hình ảnh mà zero crossings
được tính toán để tìm các cạnh. Một phương pháp đơn giản cho xấp xỉ zero
crossings là ngưỡng hình ảnh LoG bằng cách thiết lập tất cả các giá trị dương của
nó, nói, trắng, và tất cả các giá trị âm đến đen. Kết quả được hiển thị trong hình
10.15(f). Logic đằng sau phương pháp này là zero crossings xảy ra giữa các giá trị
các đặc điểm của các điểm ảnh trong một khu phố nhỏ (nói, 3 x 3 hoặc 5 x 5) về tất
25