Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
1
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
MỤC LỤC
MỤC LỤC 1
MỞ ĐẦU 4
CHƢƠNG 1 6
TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ SO KHỚP ĐỐI TƢỢNG 6
1.1. TỔNG QUAN VỀ XỬ LÝ ẢNH 6
1.1.1. Xử lý ảnh 6
1.1.2. Quá trình thu nhận ảnh 7
1.1.3. Biểu diễn và thể hiện ảnh 7
1.1.4. Histogram của ảnh 10
1.1.5. Độ phân giải của ảnh 11
1.1.6. Biên của ảnh 12
1.1.6.1. Phương pháp phát hiện biên trực tiếp 13
1.1.6.2. Phương pháp phát hiện biên gián tiếp 16
1.1.7. Phân ngưỡng ảnh 19
1.1.8. Nhận dạng ảnh 20
1.1.9. Cấu trúc phân cấp của video 23
1.1.10. Một số thuộc tính đặc trưng của video 24
1.2. SO KHỚP ĐỐI TƢỢNG 26
1.2.1. Khái niệm so khớp. 26
1.2.2. Khớp ảnh sử dụng phép đối sánh pixel-pixel 26
1.2.3. Khớp ảnh sử dụng tương quan chéo 26
CHƢƠNG 2 29
MỘT SỐ KỸ THUẬT TRONG BẮT BÁM VÀ SO KHỚP ĐỐI TƢỢNG CHUYỂN ĐỘNG 29
2.1. GIỚI THIỆU 29
2.2. K THUT TRỪ ẢNH THEO KHUNG ẢNH 31
3.3.4. Thuật toán tính vận tốc chuyển động của đối tượng 62
3.3.5. Thuật toán phân loại phương tiện dựa trên kích thước 63
3.3.6. Thuật toán tính toán mật độ làn đường 64
3.3.7. Thuật toán phát hiện phương tiện theo làn đường 65
3.3.8. Thuật toán phát hiện chiều chuyển động của đối tượng 66
3.3.9. Nhận dạng biển số xe 68
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
3
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3.4. KẾT QUẢ CI ĐT 71
KẾT LUẬN 75
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
4
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
MỞ ĐẦU
Trong những năm qua, lĩnh vực xử lý ảnh luôn thu hút đƣợc sự quan tâm của
nhiều nhà khoa học bởi khả năng ứng dụng và lợi ích to lớn của nó trong nhiều
lĩnh vực của xã hội nhƣ quốc phòng, giải trí, y học, viễn thám và giao thông.
Nhƣ chúng ta biết, thông tin hình ảnh đóng vai trò rất quan trọng trong trao
đổi thông tin, bởi phần lớn thông tin mà con ngƣời thu đƣợc thông qua thị giác.
Do vậy, vấn đề nhận dạng trong xử lý ảnh, đặc biệt là so khớp, phân loại, nhận
dạng đối tƣợng ảnh chuyển động đang đƣợc quan tâm của nhiều nhà nghiên cứu
bởi tính khoa học và ứng dụng đa dạng.
Đồng thời, với sự phát triển không ngừng của khoa học và tốc độ xử lý của
máy tính thì ứng dụng lĩnh vực thị giác máy tính và xử lý ảnh đang ngày càng
đƣợc phát triển và nghiên cứu mạnh mẽ.
Nguyễn Văn An – ĐH CNTT & TT - 2011
6
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
CHƢƠNG 1
TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ SO KHỚP ĐỐI TƢỢNG
1.1. TỔNG QUAN VỀ XỬ LÝ ẢNH
1.1.1. Xử lý ảnh
Xử lý ảnh(Image processing) là đối tƣợng nghiên cứu của lĩnh vực thị giác
máy, là quá trình biến đổi từ một ảnh ban đầu sang một ảnh mới với các đặc tính
mà tuân theo ý muốn cuả việc xử lý. Xử lý ảnh có thể là quá trình phân tích,
phân lớp các đối tƣợng, làm tăng chất lƣợng, phân đoạn và tìm biên, gán nhãn
cho vùng hay quá trình biên dịch các thông tin hình ảnh của ảnh. Hình dƣới sẽ
minh họa các giai đoạn chính trong quá trình xử lý ảnh.
Hình 1.1. Các giai đoạn chính trong quá trình xử lý ảnh nhận dạng
Chúng ta có thể tóm lƣợc quá trình xử lý nhận dạng ảnh đƣợc xem nhƣ là quá
trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn. Kết quả đầu ra của
một quá trình xử lý ảnh có thể là một ảnh “tốt hơn” hoặc đƣa ra đƣợc kết luận về
ảnh đó. Hình 1.2 mô tả vắn tắt quá trình này.
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
7
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Ảnh Xử lý ảnh
Ảnh tốt hơn
Kết luận
Một bảng màu thông thƣờng đƣợc chứa trong cùng một ảnh chỉ số. Tuy
nhiên, ta có thể sử dụng bất cứ bảng màu nào. Hình vẽ dƣới đây minh hoạ cấu
trúc của một ảnh chỉ số. Các pixel trong ảnh đƣợc thể hiện bằng các số nguyên
mà chúng trỏ đến các giá trị đƣợc lƣu trong bảng màu
Hình 1.3. Minh họa ảnh chỉ số
1.1.3.2. Ảnh cƣờng độ
Một ảnh cƣờng độ là một ma trận dữ liệu I mà các giá trị của nó thể hiện các
cƣờng độ sáng trong phạm vi một vài khoảng nào đó. Các phần tử trong ma trận
cƣờng độ thể hiện các cƣờng độ sáng khác nhau hoặc là các cấp xám, trong đó
cƣờng độ 0 thông thƣờng thể hiện màu đen và cƣờng độ 1, 255, hoặc 65535 thể
hiện cƣờng độ lớn nhất có thể hoặc màu trắng.
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
9
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên Hình 1.4. Minh họa ảnh cƣờng độ
1.1.3.3. Ảnh nhị phân
Trong một ảnh nhị phân, mỗi pixel chỉ nhận một trong hai giá trị rời rạc. Về
bản chất, hai giá trị này tƣơng ứng với on và off. Một ảnh nhị phân đƣợc lƣu trữ
nhƣ là một ma trận 2 chiều gồm các số 0 (pixels off) và các số 1 (pixels on). Một
ảnh nhị phân có thể đƣợc xem nhƣ là một dạng đặc biệt của ảnh cƣờng độ chỉ
chứa màu đen và trắng. Tuy nhiên cũng có thể có những cách giải thích khác, ta
cũng có thể coi ảnh nhị phân nhƣ là một ảnh chỉ số chỉ có 2 màu. Hình sau là
một ví dụ của ảnh nhị phân:
Hình 1.5. Minh họa ảnh nhị phân
1.1.3.4. Ảnh RGB
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
đƣợc mật độ phân bố của phần lớn các mức xám. Nếu ảnh sáng thì lƣợc đồ xám
tập trung bên phải (mức xám cao), còn ảnh đậm thì lƣợc đồ xám tập trung bên
trái. Từ kết quả histogram của ảnh, chỉ cho ta nhìn nhận tổng quát quá trình phân
bố giải độ sáng trên ảnh, chứ không cho ta biết kết cấu chi tiết của ảnh. Ngoài ra,
căn cứ vào số đỉnh trên histogram của ảnh sẽ có sự nhìn nhận ban đầu về số
vùng của ảnh. Đó là cơ sở cho việc phân vùng ảnh và tìm biên sau này, đặc biệt
là phƣơng pháp tìm biên gián tiếp.
Thí dụ: Có một ảnh 100 điểm , độ sáng của ảnh đƣợc phân thành 5 mức
sáng: level1, level2, , level 5. Nhƣ vậy, số điểm ảnh của các mức tƣơng ứng là
20, 25, 10, 30, 15. Nhƣ vậy tần suất hiện của các điểm ảnh ở mức tƣơng ứng là
20% , 25%, 10%, 30%, 15%. với ảnh này ta có histogram của ảnh nhƣ hình 1.7.
Hình 1.7. Minh họa Histogram của ảnh
1.1.5. Độ phân giải của ảnh
Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh đƣợc ấn định trên một
ảnh số đƣợc hiển thị. Trong đó, khoảng cách giữa các điểm ảnh phải đƣợc chọn
sao cho mắt ngƣời vẫn thấy đƣợc sự liên tục của ảnh. Việc lựa chọn khoảng
cách thích hợp tạo nên một mật độ phân bố, đó chính là độ phân giải và đƣợc
phân bố theo trục x và y trong không gian hai chiều.
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
12
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là một
lƣới điểm theo chiều ngang màn hình: 300 điểm chiều dọc * 200 điểm ảnh
(320*200). Rõ ràng, cùng màn hình CGA 12‟‟ ta nhận thấy mịn hơn màn hình
CGA 17‟‟ độ phân giải 320*200. Điều mày do cùng một mật độ (độ phân giải)
1.1.6.1. Phƣơng pháp phát hiện biên trực tiếp
a) Kỹ thuật phát hiện biên Gradient
Theo định nghĩa, gradient là một véctơ có các thành phần biểu thị tốc độ
thay đổi giá trị của điểm ảnh, ta có:
(1.2)
Hay
dx
yxfydxxf
x
yxf
fx
),(),(),(
dy
yxfdyyxf
y
yxf
fy
),(),(),(
14
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Các toán tử sử dụng kỹ thuật Gradient đáng kể nhất là toán tử Robert, Sobel và
Prewitt. còn toán tử la bàn hay đƣợc sử dụng là toán tử Krish.
Hình 1.8. Minh họa mô hình 8 hƣớng
b). Kỹ thuật phát hiện biên Laplace
Các phƣơng pháp đánh giá gradient ở trên làm việc khá tốt khi mà độ
sáng thay đổi rõ nét. Khi mức xám thay đổi chậm, miền chuyển tiếp trải rộng,
phƣơng pháp cho hiệu quả hơn đó là phƣơng pháp sử dụng đạo hàm bậc hai
Laplace. Toán tử Laplace đƣợc định nghĩa nhƣ sau: (1.3)
Tƣơng tự (1.4)
Vậy:
(1.5)
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
15
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Dẫn tới:010
24542
491294
51215125
491294
24542
115
1
H
Gọi G là kết quả lọc nhiễu: G = I H
Bước 2: Tính gradient của ảnh bằng mặt nạ PreWitt, kết quả đặt vào G
x
,G
y
.
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
đƣợc bao bọc bởi một vành đai các điểm nền. Dễ thấy là một vùng 4 – liên
thông chỉ là một trƣờng riêng của trƣờng hợp trên.
Về cơ bản, các thuật toán dò biên trên một vùng đều bao gồm các
bƣớc sau:
Xác định điểm biên xuất phát
Dự báo và xác định điểm biên tiếp theo
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
17
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Lặp bƣớc 2 cho đến khi gặp điểm xuất phát
Do xuất phát từ những tiêu chuẩn và định nghĩa khác nhau về điểm biên,
và quan hệ liên thông, các thuật toán dò biên cho ta các đƣờng biên mang các
sắc thái rất khác nhau.
Kết quả tác động của toán tử dò biên lên một điểm biên r
i
là điểm biên r
i+1
(8 - láng giềng của r
i
). Thông thƣờng các toán tử này đƣợc xây dựng nhƣ một
hàm đại số Boolean trên các 8 – láng giềng của r
i
. Mỗi cách xây dựng các toán
tử đều phụ thuộc vào định nghĩa quan hệ liên thông và điểm biên. Do đó sẽ gây
khó khăn cho việc khảo sát các tính chất của đƣờng biên. Ngoài ra, vì mỗi bƣớc
dò biên đều phải kiểm tra tất cả các 8 – láng giềng của mỗi điểm nên thuật toán
thƣờng kém hiệu quả. Để khắc phục các hạn chế trên, thay vì sử dụng một điểm
biên ta sử dụng cặp điểm biên (một thuộc , một thuộc
có thể định nghĩa thao một trong ba cách :
Tập những điểm thuộc có mặt trên NV, tức là K(b, r) = r
Tập những điểm thuộc phủ có trên NV, tức là K(b, r) = b
Tập những điểm ảo nằm giữa cặp nền-vùng, tức là K(b, r) là
những điểm nằm giữa hai điểm b và r.
Cách định nghĩa thứ ba tƣơng ứng với mỗi cặp nền-vùng với một điểm biên.
Còn với cách thứ nhất và thứ hai , một số cặp nền - vùng có thể có chung một
điểm biên. Bởi vậy, quá trình chọn điể m biên đƣợc thƣ̣ c hiện nhƣ sau :
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
19
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên Điều kiện dừng: Cặp nền-vùng thứ n trùng với cặp nền vùng xuất phát
(b
n
,r
n
)= (b
0
,r
0
)
1.1.7. Phân ngƣỡng ảnh
Phân ngƣỡng là kỹ thuật phổ biến trong xử lý ảnh. Phân ngƣỡng là chọn
ngƣỡng có giá trị đặc biệt. Nó thƣờng đƣợc dùng để tìm ra đối tƣợng trong ảnh.
Có hai cách phân ngƣỡng chính là phân ngƣỡng đều (Uniform thresholding) và
phân ngƣỡng thích nghi (Adaptive thresholding).
Phân ngƣỡng đều là phân ngƣỡng cho những pixel có giá trị lớn hơn mức
thuộc vào quá trình xử lý tiếp theo trong giai đoạn này sẽ thực hiện các
công đoạn khác nhau nhƣ:
- Nắn chỉnh hình học: Những biến dạng hình học thƣờng là do các
thiết bị điện tử và quang học gây ra. Do đó, phƣơng pháp hiệu
chỉnh ảnh dựa vào mô hình đƣợc mô tả dƣới dạng biến đổi ảnh
dạng f(x, y) thành ảnh lý tƣởng f(x‟, y‟).
- Khử nhiễu: Nhiễu đƣợc chia làm hai loại: nhiễu hệ thống và
nhiễu ngẫu nhiên. Đặc trƣng của nhiễu hệ thống là tính tuần
hoàn. Do vậy, có thể tách đƣợc loại nhiễu này bằng việc sử dụng
biến đổi Fourier và loại bỏ các điểm đỉnh (peaks). Đối với nhiễu
ngẫu nhiên, trƣờng hợp đơn giản là các vết bẩn tƣơng ứng với
các điểm rất sáng hay rất tối, có thể khử bằng phƣơng pháp nội
suy, lọc trung bình và trung vị
- Chỉnh mức xám: Đây là kỹ thuật nhằm chỉnh sửa tính không
đồng đều của các thiết bị thu nhận hoặc tăng độ tƣơng phản giữa
các vùng ảnh.
- Chỉnh tán xạ: Ảnh nhận đƣợc từ các thiết bị điện tử hay quang
học có thể bị nhòe.Phƣơng pháp Fourier dựa trên tích chập của
ảnh với hàm tán xạ cho phép giải quyết đƣợc bài toán hiệu
chỉnh này.
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
22
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Trích chọn đặc trƣng: Các đặc điểm của đối tƣợng đƣợc trích chọn
tùy theo mục đích nhận dạng trong quá trình xử lý ảnh. Việc trích chọn
hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tƣợng ảnh chính
xác, với tốc độ tính toán cao và dung lƣợng nhớ lƣu trữ giảm xuống.
Tác giả có thể nêu ra một số đặc điểm của ảnh sau đây:
thao tác camera đơn.
Scene (cảnh) là các đơn vị logic của dòng video, một cảnh gồm các lia liên
quan về không gian và liền kề về thời gian, cùng mô tả một nội dung ngữ nghĩa
hoặc một tình tiết. Khi phim đƣợc chiếu, các khung hình lần lƣợt đƣợc hiển thị
ở tốc độ nhất định. Tốc độ thƣờng thấy ở các định dạng video khác nhau là 30
và 25 hình/s. Nhƣ vậy, một giờ video sẽ có số khung hình tƣơng ứng là 108000
hoặc là 90000. Cấu trúc phân cấp của video đƣợc minh họa trong hình 1.11
nhƣ sau:
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
24
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Hình 1.11. Cấu trúc phân cấp của video
1.1.10. Một số thuộc tính đặc trƣng của video
Video có 4 đặc trƣng chính là: Màu (color), Kết cấu (texture), Hình dáng
(shape), Chuyển động (motion). Dƣới đây chúng ta sẽ xem xét tới những đặc
trƣng này.
a) Màu
Màu là một thuộc tính quan trọng của ảnh. Biểu đồ màu, biểu diễn sự phân bố
màu, là một đặc trƣng màu phổ biến nhất hiện nay. Biểu đồ màu không phụ
thuộc vào sự quay, dịch chuyển ảnh cũng nhƣ chiều nhìn ảnh. Tính hiệu quả của
nó lại phụ thuộc vào hệ màu và phƣơng pháp định lƣợng đƣợc dùng. Có một vấn
đề với biểu đồ màu là nó không biểu diễn thông tin về không gian phân bố các
điểm ảnh, do đó hai ảnh có cùng biểu đồ màu có thể có nội dung rất khác nhau.
Hình 1.12 minh họa điều này
Hình 1.12. Các ảnh khác nhau nhƣng có cùng biểu đồ mầu
b) Kết cầu (Texture)
phóng to, thu nhỏ cũng có thể đƣợc trích chọn.