BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
_________________
NGUYỄN HỒNG PHÚC
NGHIÊN CỨU PHƯƠNG PHÁP TRUY VẤN
ẢNH THEO ĐẶC TRƯNG HÌNH DẠNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Mã số: 60480201 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. ĐỖ NĂNG TOÀN
Đồng Nai, Năm 2013
LỜI CẢM ƠN
Tôi xin chân thành cảm ơn PGS.TS. Đỗ Năng Toàn, Thầy đã tận tình giúp
đỡ, hướng dẫn và đóng góp ý kiến cho tôi trong suốt quá trình thực hiện nội dung
đề tài luận văn.
Tôi xin chân thành cảm ơn Quý thầy cô thuộc Khoa Công nghệ Thông tin -
Trường Đại học Lạc Hồng, Quý thầy cô bộ môn đã tận tình giảng dạy, truyền đạt
cho tôi những kiến thức quý báu trong quá trình học tập.
Tôi xin chân thành cảm ơn Quý thầy cô phòng Sau đại học - Trường Đại học
Lạc Hồng, các đồng nghiệp và các bạn học lớp Cao học Công nghệ thông tin khoá
Nguyễn Hồng Phúc
TÓM TẮT LUẬN VĂN
Tên đề tài luận văn: NGHIÊN CỨU PHƯƠNG PHÁP TRUY VẤN ẢNH
THEO ĐẶC TRƯNG HÌNH DẠNG.
Học viên thực hiện: Nguyễn Hồng Phúc Sinh ngày: 19/08/1980
- Trình bày khái quát về xử lý ảnh và một số phương pháp truy vấn ảnh.
- Trình bày trích chọn đặc trưng hình dạng và một số phương pháp tiếp cận
truy vấn theo đặc trưng hình dạng.
- Bài toán và chương trình thử nghiệm.
5. Hướng phát triển tiếp theo:
Phát triển thành chương trình truy vấn ảnh kết hợp nhiều đặc điểm.
Cài đặt các kỹ thuật tăng hiệu năng của hệ thống bằng cách giảm số chiều
các véctơ đặc trưng
Tích hợp, phát triển thành ứng dụng có khả năng cài đặt trên các thiết bị báo
tự động trong tham gia giao thông.
Mở rộng nghiên cứu một số lĩnh vực liên quan như trong giao thông đường
sắt. MỤC LỤC
DANH MỤC TỪ VIẾT TẮT
DANH MỤC HÌNH
PHẦN MỞ ĐẦU
Chương 1: KHÁI QUÁT VỀ TRUY VẤN ẢNH VÀ TRUY VẤN DỰA VÀO
HÌNH DẠNG
1.1. Khái quát về truy vấn ảnh Trang 04
1.1.1. Giới thiệu chung Trang 04
1.1.2. Một số phương pháp truy vấn ảnh Trang 07
1.1.2.1. Truy vấn ảnh theo bản thể Trang 07
1.1.2.2. Truy vấn ảnh theo nội dung Trang 09
1.1.2.3. Truy vấn ảnh theo đồ thị Trang 10
1.2. Mô hình hệ thống truy vấn ảnh theo nội dung Trang 10
1.2.1. Không gian màu Trang 11
1.2.2. Các moment màu Trang 12
3.3.1. Sơ đồ khối tổng quát và truy vấn theo hình dạng Trang 56
3.3.1.1. Đọc ảnh Trang 57
3.3.1.2. Dò biên đối tượng ảnh Trang 57
3.3.1.3. Resample Trang 57
3.3.1.4. Biến đổi Fourier nhanh Trang 58
3.3.1.5. Tạo Vector đặc trưng hình dạng cho ảnh Trang 59
3.3.1.6. So sánh bằng tính khoảng cách Euclide Trang 60
3.3.2. Sử dụng chương trình Query Trafic Signs Trang 60
3.3.2.1. Cài đặt chương trình Trang 60
3.3.2.2. Chạy chương trình Trang 61
3.3.2.3. Các kịch bản thử nghiệm Trang 61
3.3.3. Nhận xét kết quả thử nghiệm Trang 67
3.4. Khả năng mở rộng của chương trình Trang 68
3.4.1. Những hạn chế của chương trình Trang 68
3.4.2. Khả năng mở rộng Trang 69
KẾT LUẬN Trang 70
TÀI LIỆU THAM KHẢO
DANH MỤC TỪ VIẾT TẮT
Chữ tắt
Dạng đầy đủ
Nghĩa tiếng Việt
CCD
Charge Coupled Device
Thiết bị tích điện kép
CCV
Color Cohefeence Vector
Vector gắn kết màu
CSDL
…
Cơ sở dữ liệu
Hình 3.1
- Biển báo cấm…………………………………………………Trang 52
Hình 3.2
- Biển báo nguy hiểm………………………………………… Trang 54
Hình 3.3
- Biển báo hiệu lệnh……………………………………………Trang 55
Hình 3.4
- Sơ đồ khối phần tra cứu ảnh theo hình dạng…………………Trang 56
Hình 3.5
- Kết quả 01 sau khi chạy thử ứng dụng theo kịch bản 01…… Trang 62
Hình 3.6
- Kết quả 02 sau khi chạy thử ứng dụng theo kịch bản 01…… Trang 62
Hình 3.7
- Kết quả 03 sau khi chạy thử ứng dụng theo kịch bản 01…… Trang 63
Hình 3.8
- Kết quả 01 sau khi chạy thử ứng dụng theo kịch bản 02…… Trang 64
Hình 3.9
- Kết quả 02 sau khi chạy thử ứng dụng theo kịch bản 02…… Trang 64
Hình 3.10
- Kết quả 03sau khi chạy thử ứng dụng theo kịch bản 02…… Trang 65
Hình 3.11
- Kết quả 01 sau khi chạy thử ứng dụng theo kịch bản 03…… Trang 66
Hình 3.12
- Kết quả 02 sau khi chạy thử ứng dụng theo kịch bản 03…… Trang 66
Hình 3.13
- Kết quả 03 sau khi chạy thử ứng dụng theo kịch bản 03…… Trang 67
1
PHẦN MỞ ĐẦU
- Nghiên cứu phương pháp kết hợp các đặc trưng màu sắc hình dạng và vị trí để
truy vấn ảnh[2], Nguyễn Thị Hoàn – Phương pháp trích chọn đặc trưng ảnh trong
thuật toán học máy tính tìm kiếm ảnh áp dụng vào bài toán tìm kiếm sản
phẩm[3]…nhưng tất cả đều dựa trên một hay nhiều đặc trưng cụ thể của ảnh và
mỗi phương pháp đều thể hiện được những ưu điểm nổi bật riêng.
Trong giới hạn của luận văn này, với mục đích nghiên cứu áp dụng các thuật
toán để tạo ra một phương pháp truy vấn ảnh theo đặc trưng hình dạng nhằm phục
vụ giải quyết bài toán trước mắt là truy vấn các biển báo trong giao thông đường
bộ. Chính vì vậy, mà toàn văn được lựa chọn tiêu đề “Nghiên cứu phƣơng pháp
truy vấn ảnh theo đặc trƣng hình dạng” và CSDL ảnh sử dụng phục vụ nghiên
cứu chỉ xem xét đến phạm vi ảnh tĩnh các biển báo giao thông đường bộ. Nội dung
chính của luận văn này gồm 03 chương nội dung với cấu trúc như sau:
Chƣơng 1: Khái quát về truy vấn ảnh và truy vấn dựa vào hình dạng
Trình bày khái quát về các phương pháp truy vấn ảnh hiện có hay đã được
nghiên cứu như: truy vấn theo nội dung, truy vấn theo bản thể, truy vấn theo đồ thị.
Đồng thời giới thiệu mô hình hệ thống truy vấn ảnh theo nội dung trong đó có một
số phương pháp như: truy vấn ảnh theo hình dạng, truy vấn ảnh theo nội dung, truy
vấn ảnh theo đối tượng, truy vấn ảnh kết hợp với máy học.
Chƣơng 2: Một số vấn đề trong truy vấn ảnh dựa vào hình dạng.
Trình bày về việc trích chọn đặc trưng hình dạng trong ảnh, đánh giá độ
tương tự và xây dựng sơ đồ đánh chỉ số đồng thời nêu giải pháp tương tác với
người dùng.
Chƣơng 3: Truy vấn biển báo giao thông dựa vào hình dạng.
Nêu lên bài toán truy vấn các ảnh biển báo giao thông dựa vào hình dạng từ
đó phân tích hướng giải quyết và xây dựng chương trình để giải quyết bài toán,
những hạn chế và khả năng mở rộng trong tương lai.
3
Phần kết luận: Tóm lược các kết quả đạt được và định hướng một số nội
dung tiếp tục nghiên cứu trong thời gian tới
pixel gồm một cặp toạ độ x, y và màu, cặp toạ độ x, y tạo nên độ phân giải. Vậy
khi được số hoá thì ảnh được biểu diễn 2 chiều, tập ảnh với các điểm ảnh I(x, y)
5
(0<x≤ W; 0<y≤ H; trong đó W, Y lần lượt là chiều rộng và chiều cao của ảnh).
Một pixel thường được lưu trữ trên 1, 4, 8 hay 24 bit trên máy tính.
- Mức xám và màu: là số các giá trị có thể có của các pixel của ảnh. Mức xám
là kết quả của sự mã hoá tương ứng với cường độ sáng của mỗi điểm ảnh với một
giá trị số. Cách mã hoá kinh điển thường dùng là 16, 32 hay 64 mức. Hiện nay, mã
hoá 256 mức là thông dụng vì mỗi pixel được mã hoá 8 bit (2
8
= 256).
- Ảnh đen trắng: là ảnh có hai màu đen và trắng (không chứa màu khác) với
các mức xám ở các điểm ảnh có thể khác nhau.
- Ảnh nhị phân: tuỳ theo vùng các giá trị mức xám của điểm ảnh, mà các ảnh
được phân chia ra thành ảnh màu, ảnh xám, hay ảnh nhị phân. Khi trên một ảnh chỉ
có giá trị 0 hoặc 1 thì ta nói đó là một ảnh nhị phân hoặc ảnh đen trắng và các điểm
ảnh của nó gọi là điểm ảnh nhị phân.
- Ảnh màu: chỉ đề cập đến không gian màu RGB (Red, Green, Blue), người ta
dùng 3 byte để mô tả mức màu, khi đó gia trị màu trong khoảng {0, 2
3x 8
}.
Một số ứng dụng trong thực tế đòi hỏi chúng ta cần thực hiện quá trình tìm
kiếm các ảnh (truy vấn ảnh) từ trong kho dữ liệu được lưu trữ sẳn (CSDL). Kho
lưu trữ này thường là một kho cục bộ được lưu trữ trên các thiết bị ghi nhớ hoặc là
một kho lưu trữ được liên kết thông qua môi trường Internet từ nhiều kho khác
nhau. Quá trình tìm kiếm này thường trích chọn một số tiêu chí riêng biệt hay kết
hợp nhiều tiêu chí như tên lưu trữ, nội dung mô tả, màu sắc, độ sáng của ảnh, sau
đó quá trình truy vấn sẽ so sánh các tiêu chí này của ảnh gốc so với các tiêu chí
của các ảnh trong kho lưu trữ và cho ra kết quả cần tìm.
- Ảnh có thể thu nhận qua camera. Thường ảnh thu nhận qua camera là tín
hiệu tương tự (loại camera ống kiểu CCIR), nhưng cũng có thể là tín hiệu số hoá
(loại CCD - Charge Coupled Device).
- Ảnh có thể thu nhận từ vệ tinh qua các bộ cảm ứng (sensor), hay ảnh, tranh
được quét qua scanner.
Kết quả truy vấn
Thu nhận ảnh
Số hoá
Phân tích ảnh
Lƣu trữ
Hệ quyết định
Lƣu trữ
7
b. Quá trình “số hóa” (Digitalizer): để biến đổi tín hiệu tương tự sang
tín hiệu rời rạc (lấy mẫu) và số hóa bằng lượng hóa, trước khi chuyển sang giai
đoạn xử lý, phân tích hay lưu trữ lại.
c. Quá trình “phân tích ảnh”: bao gồm nhiều công đoạn nhỏ. Trước tiên
là công việc tăng cường hình ảnh (Image Enhancement) để nâng cao chất lượng
hình ảnh. Do những nguyên nhân khác nhau: có thể do thiết bị thu nhận ảnh, do
nguồn sáng hay do nhiễu, ảnh có thể bị suy biến. Do vậy cần phải tăng cường và
khôi phục (Image Restoration) lại ảnh để làm nổi bật một số đặc tính chính của ảnh,
hay làm cho ảnh gần giống với trạng thái gốc- trạng thái trước khi ảnh bị biến dạng.
Giai đoạn tiếp theo là phát hiện các đặc tính như biên (Edge Detection), phân vùng
ảnh (Image Segmentation), trích chọn các đặc tính (Feature Extraction),v.v
d. Quá trình “kết quả truy vấn”: tuỳ theo mục đích của ứng dụng, sẽ là
kết quả truy vấn, phân lớp hay thực hiện các quyết định khác.
Ngày nay, có nhiều hệ thống truy vấn ảnh (sử dụng mang tính thương mại
và thực nghiệm) được phát triển. Ảnh được nghiên cứu và phát triển bao gồm ảnh
những khó khăn trên. Các cách tiếp cận sau thường được sử dụng để chú giải ảnh:
- Từ khoá: danh sách các từ được phép sử dụng để chú giải ảnh được hạn
chế làm cho việc tìm kiếm dễ dàng hơn.
- Phân loại: có nhiều hệ thống phân loại có khả năng phân loại theo nhiều
phương diện khác nhau thành các cây phân cấp theo chủ đề. Một ảnh có thể chú
thích bằng một tập các chủ đề mô tả ảnh đó. Ví dụ: ảnh trên một chiếc phong bì vẽ
một toà lâu đài có thể liên quan tới lớp “phong bì” và lớp “lâu đài”.
9
- Mô tả ảnh: sử dụng những câu mô tả các đối tượng ảnh có trong ảnh. Hệ
thống tra cứu thông tin có nhiệm vụ đánh chỉ số các văn bản này để có thể tìm
kiếm bằng từ khoá.
Các bản thể tạo thành hạt nhân của của các hệ thống tra cứu ảnh ngữ nghĩa
được sử dụng cho ba mục đích:
- Thuật ngữ chú giải: mô hình bản thể cung cấp thuật ngữ và các khái niệm
để diễn tả dữ liệu về dữ liệu (metadata) của các ảnh.
- Tìm kiếm theo cách nhìn: các bản thể của một mô hình, chẳng hạn Sự kiện,
Con người hoặc Vị trí cho ta các cách nhìn khác nhau vào cùng một nội dung giới
thiệu. Mỗi cách nhìn bao gồm các lớp và các trường hợp ví dụ biểu diễn bằng
metaphor của một trình duyệt hệ thống file trong đó các lớp tương ứng với các thư
mục và các trường hợp ví dụ tương ứng với các file.
- Duyệt ngữ nghĩa: sau khi tìm kiếm được tâm điểm chú ý là một ảnh nào
đó, mô hình bản thể ngữ nghĩa cùng với dữ liệu ảnh ví dụ có thể được sử dụng để
tìm ra mối quan hệ giữa ảnh được lựa chọn và các ảnh trong cơ sở dữ liệu ảnh. Các
ảnh này sẽ được đưa ra cho người sử dụng chọn. Những ảnh đó có thể không phù
hợp hoàn toàn với truy vấn nhưng nói chung là tương đối phù hợp.
1.1.2.2. Truy vấn ảnh theo nội dung:
Phương pháp này áp dụng dựa trên nguyên lý rút trích các thông số đặc
trưng của ảnh như: màu sắc (mức xám), hình dạng (biên), vị trí…Hiện đã có nhiều
công trình nghiên cứu về phương pháp này và theo nhiều hướng tiếp cận khác
màu sắc của ảnh có tác động lớn đến nhận thức của con người về nội dung của ảnh
hơn là các đặc điểm khác như hình dạng của các đối tượng ảnh, kết cấu của ảnh
hay sự phân bố không gian của các đối tượng ảnh.
Màu sắc được biểu diễn thông qua một véctơ 3 chiều sẽ có khả năng biểu
diễn tốt hơn so với việc chỉ sử dụng giá trị độ xám của ảnh (1 chiều). Một số
phương pháp mô tả nội dung màu sắc của ảnh như:
11
1.2.1. Không gian màu:
Mỗi điểm ảnh trên một bức ảnh có thể được biểu diễn bằng một điểm trong
một không gian màu 3 chiều. Những không gian màu được sử dụng nhiều nhất
trong các hệ thống tra cứu ảnh là RGB, CMY, HSV, CIE L*a*b, CIE L*u*v và
không gian màu đối lập.
Tính chất quan trọng nhất để một không gian màu phù hợp để sử dụng trong
một hệ thống tra cứu ảnh là tính đồng nhất. Một không gian màu được gọi là có
tính đồng nhất nếu các cặp 2 màu tương tự nhau trong không gian màu thì cũng
được con người cảm nhận như nhau hay khoảng cách đo được giữa hai màu bất kỳ
phải có liên quan trực tiếp với độ tương tự sinh học giữa hai màu đó.
RGB là không gian màu được sử dụng phổ biến nhất để hiển thị ảnh. Không
gian RGB bao gồm 3 thành phần màu là Đỏ (Red), Xanh lá cây (Green) và Xanh
lam (Blue). Các thành phần này gọi là màu cộng bởi vì các màu sắc trong không
gian RGB đều có thể thu được bằng cách cộng 3 thành phần màu này lại với nhau.
CMY là không gian màu thường sử dụng trong in ấn. Ba thành phần màu
của không gian CMY là màu xanh lơ (Cyan), hồng sẫm (Magenta) và vàng
(Yellow). Ba thành phần này gọi là các thành phần màu trừ vì mỗi màu trong
không gian CMY được sinh ra bởi sự hấp thụ các thành phần màu đó.
Cả RGB và CMY đều phụ thuộc thiết bị và không có tính đồng nhất.
Không gian màu HSV được sử dụng rộng rãi trong đồ hoạ máy tính và được
coi là một phương pháp biểu diễn màu sắc trực quan hơn. Ba thành phần màu là
sắc màu (hue), độ bão hoà màu (s) và giá trị độ sáng (v). Thành phần sắc màu
N
1
1
(1.1)
2
1
)(
1
i
N
j
iji
f
N
(1.2)
3
1
3
)(
1
N
j
trong những bước đầu tiên của quá trình tra cứu ảnh với mục đích làm giảm kích
thước không gian tìm kiếm trước khi áp dụng các phương pháp phức tạp hơn để
truy vấn.
1.2.3. Lược đồ màu (Histogram màu):
Histogram màu là cách hiệu quả để biểu diễn nội dung màu của một bức ảnh
trong trường hợp mẫu màu của bức ảnh đó là duy nhất trong tập hợp các ảnh trong
cơ sở dữ liệu. Histogram màu dễ tính toán và rất hiệu quả để biểu diễn cả sự phân
bố màu tổng quan và sự phân bố màu cục bộ của ảnh. Ngoài ra, histogram màu
không bị ảnh hưởng bởi sự dịch chuyển hay sự quay của ảnh và rất ít bị ảnh hưởng
của tỉ lệ và góc nhìn ảnh.
Do mỗi điểm ảnh được mô tả bằng ba thành phần trong một không gian ảnh
xác định (ví dụ: ba thành phần Đỏ (R), Xanh lục (G) và Xanh da trời (B) trong
không gian màu RGB hay ba thành phần là sắc màu (H), độ bão hoà màu (S) và
giá trị màu (V) trong không gian HSV) nên có thể định nghĩa cho mỗi thành phần
màu một histogram tức là một sự phân bố một số lượng điểm ảnh cho mỗi bin
lượng tử màu. Cụ thể hơn là càng sử dụng nhiều bin màu thì khả năng biểu diễn
càng tốt. Tuy nhiên việc sử dụng quá nhiều bin màu không chỉ làm tăng khối
lượng tính toán mà còn không thích hợp để xây dựng một sơ đồ đánh chỉ số hiệu
14
quả cho cơ sở dữ liệu ảnh. Hơn nữa việc lượng tử hoá quá mịn cũng không thật
cần thiết trong nhiều trường hợp.
Một cách để làm giảm số lượng bin màu là sử dụng không gian màu đối lập
cho phép làm giảm số lượng mẫu độ sáng của ảnh. Một cách khác là sử dụng các
phương pháp phân cụm để xác định K màu tốt nhất trong một tập hợp ảnh xác
định, mỗi một màu trong K màu tốt nhất đó được coi là một bin màu. Do quá trình
phân cụm tính toán sự phân bố màu của tất cả các ảnh trong cơ sở dữ liệu nên sẽ
được giảm thiểu được số lượng các bin màu không chứa hoặc chứa rất ít điểm ảnh.
Một cách khác là sử dụng các bin màu có chứa nhiều điểm ảnh nhất, khi đó
chỉ cần một số lượng nhỏ bin màu cũng biểu diễn được đặc trưng quan trọng nhất