i
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
HOÀNG TRẦN HIẾU
TÌM HIỂU MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN
ĐẶC TRƢNG ẢNH VÀ THỬ NGHIỆM
TÌM KIẾM ẢNH
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
2.1.3.3 Đặc trưng tương quan màu (AutoCorrelogram) 23
2.1.4 Các loại độ đo màu 26
2.1.4.1 Độ đo khoảng cách min- max 26
2.1.4.2 Độ đo khoảng cách Euclid 27
2.1.4.3 Độ đo khoảng cách toàn phương: 27
iii
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
2.1.4.4 Độ đo Jensen – Shannon diergence (JSD): 27
2.2 TRÍCH CHỌN ĐẶC TRƯNG THEO KẾT CẤU ẢNH 28
2.2.1 Khái niệm 28
2.2.2 Một số loại kết cấu tiêu biểu 28
2.2.3 Đặc trưng kết cấu ảnh 28
2.2.4 Độ tương đồng kết cấu ảnh 29
2.2.4.1 Mật độ đường biên và hướng biên 29
2.2.4.2 Phân hoạch màu nhị phân cục bộ 31
2.2.4.3 Ma trận đồng hiện và đối tượng đồng hiện 31
2.2.4.4 Độ đo năng lượng của kết cấu dựa vào luật đo 34
2.2.4.5 Tương quan tự động và năng lượng 35
2.2.5 Phân đoạn cho kết cấu 36
2.3 TRÍCH CHỌN ĐẶC TRƯNG THEO HÌNH DẠNG ẢNH 36
2.3.1 Khái niệm 36
2.3.2 Các kỹ thuật phát hiện biên ảnh 37
2.3.2.1 Kỹ thuật phát hiện biên trực tiếp 38
2.3.3.2 Kỹ thuật phát hiện biên gián tiếp 48
2.3.3 Các đặc trưng về biên cạch 48
2.3.3.1 Lược đồ hệ số góc (Edge Direction Histogram) 48
2.3.3.2 Véc – tơ liên kết hệ số góc (Edge Direction Coherence Vector) 49
2.4 Kết luận chƣơng 2: 51
CHƢƠNG 3: THỬ NGHIỆM TÌM KIẾM ẢNH 52
Hình 1.7: Một số loại kết cấu trong tự nhiên 7
Hình 1.8: Sơ đồ tìm kiếm ảnh nội dung ảnh 8
Hình 1.9 Hình minh hoạ trả về của Google Image Swirl 9
Hình 1.10 Hình minh hoạ trả về của Tiltomo 9
Hình 1.11 Hình minh hoạ trả về của Byo Image Search 10
Hình 2.1 Hình mô tả ba màu cơ bản Red-Green-Blue 14
Hình 2.2. Sự biến đổi từ RGB thành CMY 15
Hình 2.3: Hệ màu CMY 16
Hình 2.4: Hệ màu HSI 17
Hình 3.5: Không gian màu HSI 17
Hình 2.6 Hình minh họa sự thay đổi độ sáng trong hệ HSI 18
Hình 2.7 . Mô hình màu HLS 18
Hình 2.8.Ảnh trong hệ màu RGB 20
Hình 2.9.Ảnh trong hệ màu HSI 21
Hình 2.10. Lược đồ màu của ảnh sau khi lượng tử hóa 21
Hình 2.11: Ảnh trong hệ màu RGB 22
Hình 2.12: Ảnh trong hệ màu HSI 22
Hình 2.13: Màu đỏ thể hiện liên kết màu trong ảnh 22
Hình 2.15. Một số loại kết cấu trong tự nhiên 28
Hình 2.16. Đường bao ảnh 37
vi
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hình 2.17. Minh họa biên ảnh 38
Hình 2.18 Ảnh minh họa làm mảnh biên 44
Hình 2.19. Hình biên ảnh sau khi dùng phương pháp Gradient 44
Hình 2.20. Hình sau khi làm mảnh biên 44
Hình 2.21. Minh họa nguyên lý Bellman. 46
Hình 2.22 Hình mô tả tìm biên theo phương pháp quy hoạch động 48
Hình 2.23.Ảnh minh hoạ hệ số góc 49
số khổng lồ.
Vấn đề đặt ra là với CSDL ảnh lớn như vậy, để tìm kiếm được ảnh đáp ứng yêu
cầu người dùng thì cần phải có một hệ thống hỗ trợ tìm kiếm ảnh một cách nhanh
chóng, chính xác cao và tiện lợi. Các công cụ tìm kiếm ảnh theo nội dung văn bản
đi kèm ảnh với thời gian đáp ứng khá nhanh tuy nhiên, các công cụ này vẫn còn hạn
chế trong việc giải quyết giữa nội dung câu truy vấn và nội dung hiển thị của ảnh trả
về. Sự ra đời của các công cụ tìm kiếm ảnh theo nội dung đã giải quyết được vấn đề
này.
Một trong những bước quan trọng của việc tìm kiếm ảnh theo nội dung đó là
bước trích chọn đặc trưng ảnh. Trích chọn đặc trưng ảnh trong CSDL ảnh có sẵn để
đưa ra các bộ ảnh được huấn luyện. Từ ảnh yêu cầu gửi vào ta cũng trích chọn đặc
trưng ảnh này theo phương pháp đã được sử dụng rồi đối sánh với bộ ảnh được
huấn luyện trong CSDL ảnh để trả lại kết quả tìm kiếm.
Phương pháp trích chọn đặc trưng ảnh là một bước rất quan trọng trong quá
trình tìm kiếm ảnh. Nó ảnh hưởng trực tiếp đến hiệu quả của công cụ tìm kiếm.
2
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Chính vì vậy trong khuân khổ một luận văn thạc sỹ em chọn để tài: “Tìm hiểu một
số phƣơng pháp trích chọn đặc trƣng ảnh và thử nghiệm tìm kiếm ảnh” nhằm
tìm hiểu kỹ về các kỹ thuật trích chọn đặc trưng của ảnh, nhằm hiểu rõ hơn bản chất
của bài toán tìm kiếm ảnh theo nội dung từ đó lựa chọn được được phương pháp
thích hợp trong quá trình tìm kiếm ảnh vào những trường hợp cụ thể.
Luận văn gồm 3 chương với các nội dung như sau:
Chương 1: Trình bày đặc trưng ảnh và bài toán tìm kiếm ảnh. Chương này sẽ
trình bày đặc trưng theo văn bản đi kèm ảnh, tìm kiếm ảnh theo văn bản đi kèm.
Phần tiếp theo của chương luận văn sẽ trình bày khái quát các đặc trưng ảnh. Các
đặc trưng đó là màu sắc, kết cấu và hình dạng ảnh. Phần cuối của chương nêu lên
một số hệ tìm kiếm ảnh trên mạng.
Chương 2: Tìm hiểu sâu, phân tích kỹ hơn về các đặc trưng ảnh. Các phương
phương pháp.
4
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
1.2 Đặc trƣng văn bản đi kèm ảnh và tìm kiếm ảnh theo đặc trƣng văn bản
đi kèm
Mỗi ảnh trên Web thường có các văn bản đi kèm như là tên ảnh (title), các thẻ
(tag), bình luận (comment)… để mô tả các thông tin về ảnh, đây là các siêu dữ liệu
(metadata) về ảnh. Các dữ liệu này thường do người dùng tự đặt, công việc này
được làm một cách thủ công, sau khi tạo ra rồi gắn cho mỗi ảnh, vì vậy chúng đều
mang một ý nghĩa nhất định.
Vì văn bản đi kèm ảnh mang ngữ nghĩa về nội ảnh cho nên hai bức ảnh có
nội dung giống nhau thường có tên giống nhau và các thẻ tương tự nhau. Vì vậy,
các công cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trung khai thác nội dung
của các văn bản này để tìm kiếm và xếp hạng ảnh. Phương pháp này cho kết quả
khả quan cũng như đáp ứng nhanh nhu cầu của người sử dụng. Tuy nhiên, với các
câu truy vấn mang ý nghĩa không rõ ràng có thể các kết quả trả về không đúng như
yêu cầu đặt ra. Ví dụ truy vấn là “d-80”, “một máy ảnh phổ biến của Nikon”, hình
1.1, thì hệ thống trả về kết quả khá tốt. Tuy nhiên, với truy vấn “apple”, nếu người
dùng muốn tìm quả táo thì kết quả đầu tiên không thỏa mãn (logo của hãng Apple),
hình 1.2, đó là hạn chế thứ nhất của việc tìm kiếm ảnh dựa trên đặc trưng văn bản đi
kèm ảnh.
Hình 1.1 Hình 1.2
What? Who?
Hình 1.5 Hình khó mô tả bằng trực quan
Đây là hạn chế thứ hai trong việc tìm kiếm ảnh theo đặc trưng văn bản đi
kèm ảnh.
6
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hơn nữa, cách gán các nhãn cho mỗi ảnh được thực hiện thủ công, bên cạnh
đó ảnh tăng lên ngày một chóng bởi sự phát triển nhanh và mạnh của các máy ảnh
kỹ thuật số, việc gán thủ công là rất tốn kém. Một hướng nghiên cứu nhằm khắc
phục vấn đề trên là tìm kiếm ảnh theo chính các đặc trưng trích rút từ nội dung của
ảnh. Hình 1.6 Sơ đồ tìm kiếm ảnh theo đặc trƣng văn bản đi kèm ảnh
1.3 Đặc trƣng nội dung ảnh và tìm kiếm ảnh theo nội dung
Tìm kiếm ảnh theo nội dung (Content Based Images Retrieval CBIR) hay truy
vấn theo nội dung ảnh (Query Based Image Content QBIC) là một ứng dụng của thị
giác máy tính đối với bài toán tìm kiếm ảnh [17]. “Dựa vào nội dung ảnh (Content-
Based) ” nghĩa là việc tìm kiếm sẽ phân tích nội dung thực sự của các bức ảnh. Nội
dung ảnh ở đây được thể hiện bằng màu sắc, hình dạng, kết cấu ảnh (texture), các
đặc trưng cục bộ (local features), hay bất cứ thông tin nào có từ chính nội dung
7
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
ảnh. Cụm từ CBIR được T.Kato đưa ra vào năm 1992 trong quá trình thu thập ảnh
một cách tự động từ cơ sở dữ liệu dựa trên biểu diễn màu sắc và hình dạng của ảnh.
Tee Cheng Siew đã giới thiệu một số đặc trưng nội dung ảnh[10]:
• Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụng phổ
biến nhất trong tìm kiếm ảnh theo nội dung. Mỗi một điểm ảnh (thông tin màu sắc)
một đối tượng được dùng trong phân lớp, so sánh và nhận dạng đối tượng. Thực tế,
đã có nhiều máy tìm kiếm cho phép tìm kiếm ảnh theo nội dung ảnh, tuy nhiên, các
máy tìm kiếm này thường chỉ khai thác vào một phần nội dung của ảnh.
Hình 1.8: Sơ đồ tìm kiếm ảnh nội dung ảnh
1.4 Một số chƣơng trình minh họa tìm kiếm ảnh theo nội dung
• Google Image Swirl: Là một thử nghiệm tìm kiếm hình ảnh theo nội dung
của Google, trong đó, kết quả tìm kiếm được sẽ được tổ chức lại dựa vào hiển thị
trực quan và độ tương đồng ngữ nghĩa giữa các ảnh. Google Image Swril phân cụm
9
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
tốp đầu các kết quả trả về cho trên 200.000 câu truy vấn và cho phép hiển thị hình
ảnh dưới dạng các cụm và mối quan hệ giữa các ảnh.
Hình 1.9 Hình minh hoạ trả về của Google Image Swirl
• Tiltomo: Là một công cụ dựa trên Flickr và duy trì chính cơ sở dữ liệu ảnh
của Flickr. Nó cho phép tìm kiếm ảnh dựa vào độ tương đồng về chủ đề, màu sắc
hay kết cấu. Hình 1.10 Hình minh hoạ trả về của Tiltomo
nhược điểm của phương pháp tìm kiếm ảnh theo văn bản đi kèm ảnh và cho ra
những kết quả khả quan. Chương 2 luận văn sẽ trình bày về các đặc trưng, cách
trích chọn đặc trưng ảnh phục vụ trong tìm kiếm ảnh số.
11
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
CHƢƠNG 2: MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN ĐẶC TRƢNG
ẢNH
Trích chọn đặc trưng là cơ sở của việc tìm kiếm ảnh dựa vào nội dung. Theo
nghĩa rộng, các đặc trưng có thể bao gồm cả các đặc trưng dựa vào văn bản và các
đặc trưng trực quan như màu, kết cấu hay hình dạng. Trong phạm vi đặc trưng trực
quan, các đặc trưng có thể được phân loại tiếp thành các đặc trưng chung và các đặc
trưng trong từng lĩnh vực cụ thể. Các đặc trưng trực quan chung gồm màu, kết cấu,
và hình dạng trong khi các đặc trưng lĩnh vực cụ thể là phụ thuộc ứng dụng. Các
đặc trưng lĩnh vực cụ thể bao gồm nhiều tri thức lĩnh vực.
Nhìn chung, không tồn tại một biểu diễn đơn tốt nhất cho một đặc trưng đã
cho. Với mọi đặc trưng được cho tồn tại nhiều biểu diễn mô tả đặc trưng từ các tình
huống khác nhau.
2.1 TRÍCH CHỌN ĐẶC TRƢNG THEO MÀU ẢNH
2.1.1 Màu sắc
2.1.1.1 Khái niệm màu sắc
Màu ảnh là một yếu tố đặc trưng hết sức cơ bản của ảnh. Ánh sáng màu là tổ
hợp của ánh sáng đơn sắc. Mắt người chỉ có thể cảm nhận được vài chục màu, song
lại có thể phân biệt được tới hàng ngàn màu. Có 3 thuộc tính chủ yếu trong cảm
nhận màu:
- Brightness: sắc màu, còn gọi là độ chói.
- Hue : sắc lượng, còn gọi là sắc thái màu.
- Saturation: độ bão hoà [1]
Sự nhận thức về màu sắc là rất quan trọng trong đời sống của con người. Sự
nhận thức về màu sắc phụ thuộc vào cả tính chất vật lý của ánh sáng và quá trình xử
hình thành trong đầu của người quan sát. Các mô hình đối lập dựa trên các phân
tích thực nghiệm phản ứng của con người đối với các thành phần đối lập cơ sở. Họ
các không gian màu HSB (Hue- Saturation-Brightness) thuộc lớp này. Mô hình
màu có thể phân biệt
o Mô hình hướng thiết bị: Định nghĩa theo thuộc tính của thiết bị dùng để hiển
13
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
thì màu như màn hình TiVi, màn hình máy tính và máy in. Các mô hình màu
hướng thiết bị là RGB, CMY, YIQ. Người dùng rất khó xử lý trên các mô hình này
vì nó không phản ánh trực tiếp các khái niệm trực giác màu sắc, sắc thái (còn gọi là
sắc độ, là độ đậm nhạt của màu sắc) và cường độ sáng.
o Mô hình hướng người dùng: Dựa trên khả năng cảm nhận màu sắc của con
người. Con người cảm nhận màu sắc thông qua các đối tượng trực giác màu sắc,
sắc thái và cường độ sáng. Các mô hình màu hướng ngừơi dùng là HSL, HSV,
HCV, HSB, MTM, L*u*v, L*a*b* và L*C*h .
Không gian màu là một cách biểu diễn toán học một tập các màu. Các không
gian màu có thể được phân vào 2 loại không gian màu: phụ thuộc thiết bị hay độc
lập thiết bị.
o Không gian màu độc lập thiết bị được chia thành nhiều không gian màu được
định theo chuẩn CIE như: XYZ, L*a*b và L*u*v, ứng dụng chính cho mục
đích đo màu .
o Không gian màu phụ thuộc thiết bị được chia vào 3 lớp rộng: không gian màu
in, không gian màu video, và không gian màu màn hình. Các không gian màu
in CMY, CMYK dựa trên màu mực được dùng trong ngành in và nhiếp ảnh.
Các không gian màu màn hình là các biến thể của không gian màu RGB, các
không gian màu video - tất cả đều tương tự như không gian màu YUV được phân
thành các không gian màu riêng tuỳ vào ứng dụng.
Mục đích của hệ màu là cho phép các chỉ số kỹ thuật quy ước của một số loại
màu sắc thích hợp với các màu sắc của một số gam màu khác. Chúng ta có thể nhìn
Người ta dùng hệ toạ độ ba màu R-G-B (tương ứng với hệ toạ độ x-y-z) để biểu diễn
màu như sau:
Hình 2.1 Hình mô tả ba màu cơ bản Red-Green-Blue
Mắt người có thể phân biệt hàng ngàn màu sắc khác nhau, những con số
chính xác hơn vẫn còn đang được bàn cãi nhiều. Ba màu RGB (Red-Green- Blue)
mã hóa hệ thống đồ họa sử dụng ba byte 2
24
hay khoảng chừng 16 triệu màu phân
biệt. Máy tính có thể phân biệt bất kỳ màu gì sau khi được mã hóa, nhưng việc mã
15
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
hóa có thể không trình bày được những sự khác biệt trong thế giới thực. Mỗi điểm
ảnh RGB bao gồm một byte cho màu R, một byte cho màu G và một byte cho màu
B. Việc mã hóa một màu tùy ý trong dãy hiển thị được làm bằng cách tổ hợp ba màu
B
G
R
mặt màu sắc đối với mắt người chỉ mang ý nghĩa tương đối. Do đó khi áp dụng vào
bài toán này trên máy tính thì ta cũng giả lập sự tương đối này. Phương pháp chính
của việc tìm kiếm theo màu sắc là dùng lược đồ màu để làm đặc trưng cho từng
17
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
ảnh. Do những đặc điểm riêng của
mô hình màu HSI và đặc trưng của
việc tìm kiếm nên tính lược đồ màu
cũng được dùng một mô mình rất đặc
biệt để phù hợp cho những đặc điểm
riêng này. Hình 2.4: Hệ màu HSI
Hình 3.5: Không gian màu HSI
Công thức chuyển đôi từ hệ màu RGB sang hệ HIS
Cho RGB c
1
(r,g,b) và HIS c
18
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
h=
Hình 2.7 . Mô hình màu HLS
19
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Chúng ta có thể xem mẫu HLS như một sự biến dạng của mẫu HSV mà trong
đó mãu này màu trắng được kéo hướng lên hình chóp sáu cạnh phía trên từ mặt V=
1. Như với mẫu hình chóp sáu cạnh đơn, phần bổ sung của một màu sắc được đặt ở
vị trí 180
o
hơn là xunh quanh hình chóp sáu cạnh đôi, sự bão hòa được đo xung
quanh trục đứng, từ 0 trên trục tới 1 trên bề mặt. Độ sáng bằng không cho màu đen
và bằng một cho màu trắng.
2.1.2.5 Hệ màu YIQ
Về cơ bản mô hình màu YIQ là sự biến thể hệ màu RGB bằng cách chuyển
đổi hiệu quả và duy trì sự tương thích với TV đơn sắc chuẩn. Thật sự, thành phần
Y của mô hình màu YIQ cung cấp tất cả các thông tin video yêu cầu bởi một tập
các TV đơn sắc. Công thức chuyển đổi từ RGB sang YIQ:
Q
I
Y
3111.0532.0212.0
321.0275.0596.0
114.0587.0299.0
Để lấy được các giá trị RGB từ tập YIQ, chúng ta chỉ cần thực hiện toán tử
đảo ma trận .Hệ màu YIQ được thiết kế giúp cho sự cảm nhận của con người về sự
thay đổi độ sáng chói tốt hơn sự thay đổi đặc trưng màu sắc (Hue) và độ thuần
khiết (Sataration). Lợi thế của YIQ trong việc xử lý ảnh là độ sáng chói (Y) và
thông tin màu (I và Q) được tách riêng ra. Sự quan trọng của việc tách riêng này
giúp cho việc xử lý thành phần Y của ảnh có thể không có ảnh hưởng đến nội dung
màu. Không gian màu này đều gây khó khăn cho người sử dụng vì nó không phản
ánh trực tiếp khái niệm giác quan của màu sắc: màu, sắc thái và độ sáng.
2.1.3 Đặc trưng màu sắc
2.1.3.1 Lược đồ màu (Histogram)
Là đại lượng đặc trưng cho phân bố màu cục bộ của ảnh .
Được định lượng:
H(I
D
, C
I
) =
( , )
()
DI
D
m I C
nI