Số hóa bởi Trung tâm Học liệu - ĐHTN
1
ĐẠI HỌC THÁI NGUYÊN
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP BỘ ĐỀ TÀI:
NGHIÊN CỨU ỨNG DỤNG MỘT SỐ KỸ THUẬT TRA CỨU ẢNH
VÀO THỰC TẾ
Mã số: B2007-TN07-04
Chủ nhiệm đề tài: Ths. Nguyễn Văn Tới
2009
1.4. Sử dụng kỹ thuật phân lớp dữ liệu để tính toán các bins màu 42
1.5. Thực nghiệm 43
1.6. Kết luận và hƣớng nghiên cứu tiếp theo 46
2. Một cách tiếp cận cho CBIR sử dụng thuật toán phân lớp K-Means và đặc trƣng hình
dạng dựa trên đa giác [4] 46
2.1. Giới thiệu 46
2.2. Những nghiên cứu liên quan 47
2.3. Trích rút đặc trƣng 47
2.4. Thuật toán phân lớp dữ liệu K-means 48
Số hóa bởi Trung tâm Học liệu - ĐHTN
3
2.5. Đặc trƣng hình dạng 49
2.6. Biểu diễn mờ 50
2.7. Thƣớc đo mức độ tƣơng tự giữa các vùng 51
2.8. So sánh các ảnh 52
2.9. Gán trọng số 53
2.10. Thực nghiệm 54
2.11. Kết luận 55
3. Sử dụng đặc tính cục bộ của vùng phục vụ tra cứu ảnh phong cảnh [1] 55
3.1.Giới thiệu 55
3.2.Các nghiên cứu liên quan 56
3.3. Kỹ thuật tra cứu đề xuất 57
3.3.1 Lựa chọn các thuộc tính màu 57
3.3.2 Trích rút và biểu diễn vùng 58
3.3.3 Tính độ tƣơng tự 61
3.4. Kết quả thử nghiệm 61
3.4.1 Môi trƣờng thử nghiệm 61
3.4.2 Các kết quả 61
2. Nội dung chính
- Nghiên cứu chuyên đề lý thuyết 1 (Tra cứu ảnh dựa trên màu sắc)
- Nghiên cứu chuyên đề lý thuyết 2 (Tra cứu ảnh dựa trên hình dạng)
- Thực hiện chuyên đề nghiên cứu thực nghiệm 1 (Cài đặt thử nghiệm phƣơng
pháp tra cứu ảnh dựa trên màu sắc).
- Thực hiện chuyên đề nghiên cứu thực nghiệm 2 (Cài đặt thử nghiệm phƣơng
pháp tra cứu ảnh dựa trên hình dạng).
Số hóa bởi Trung tâm Học liệu - ĐHTN
5
- Thực hiện chuyên đề nghiên cứu thực nghiệm 3 (Xây dựng chƣơng trình
phần mềm tra cứu ảnh)
3. Kết quả chính đạt đƣợc:
- Hoàn thành các chuyên đề nghiên cứu về các vấn đề lý thuyết và thực
nghiệm
- Đề xuất 01 cải tiến phƣơng pháp tra cứu ảnh dựa trên hình dạng [4]
- Đề xuất 02 cải tiến phƣơng pháp tra cứu ảnh dựa trên màu sắc [1,3]
- Đề xuất cải tiến 01 phƣơng pháp phân đoạn ảnh màu [2]
- Các cải tiến đƣợc công bố trong 02 công trình khoa học tại Tạp chí Khoa
học và công nghệ - Đại học Thái Nguyên [3,4] và một công trình tại Kỷ yếu hội thảo
quốc gia “Một số vấn đề chọn lọc của công nghệ thông tin và truyền thông” [1].
- Biên soạn 01 tài liệu tham khảo (lƣu hành nội bộ).
- Hƣớng dẫn 02 đề tài NCKH sinh viên năm 2009.
- Hƣớng dẫn 02 đồ án tốt nghiệp năm 2007. Số hóa bởi Trung tâm Học liệu - ĐHTN
6
rd
theoretic subject (Developing Photo Explore system) Số hóa bởi Trung tâm Học liệu - ĐHTN
7
3. Results Obtained:
- Completed the theoretic and experimental subjects
- Improved 01 method of shape based image retrieval
- Improved 02 methods of color based image retrieval
- Improved 01 method of color image segmentation
- The improvings published in proceedings of the national conference and
Thai Nguyen University’s Journal of Science and Technology.
- Edited “Image retrieval” book. Supervising of 02 scientific research for
student projects (2009) and 02 graduate student thesis (2007).
Số hóa bởi Trung tâm Học liệu - ĐHTN
8
CHƢƠNG 1. MỞ ĐẦU
Những năm gần đây, ảnh số ngày càng thu hút đƣợc sự quan tâm của nhiều
ngƣời, một phần là do các thiết bị thu nhận ảnh số ngày càng phổ biến và có giá cả
phù hợp, cho phép nhiều ngƣời có thể sở hữu và sử dụng. Mặt khác các công nghệ
chế tạo thiết bị lƣu trữ luôn đƣợc cải tiến để cho ra đời các thiết bị lƣu trữ có dung
lƣợng lớn và giá thành hạ làm cho việc lƣu trữ ảnh dƣới dạng các file trở nên phổ
biến. Thêm nữa là sự phát triển của mạng Internet làm cho số lƣợng ảnh số đƣợc
đƣa lên lƣu trữ và trao đổi qua Internet là rất lớn. Năm 2006, trên 300 triệu hình ảnh
đã đƣợc tải lên Flickr, một trong những cộng đồng chia sẻ hình ảnh lớn nhất trên
internet. Con số này cho thấy thực tế là số lƣợng ảnh số đƣợc lƣu giữ trong các cơ
điều tra thu thập đƣợc mẫu vân tay trên hiện trƣờng, khi đó ngƣời ta cần tìm xem
mẫu vân tay đó khớp với vân tay của ai trong hàng chục triệu hình ảnh vân tay trong
cơ sở dữ liệu. Nếu có phần mềm thực hiện chính xác, nhanh chóng điều này thì giúp
ích rất nhiều cho công tác điều tra.
Một ví dụ nữa là trong lĩnh vực bảo tồn, bảo tàng, vấn đề lƣu trữ và tra cứu
ảnh số có vai trò ngày càng quan trọng. Ảnh của các tác phẩm hội hoạ, điêu khắc
hoặc các cổ vật đƣợc lƣu trữ dƣới dạng các file ảnh sẽ đảm bảo đƣợc chất lƣợng tốt
hơn, thời gian lƣu trữ lâu dài hơn và việc trao đổi hay giới thiệu với công chúng
cũng dễ dàng hơn. Bài toán tra cứu cổ vật xuất phát từ một thực tế của ngành bảo
tồn, bảo tàng là khi sƣu tầm đƣợc một cổ vật mới, ngƣời ta cần xác định hàng loạt
các thuộc tính nhƣ niên đại, chất liệu, nguồn gốc và có thể là chủ sở hữu của cổ vật
đó. Nếu có đƣợc sự trợ giúp của phần mềm tra cứu ảnh phù hợp thì ngƣời ta có thể
dễ dàng xác định xem mẫu cổ vật đó đã đƣợc lƣu trữ trong cơ sở dữ liệu nào hay
chƣa, có những loại cổ vật nào tƣơng tự với nó trong kho tàng cổ vật của thế giới và
phần mềm có thể đƣa ra ảnh của các loại cổ vật có màu sắc, hình dạng, hoa văn
tƣơng tự với cổ vật vừa tìm thấy. Những thông tin này sẽ giúp ích rất nhiều cho các
chuyên gia trong quá trình phân loại, kiểm chứng một cổ vật.
Đã có một số hệ thống tra cứu ảnh nổi tiếng nhƣ QBIC (IBM), Virage (Virage
Inc.), Photobook (MIT), VisualSEEK (Columbia University) [21, 41, 36, 13, 16].
Trƣớc năm 1990, ngƣời ta thƣờng sử dụng phƣơng pháp tra cứu ảnh theo văn
bản (Text Based Image Retrieval). Theo cách này ngƣời ta sẽ gán cho mỗi bức ảnh
một lời chú thích phù hợp với nội dung hoặc một đặc điểm nào đó của ảnh, sau đó
việc tra cứu ảnh đƣợc thực hiện dựa trên những lời chú thích này. Phƣơng pháp này
khá đơn giản, tuy nhiên lại không thể áp dụng để tra cứu các cơ sở dữ liệu ảnh có số
lƣợng ảnh lớn và kết quả tra cứu thì mang tính chủ quan và cảm ngữ cảnh [21,5]. Bởi
vì các kỹ thuật tra cứu dựa trên văn bản chỉ có thể đƣợc áp dụng khi hình ảnh đã đƣợc
Số hóa bởi Trung tâm Học liệu - ĐHTN
10
tận dụng đƣợc các đặc tính cục bộ của vùng của ảnh nhƣ màu và không gian. Đề tài
Số hóa bởi Trung tâm Học liệu - ĐHTN
11
này còn đề cập đến kỹ thuật tra cứu ảnh dựa vào các đặc tính cục bộ của vùng áp
dụng trong tra cứu các ảnh phong cảnh. Trong [32] đã phát triển kỹ thuật đối sánh
cặp màu để mô hình các đƣờng bao đối tƣợng phân biệt. Chua và cộng sự [16] đã
mở rộng kỹ thuật cặp màu để thực hiện tra cứu các ảnh đã đƣợc phân đoạn. Các hạn
chế trong nhiều kỹ thuật tra cứu dựa vào màu hiện có [32-30] bao gồm: thiếu khả
năng nhận dạng các đối tƣợng tƣơng tự có các màu khác nhau, nhạy cảm với tỷ lệ
của đối tƣợng. Chúng tôi đƣa ra kỹ thuật tra cứu ảnh dựa vào các đặc tính cục bộ
của vùng bao gồm màu và không gian áp dụng trong tra cứu các ảnh phong cảnh.
Kỹ thuật này nhằm khắc phục các hạn chế đã đƣợc đề cập ở trên thông qua một quá
trình ba bƣớc: Phân đoạn ảnh thành các cụm dựa vào màu (sử dụng thuật toán phân
lớp dữ liệu K-Means); Chia các ảnh thành dãy các hình chữ nhật bằng phƣơng pháp
phủ hình chữ nhật tối thiểu có độ thuần nhất; Cuối cùng, thông tin của vùng đƣợc
trích rút trong bƣớc thứ hai đƣợc sử dụng để tra cứu các ảnh liên quan từ một cơ sở
dữ liệu ảnh phong cảnh.
Với phƣơng pháp tra cứu ảnh dựa trên hình dạng, có nhiều nhóm nghiên cứu đã
đƣa ra những phƣơng pháp biểu diễn đặc trƣng hình dạng và thƣớc đo độ tƣơng tự khác
nhau. Yxin Chen [57] đƣa ra phƣơng pháp tiếp cận dựa trên hình dạng sử dụng logic mờ.
Đầu tiên, ảnh đƣợc phân đoạn thành một tập các vùng. Mỗi vùng đƣợc biểu diễn bởi một
tập mờ. Khoảng cách giữa hai ảnh đƣợc tính toán dựa trên việc so sánh khoảng cách giữa
tất cả các cặp vùng của 2 ảnh kết hợp với gán trọng số cho mỗi vùng. Cheng Chang [15]
đƣa ra phƣơng pháp biểu diễn đặc trƣng của vùng bởi một vector 15 chiều bao gồm các
thành phần màu đặc trƣng của vùng và các đặc trƣng hình dạng. Trong đề tài này, với mục
đích đơn giản hóa quá trình tính toán, chúng tôi đƣa ra hƣớng tiếp cận kết hợp hai phƣơng
pháp trên đồng thời đƣa ra cải tiến cách biểu diễn vector đặc trƣng của một vùng theo ý
tƣởng của Cheng Chang nhƣng chỉ sử dụng 6 thành phần (3 thành phần đặc trƣng màu sắc
1. Tổng quan về tra cứu ảnh
1.1. Vấn đề tra cứu ảnh
Tra cứu ảnh là một quá trình tìm kiếm trong một cơ sở dữ liệu ảnh những ảnh
thoả mãn một yêu cầu nào đó. Ví dụ, ngƣời sử dụng có thể tìm kiếm tất cả các ảnh
về chủ đề về biển trong một cơ sở dữ liệu ảnh hoặc một ngƣời sử dụng khác lại
muốn phân loại cơ sở ảnh của mình thành các bộ sƣu tập có chủ đề khác nhau. Một
ví dụ khác về tra cứu ảnh là một ngƣời muốn tìm tất cả các ảnh tƣơng tự với một
bức ảnh mẫu nào đó trong một cơ sở dữ liệu ảnh.
Hình 2.1: Vấn đề tra cứu ảnh
Vấn đề tra cứu ảnh đã đƣợc nhìn nhận rộng rãi và việc tìm kiếm các giải pháp
cho vấn đề này trở thành một lĩnh vực rất sôi động, thu hút sự quan tâm của nhiều
nhà nghiên cứu và phát triển.
Những kỹ thuật tra cứu ảnh số đã đƣợc nghiên cứu từ cuối những năm 70 của
thế kỷ 20. Năm 1979 một cuộc hội thảo chuyên đề về "Các kỹ thuật tổ chức cơ sở
dữ liệu cho các ứng dụng đồ hoạ" đƣợc tổ chức ở thành phố Florence, Italia. Từ đó
?
Holiday?
Số hóa bởi Trung tâm Học liệu - ĐHTN
14
đến nay, khả năng ứng dụng cao của các kỹ thuật quản lý cơ sở dữ liệu ảnh đã thu
hút sự quan tâm của nhiều nhà nghiên cứu [21,5].
1.2. Một số phƣơng pháp tra cứu ảnh
Các phƣơng pháp tra cứu ảnh đƣợc sử dụng đầu tiên không dựa trên các đặc điểm
trực quan của ảnh mà dựa trên các chú thích bằng lời của các bức ảnh, đầu tiên ngƣời ta
gán cho mỗi ảnh một câu chú thích bằng lời (text) dựa trên một đặc điểm nào đó của
ảnh, sau đó sử dụng các kỹ thuật tìm kiếm văn bản thông thƣờng để tìm kiếm ảnh.
phƣơng pháp tra cứu ảnh theo nội dung.
Năm 1992, Quỹ Khoa học Quốc gia (National Science Foundation) của Hoa Kỳ
đã tổ chức một buổi Hội thảo về các hệ thống quản lý thông tin trực quan để xác định
hƣớng đi mới cho các hệ thống quản lý cơ sở dữ liệu ảnh. Tại buổi hội thảo này
ngƣời ra phải công nhận với nhau rằng cách hiệu quả nhất để thể hiện và sắp xếp các
thông tin trực quan của một bức ảnh là phải dựa trên các thuộc tính đƣợc trích chọn
từ chính những bức ảnh đó. Tất cả các nhà nghiên cứu từ các lĩnh vực khác nhau nhƣ
thị giác máy tính (computer vision), quản lý cơ sở dữ liệu, giao diện ngƣời-máy và tra
cứu thông tin đã nhận thấy đây là một lĩnh vực nghiên cứu hấp dẫn [21,5].
Từ đó đến nay, những công trình nghiên cứu về tra cứu ảnh theo nội dung
đƣợc triển khai rất nhiều [38]. Từ năm 1997 những kết quả nghiên cứu về tra cứu
ảnh theo nội dung nhƣ các kỹ thuật trích chọn thông tin trực quan, tổ chức, sắp xếp,
thiết kế truy vấn, tƣơng tác với ngƣời dùng, quản lý cơ sở dữ liệu đƣợc công bố
ngày một nhiều[38]. Tƣơng tự nhƣ vậy, một số lƣợng lớn các mô hình nghiên cứu
cũng nhƣ sản phẩm thƣơng mại các hệ thống tra cứu ảnh theo nội dung đã đƣợc các
trƣờng đại học, các cơ quan nghiên cứu và các công ty tin học cho ra đời[38].
Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu:
o QBIC hay Query By Image Content do hãng IBM và Trung tâm
nghiên cứu Almaden hợp tác phát triển. Hệ thống này cho phép ngƣời sử
dụng dùng các công cụ đồ hoạ để mô tả và hiệu chỉnh truy vấn dựa trên
nhiều thuộc tính trực quan nhƣ màu sắc, kết cấu và hình dạng của đối tƣợng
ảnh. QBIC hỗ trợ các kiểu truy vấn dựa trên ảnh mẫu, dựa trên hình phác
thảo hoặc dựa trên các mẫu màu hoặc mẫu kết cấu [17].
o VIR Image Engine do Công ty Virage Inc. phát triển, cũng giống
nhƣ QBIC, hệ thống này cho phép tra cứu ảnh dựa trên các thuộc tính màu
sắc, kết cấu và cấu trúc [17].
o VisualSEEK và WebSEEK do trƣờng Đại học Tổng hợp Columbia
(Mỹ) phát triển. Cả hai hệ thống này đều hỗ trợ các cách tìm kiếm theo màu
sắc, kết cấu và bố cục không gian [17].
sự trợ giúp của các sơ đồ đánh chỉ số. Sử dụng sơ đồ đánh chỉ số là cách hiệu quả để
tìm kiếm trong các cơ sở dữ liệu ảnh. Một số hệ thống tra cứu ảnh mới phát triển
gần đây còn tích hợp cả chức năng xử lý phản hồi của ngƣời sử dụng để cải tiến các
qui trình tra cứu, đƣa ra những kết quả tra cứu tốt hơn.
Số hóa bởi Trung tâm Học liệu - ĐHTN
17
2.2. Mô hình hệ thống tra cứu ảnh theo nội dung Hình 2.2: Mô hình hệ thống Tra cứu ảnh theo nội dung
Trong mô hình này, ngƣời sử dụng sẽ tạo truy vấn bằng cách chọn một ảnh
mẫu trong một cơ sở dữ liệu ảnh cho trƣớc hoặc phác thảo một hình vẽ mô tả đối
tƣợng ảnh cần tìm bằng cách sử dụng một giao diện đồ hoạ của hệ thống. Ảnh mẫu
đó đƣợc đƣa qua khối mô tả nội dung trực quan, trong đó ngƣời ta sử dụng một
phƣơng pháp mô tả nội dung trực quan nào đó để trích chọn một đặc điểm nội dung
trực quan để xây dựng thành một vector đặc trƣng. Vector đặc trƣng của ảnh mẫu sẽ
đƣợc so sánh với vector đặc trƣng tƣơng ứng của các ảnh trong cơ sở dữ liệu ảnh.
Kết quả của phép so sánh là một chỉ số đánh giá độ tƣơng tự giữa ảnh mẫu và ảnh
lấy ra để so sánh. Dựa vào chỉ số độ tƣơng tự tính toán đƣợc ở trên, hệ thống sẽ sắp
xếp các ảnh tìm đƣợc trong cơ sở dữ liệu ảnh theo một sơ đồ đánh chỉ số nào đó.
Danh sách các ảnh tìm đƣợc (đã đƣợc sắp xếp) đƣợc đƣa ra đầu ra của hệ thống.
2.3. Các phƣơng pháp mô tả nội dung ảnh
Nếu nhìn một cách tổng quát thì nội dung của một bức ảnh có thể bao gồm cả
nội dung trực quan và nội dung ngữ nghĩa [21,5]. Nội dung trực quan của ảnh lại
đƣợc phân làm hai loại là nội dung tổng quan và nội dung đặc tả. Nội dung tổng
quan bao gồm màu sắc, kết cấu, hình dạng và các quan hệ không gian giữa các đối
Tạo truy vấn
dung đặc tả; với các ứng dụng tra cứu ảnh ô tô thì bánh xe là một nội dung đặc tả
[21,5]. Nội dung ngữ nghĩa có thể phát hiện thông qua các chú thích hoặc sử dụng
các phƣơng pháp suy diễn từ nội dung trực quan.
Một phƣơng pháp mô tả nội dung trực quan đƣợc thiết kế tốt phải có tính bất
biến đối với các biến đổi bất thƣờng sinh ra trong quá trình xử lý ảnh (ví dụ nhƣ
những biến đổi bất thƣờng của độ sáng của cảnh vật). Tuy nhiên cũng cần phải chú
ý tới sự cân bằng giữa tính bất biến và khả năng đáp ứng những thay đổi tuỳ ý của
các đặc trƣng trực quan của ảnh, bởi vì một hệ thống có tính bất biến lớn thì thƣờng
là không có tính nhạy cảm, mất khả năng phản ánh những thay đổi nhỏ nhƣng rất
quan trọng.
Phƣơng pháp mô tả nội dung trực quan đƣợc chia làm 2 loại: phƣơng pháp
toàn cục hoặc phƣơng pháp cục bộ. Phƣơng pháp mô tả nội dung toàn cục sử dụng
các đặc trƣng trực quan của toàn bộ bức ảnh còn phƣơng pháp mô tả nội dung cục
bộ lại sử dụng những đặc trƣng trực quan của các vùng ảnh hoặc các đối tƣợng ảnh
để mô tả nội dung của ảnh.
Để mô tả đƣợc nội dung cục bộ trƣớc hết ngƣời ta phải chia ảnh thành các
phần riêng biệt. Cách đơn giản nhất để phân chia ảnh là sử dụng một bộ phân hoạch
chia ảnh thành các ô có kích thƣớc và hình dạng giống nhau. Cách phân chia nhƣ
vậy không tạo ra đƣợc những vùng ảnh có ý nghĩa thực sự nhƣng nó là cách đơn
giản để biểu diễn nội dung toàn cục của ảnh với độ chính xác cao hơn. Một phƣơng
pháp phân chia tốt hơn là phân đoạn ảnh thành các vùng đồng nhất dựa vào các tiêu
chí sử dụng các thuật toán phân đoạn ảnh đã đƣợc nghiên cứu và áp dụng trong
ngành thị giác máy tính. Một cách phức tạp hơn để phân chia ảnh là thực hiện phân
chia theo các đối tƣợng ảnh để tách ra các đối tƣợng ảnh có nghĩa thực sự (nhƣ quả
bóng, cái ô tô hay con ngựa) [21, 8].
2.3.1. Mô tả các đặc điểm màu sắc
Trên thực tế thì màu sắc đƣợc sử dụng nhiều nhất để mô tả nội dung trực quan
của ảnh. Lý do là vì màu sắc của ảnh có tác động lớn đến nhận thức của con ngƣời
về nội dung của ảnh hơn là các đặc điểm khác nhƣ hình dạng của các đối tƣợng ảnh,
kết cấu của ảnh hay sự phân bố không gian của các đối tƣợng ảnh.
thay đổi khi ta thay đổi độ chiếu sáng hay góc quan sát vì vậy thích hợp để sử dụng
trong việc nhận dạng đối tƣợng ảnh. Cũng có thể dễ dàng chuyển đổi các giá trị từ
không gian HSV sang RGB và ngƣợc lại. Không gian màu đối lập sử dụng các trục
màu ngƣợc (R-G, 2B-R-G, R+G+B), cách biểu diễn này có ƣu điểm là tách đƣợc
thông tin về độ sáng ra một trục riêng biệt (trục thứ ba). Bằng cách này, hai thành
phần kết tủa màu sẽ không bị thay đổi khi thay đổi độ chiếu sáng.
Số hóa bởi Trung tâm Học liệu - ĐHTN
20
2.3.1.2. Các moment màu
Các moment màu đã đƣợc sử dụng rất thành công trong nhiều hệ thống tra cứu
ảnh đặc biệt là khi ảnh chỉ chứa một đối tƣợng ảnh. Các thành phần moment bậc
nhất (trung vị), bậc hai (phƣơng sai) và bậc ba (độ lệch) đã đƣợc chứng minh là có
thể đƣợc sử dụng rất hiệu quả để biểu diễn sự phân bố màu sắc của ảnh.
Công thức toán học để biểu diễn 3 moment này nhƣ sau:
N
j
iji
f
N
1
1
(2.1)
2
1
)(
1
i
N
với những thay đổi của cảnh nền và do đó làm giảm khả năng của hệ thống.
Do chỉ sử dụng 9 giá trị (3 moment cho mỗi màu trong bộ ba màu) để biểu
diễn nội dung màu của mỗi ảnh nên việc sử dụng moment màu để biểu diễn vector
đặc trƣng màu là rất đơn giản nếu so sánh với các phƣơng pháp biểu diễn khác. Và
cũng chính do sự đơn giản đó nên phƣơng pháp này cho kết quả khá hạn chế.
Thông thƣờng, phƣơng pháp biểu diễn bằng moment màu đƣợc sử dụng trong
những bƣớc đầu tiên của quá trình tra cứu ảnh với mục đích làm giảm kích thƣớc
không gian tìm kiếm trƣớc khi áp dụng các phƣơng pháp phức tạp hơn để tra cứu.
2.3.1.3. Lược đồ màu (histogram màu)
Histogram màu là cách hiệu quả để biểu diễn nội dung màu của một bức ảnh
trong trƣờng hợp mẫu màu của bức ảnh đó là duy nhất trong tập hợp các ảnh trong
cơ sở dữ liệu. Histogram màu dễ tính toán và rất hiệu quả để biểu diễn cả sự phân
Số hóa bởi Trung tâm Học liệu - ĐHTN
21
bố màu tổng quan và sự phân bố màu cục bộ của ảnh. Ngoài ra, histogram màu
không bị ảnh hƣởng bởi sự dịch chuyển hay sự quay của ảnh và rất ít bị ảnh hƣởng
của tỉ lệ và góc nhìn ảnh.
Do giá trị mỗi điểm ảnh đƣợc mô tả bằng ba thành phần trong một không gian
ảnh xác định (ví dụ: ba thành phần R, G và B trong không gian màu RGB hay ba
thành phần là sắc màu (H), độ bão hoà màu (S) và giá trị màu (V) trong không gian
HSV) nên có thể định nghĩa cho mỗi thành phần màu một histogram. Không gian
màu đƣợc chia thành một số bins, mỗi giá trị màu thuộc một bin nào đó, sau đó tính
sự phân bố một số lƣợng điểm ảnh cho mỗi bin lƣợng tử màu. Càng sử dụng nhiều
bin màu thì khả năng biểu diễn càng tốt. Tuy nhiên việc sử dụng quá nhiều bin màu
không chỉ làm tăng khối lƣợng tính toán mà còn không thích hợp để xây dựng một
sơ đồ đánh chỉ số hiệu quả cho cơ sở dữ liệu ảnh. Hơn nữa việc lƣợng tử hoá quá
mịn cũng không thật cần thiết trong nhiều trƣờng hợp.
Một cách để làm giảm số lƣợng bin màu là sử dụng không gian màu đối lập
ảnh hoặc các đối tƣợng ảnh. Ảnh đƣợc phân vùng càng nhỏ thì độ chính xác càng
cao nhƣng khối lƣợng tính toán cũng nhiều hơn.
2.3.1.4. Vector gắn kết màu
Một cách tiếp cận khác để đƣa thông tin về không gian vào histogram màu là
sử dụng vector gắn kết màu (Color Cohefeence Vector - CCV). Phƣơng pháp này
có thể tóm tắt nhƣ sau:
Mỗi bin màu đƣợc phân thành 2 loại: loại có gắn kết nếu nhƣ bin màu đó
thuộc vào vùng có màu đồng nhất lớn, ngƣợc lại thì gọi là không gắn kết. Ký hiệu α
i
là số lƣợng các điểm ảnh gắn kết trong bin màu thứ i và β
i
là số lƣợng các điểm ảnh
không gắn kết trong bin đó. Khi đó, CCV của một bức ảnh đƣợc định nghĩa là
vector: <(α
1
, β
1
),(α
2
, β
2
), , (α
N
, β
N
)>
Nhƣ vậy, <α
1
+ β
c(i)
là tập hợp các điểm ảnh có màu là c(i) thì có thể định
nghĩa sơ đồ tƣơng quan màu nhƣ sau:
]|||[Pr
21)(22,1
)(
,
)(
kppIp
jcIpIp
k
ji
ic
(2.4)
trong đó i, j {1, 2, , N}, k {1, 2, , d}, và |p
1
– p
2
| là khoảng cách giữa
hai điểm p
1
và p
2
. Nếu chúng ta tính toán cho tất cả các cặp màu có thể thì kích
thƣớc của sơ đồ tƣơng quan màu sẽ là rất lớn (O(N
2
d), vì vậy để đơn giản ngƣời ta
thƣờng sử dụng sơ đồ tự tƣơng quan màu. Sơ đồ tự tƣơng quan màu chỉ tính toán sự
liên hệ không gian của các cặp màu giống nhau và vì vậy giảm kích thƣớc sơ đồ
tƣơng quan màu xuống còn cỡ O(Nd).
vụ của hệ thống trƣớc hết là phải tách đƣợc đối tƣợng ảnh ra khỏi nền ảnh.
Cách biểu diễn hình dạng của đối tƣợng ảnh có thể chia thành hai kiểu:
[21,13]
o Theo đƣờng bao quanh (biên)
o Theo vùng
Cách biểu diễn theo đƣờng viền bao quanh chỉ sử dụng đƣờng biên bên ngoài
của hình dạng, điều này có thể thực hiện đƣợc bằng cách mô tả vùng đang quan tâm
bằng cách đặc tính bên ngoài của nó tức là các điểm ảnh dọc theo đƣờng viền bao
quanh đối tƣợng ảnh. Cách biểu diễn theo vùng sử dụng cả vùng ảnh bằng cách mô
tả vùng đang quan tâm bằng các đặc tính bên trong tức là các điểm ảnh ở bên trong
vùng đó.
Hình 2.3: Biểu diễn hình dạng theo đường biên và theo vùng
2.3.2.2. Xử lý ảnh trong miền tần số và biến đổi Fourier
Nhiều quá trình xử lý tín hiệu có thể đƣợc thực hiện trong một không gian
toán học nhƣ miền tần số. Để biểu diễn dữ liệu trong miền tần số cần phải thực hiện
Số hóa bởi Trung tâm Học liệu - ĐHTN
25
một số biến đổi thông qua các phép biến đổi. Phép biến đổi thƣờng đƣợc sử dụng
nhiều nhất là biến đổi Fourier. Theo nghiên cứu của Fourier thì tất cả các tín hiệu
tuần hoàn đều có thể đƣợc tổng hợp từ một loạt các tín hiệu sin có tần số và biên độ
khác nhau. Có nghĩa là bất kỳ tín hiệu nào cũng đƣợc tạo thành từ những thành
phần tần số khác nhau, điều này áp dụng đƣợc cho cả các tín hiệu một chiều nhƣ tín
hiệu âm tần đƣa ra loa hoặc tín hiệu hai chiều nhƣ ảnh số chẳng hạn. Tần số không
gian của một ảnh biểu thị tốc độ thay đổi độ chói của các điểm ảnh. Cách dễ nhất để
xác định các thành phần tần số của tín hiệu là khảo sát tín hiệu đó trong miền tần số.
Miền tần số biểu diễn độ lớn (cƣờng độ) của các thành phần tần số khác nhau của