1
PHẦN MỞ ĐẦU
Ngày nay, hình ảnh (sau đây gọi là ảnh) đóng một vai trò quan trọng, ảnh đã
cùng len lõi vào tất cả các lĩnh vực của con người trong cuộc sống hiện tại, từ các
lĩnh vực trong khoa học kỹ thuật như Y học, Xây dựng, Thiên văn… đến các lĩnh
vực Văn hóa xã hội như: Giáo dục đào tạo, Mỹ thuật, Văn hóa nghệ thuật, Hội
họa…v.v. Từ các ảnh thu thập được từ thực tế bằng các phương pháp kỹ thuật như
chụp, ghi hình đến các ảnh được tạo ra bằng phương pháp thủ công như vẽ. Từ các
ảnh thể hiện kích thước lớn đến các ảnh thể hiện các vật có kích thước nhỏ hay
siêu nhỏ. Trong mỗi lĩnh vực, ảnh đều mang lại các giá trị thiết thực, giúp làm
phong phú quá trình phục vụ một nhu cầu nhất định của con người.
Từ năm 1965, Sketchpad Ivan Sutherland đã ứng dụng khoa học máy tính
vào việc tạo và lưu trữ hình ảnh trên máy tính với tính khả thi cao nhưng giá thành
lại khá đắt do giá thành phần cứng và khả năng xử lý lưu trữ phụ thuộc vào phần
cứng. Đến những năm 1990, với việc công nghệ Internet được phát minh và
WWW ra đời cho phép khả năng lưu trữ hình ảnh rộng rãi và tra cứu thông tin trên
môi trường mạng trong đó có hình ảnh. Từ đây, kho dữ liệu ảnh bắt đầu tăng
nhanh với dung lượng lớn lên tới khoảng 30 triệu Tetrabyte và lĩnh vực nghiên cứu
liên quan đến ảnh như thu thập, xử lý, tìm kiếm, truy vấn hình ảnh ngày càng được
quan tâm. Một ứng dụng nhỏ quá trình ứng dụng này là quá trình tìm kiếm, so sánh
và nhận biết (còn lại là truy vấn) các ảnh cần tìm thông qua màu sắc, hình dạng, từ
ngữ đặc trưng hay nội dung liên quan đến ảnh.
Quá trình nghiên cứu các thuật toán và áp dụng các thuật toán này để tạo ra
các phương pháp để hiện thực hóa quá trình tìm kiếm (truy vấn) sao cho nội dung
chính xác và phù hợp gần đúng nhất với các nội dung cần tìm, đã có nhiều nghiên
cứu và ứng dụng để thực hiện. Ở nước ngoài có các nhà cung cấp dịch vụ của
Yahoo, Google được công bố rộng rãi cho tất cả người dùng, hay Visualseek,
BlobWorld… được nghiên cứu để ứng dụng trong một lĩnh vực riêng biệt. Ở trong
2
Phần kết luận: Tóm lược các kết quả đạt được và định hướng một số nội
dung tiếp tục nghiên cứu trong thời gian tới
Tài liệu tham khảo: Các tài liệu tham khảo và nghiên cứu trong quá trình
thực hiện luận văn.
4
CHƢƠNG 1: KHÁI QUÁT VỀ TRUY VẤN ẢNH
VÀ TRUY VẤN ẢNH DỰA VÀO HÌNH DẠNG
1.1. Khái quát về truy vấn ảnh:
1.1.1. Giới thiệu chung:
Ảnh là một đối tượng có ý nghĩa trong nhiều lĩnh vực phục vụ nhu cầu cần
có của con người. Ảnh thường được hiểu cơ bản là những gì chúng ta thấy và được
ghi nhận lại bằng mắt, bằng máy ảnh, máy ghi hình, thu nhận được qua máy quét
hay do con người vẽ ra… và được lưu trữ lại để phục vụ một nhu cầu nào đó của
con người. Vì vậy, ở mỗi môi trường khác nhau, ảnh sẽ phục vụ lợi ích khác nhau
và có hình thức thể hiện khác nhau. Với sự phát triển của khoa học kỹ thuật, ngoài
việc lưu giữ ảnh bằng hình thức thông thường trong kho lưu giữ, thì con người còn
lưu trữ các hình ảnh này trên các kho dữ liệu được số hóa trên máy tính. Quá trình
lưu trữ này có những ưu điểm như ít chiếm diện tích kho lưu trữ, chứa đựng được
nhiều, ảnh ít bị thay đổi theo thời gian… Các ảnh được lưu trữ trên máy tính dưới
dạng số hóa, thường được biểu diễn dưới dạng Ractor hoặc Vector. Tiêu chuẩn đặt
ra là ảnh phải lưu trữ thế nào sao cho các ứng dụng khác nhau có thể thao tác trên
các loại dữ liệu này. Hiện nay có trên 30 kiểu lưu trữ ảnh khác nhau, trong đó ta
thường gặp các dạng ảnh sau: TIFF, GIF, BMP, PCX, JPEG,…mỗi kiểu lưu ảnh
có ưu điểm riêng. Các khái niệm cơ bản liên quan đến ảnh được số hóa như sau:
- Phần tử ảnh (pixel): Ảnh trong thực tế là một ảnh liên tục về không gian và
về giá trị độ sáng. Để có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số
hoá ảnh. Trong quá trình số hoá, người ta biến đổi tín hiệu liên tục sang tín hiệu rời
rạc thông qua quá trình lấy mẫu (rời rạc hoá về không gian) và lượng hoá thành
phần giá trị mà về nguyên tắc, mắt thường không phân biệt được hai điểm kề nhau.
đó quá trình truy vấn sẽ so sánh các tiêu chí này của ảnh gốc so với các tiêu chí
của các ảnh trong kho lưu trữ và cho ra kết quả cần tìm.
Bài toán truy vấn ảnh bao gồm quá trình trích chọn các đặc trưng và quá
trình truy vấn dựa trên các đặc trưng được trích chọn. Quá trình truy vấn ảnh là
quá trình liên quan đến các mô tả đối tượng mà người ta muốn đặc tả nó. Có hai
kiểu mô tả đối tượng
- Mô tả tham số (truy vấn theo tham số)
6
- Mô tả theo cấu trúc (truy vấn theo cấu trúc)
Việc nhận biết và đánh giá các nội dung của ảnh là sự phân tích một hình
ảnh thành những phần có nghĩa để phân biệt đối tượng này với đối tượng khác.
Dựa vào đó ta có thể mô tả cấu trúc của hình ảnh ban đầu. Có thể liệt kê một số
phương pháp truy vấn cơ bản như truy vấn biên của một đối tượng trên ảnh, tách
cạnh, phân đoạn hình ảnh Kỹ thuật này được sử dụng nhiều trong y học (xử lý tế
bào, nhiễm sắc thể).
Trong thực tế người ta đã thực hiện truy vấn khá thành công với nhiều đối
tượng khác nhau như: ảnh vân tay, chữ (chữ cái, chữ số, chữ có dấu). Truy vấn chữ
in hoặc đánh máy trong văn bản phục vụ cho việc tự động hoá quá trình đọc tài
liệu, tăng nhanh tốc độ và chất lượng thu nhận thông tin từ máy tính, truy vấn chữ
viết tay (với mức độ ràng buộc khác nhau về cách viết, kiểu chữ, …)
Quá trình truy vấn ảnh theo sơ đồ sau [5]:
Ngày nay, có nhiều hệ thống truy vấn ảnh (sử dụng mang tính thương mại
và thực nghiệm) được phát triển. Ảnh được nghiên cứu và phát triển bao gồm ảnh
tĩnh và ảnh động. Ở phạm vi của luận văn, chỉ đề cập đến phạm vi ảnh tĩnh.
1.1.2. Một số phương pháp truy vấn ảnh:
Mục tiêu của các phương pháp truy vấn ảnh là tìm ra ảnh đúng với nhu cầu
cần tìm thông qua các đặc trưng của ảnh. Hiện nay, có nhiều phương pháp truy vấn
ảnh đã được nghiên cứu và áp dụng. Trong số đó, có một số dạng truy vấn như:
1.1.2.1. Truy vấn ảnh theo bản thể :
Phương pháp đơn giản nhất trong việc truy vấn là tìm kiếm ảnh theo từ
khoá, các từ khoá tương ứng với các trường trong CSDL lưu trữ ảnh. Quá trình
truy vấn là so khớp từ khoá với các từ được mô tả trong các trường thông qua biểu
thức logic. Tuy nhiên, các phương pháp tìm kiếm theo từ khoá phát sinh nhiều hạn
chế như [9]:
8
- Một từ khoá trong văn bản không chỉ ra được văn bản đó có thích hợp hay
không và các văn bản thích hợp lại có thể không chứa một từ khoá nhất định.
- Các từ đồng nghĩa làm giảm độ thu hồi, các từ đồng âm làm giảm độ chính
xác và các quan hệ ngữ nghĩa như quan hệ trái nghĩa, phản nghĩa chưa được đề
cập đến.
Đối với những người sử dụng biết các từ khoá dùng để đánh chỉ số ảnh thì
việc truy vấn rất dễ dàng. Nhưng đối với một số người sử dụng, họ không biết rõ
về CSDL, các khái niệm ngữ nghĩa có liên quan đến nội dung cần tìm, vì vậy sẽ
phát sinh một số vấn đề như:
- Cấu thành thông tin cần thiết: người sử dụng không biết chính xác cần phải
đặt câu hỏi gì.
- Cấu thành truy vấn: người sử dụng không biết phải sử dụng từ khoá gì liên
quan với thông tin mà họ muốn tìm kiếm.
- Cấu thành kết quả: tạo danh sách các ảnh phù hợp với từ khoá có thể bỏ
qua mất một phương diện hay nhất của việc lưu trữ là quan hệ giữa các ảnh trong
trưng của ảnh như: màu sắc (mức xám), hình dạng (biên), vị trí…Hiện đã có nhiều
công trình nghiên cứu về phương pháp này và theo nhiều hướng tiếp cận khác
nhau như: VisualSeek và Webseek của 2 tác giả John R. Smith and Shih-Fu
Chang thuộc Đại học Columbia; cả 02 hệ thống này đều thực hiện truy vấn theo
đặc trưng màu sắc, kết cấu, bố cục không gian. QBIC (Query By Image Content)
do hãng IBM và trung tâm nghiên cứu Almaden cùng hợp tác phát triển; Hệ thống
cho phép người sử dụng dùng công cụ đồ hoạ để mô tả và hiệu chỉnh truy vấn dựa
trên các đặc trưng như màu sắc, kết cấu, hình dạng của đối tượng.
10
1.1.2.3. Truy vấn ảnh theo đồ thị :
Như đã giới thiệu ở phần 1.1.2.2, kỹ thuật tra cứu ảnh theo nội dung dựa vào
những đặc điểm mức thấp như màu sắc, kết cấu và hình dạng của đối tượng ảnh.
Trong khi các phương pháp mô tả ảnh mức cao có khả năng mô tả gần gũi hơn với
trực giác của người sử dụng nhưng việc phát triển những phương pháp đó mới
dừng ở mức thử nghiệm và đòi hỏi rất nhiều quá trình xử lý phức tạp.
Mặc dù việc mô tả ảnh bằng các đặc điểm mức thấp có thể thực hiện khá
hiệu quả và đơn giản nhưng nhược điểm lớn nhất của phương pháp này là không
gần gũi với sự cảm nhận trực quan của hầu hết người sử dụng và do đó thường
không đủ đáp ứng nhu cầu của người sử dụng. Những ảnh mà ta cảm nhận được sự
giống nhau bằng mắt thường nhưng đôi khi lại rất khác nhau nếu so sánh bằng các
đặc điểm mức thấp. Phương pháp này dựa trên một thực tế là những ảnh thích hợp
về mặt trực giác thường không có chung những đặc điểm mức thấp nhưng vẫn có
sự tương tự về mặt khái niệm và về mặt ngữ cảnh đối với con người. Ví dụ: những
ảnh chụp người trong bộ đồ tắm thường có màu sắc, hình dạng và kết cấu rất đa
dạng nhưng về mặt khái niệm thì lại được con người cảm nhận là tương tự nhau.
Vì vậy phương pháp tra cứu ảnh theo đồ thị được giới thiệu ở đây không
dựa trên các đặc điểm ở mức thấp (trừ giai đoạn khởi tạo) mà dựa vào những sự
liên kết có tính trực giác giữa các ảnh được thiết lập bởi người sử dụng bằng cách
phản hồi thích hợp.
coi là một phương pháp biểu diễn màu sắc trực quan hơn. Ba thành phần màu là
sắc màu (hue), độ bão hoà màu (s) và giá trị độ sáng (v). Thành phần sắc màu
không thay đổi khi ta thay đổi độ chiếu sáng hay góc quan sát vì vậy thích hợp để
sử dụng trong việc nhận dạng đối tượng ảnh. Cũng có thể dễ dàng chuyển đổi các
giá trị từ không gian HSV sang RGB và ngược lại.
Các không gian màu CIE L*a*b và CIE L*u*v là các không gian màu
không phụ thuộc thiết bị và có thể coi là đồng nhất. Bao gồm các thành phần độ
12
sáng (L) và hai thành phần độ kết tủa màu (sắc độ màu) là a và b hoặc u và v. CIE
L*u*v được thiết kế để làm việc với việc trộn các thành phần màu cộng còn CIE
L*a*b được thiết kế để làm việc với việc trộn các thành phần màu trừ.
Các không gian màu RGB và CIE có thể chuyển đổi với nhau, tức là chúng
ta có thể sử dụng các công thức để chuyển đổi một giá trị màu từ không gian màu
này sang không gian màu khác.
Không gian màu đối lập sử dụng các trục màu ngược (R-G, 2B-R-G,
R+G+B), cách biểu diễn này có ưu điểm là tách được thông tin về độ sáng ra một
trục riêng biệt (trục thứ ba). Bằng cách này, hai thành phần kết tủa màu sẽ không
bị thay đổi khi thay đổi độ chiếu sáng.
1.2.2. Các Moment màu:
Các moment màu đã được sử dụng rất thành công trong nhiều hệ thống tra
cứu ảnh đặc biệt là khi ảnh chỉ chứa một đối tượng ảnh. Các thành phần moment
bậc nhất (trung vị), bậc hai (phương sai) và bậc ba (độ lệch) đã được chứng minh
là có thể được sử dụng rất hiệu quả để biểu diễn sự phân bố màu sắc của ảnh.
Công thức toán học để biểu diễn 3 moment này như sau:
N
j
N
j
iiji
f
N
s
(1.3)
Trong đó:
- f
ij
là giá trị của thành phần màu thứ i của điểm ảnh thứ j.
- N là số lượng điểm ảnh của ảnh đó.
13
Sử dụng cả thành phần moment bậc ba s
i
sẽ giúp tăng cường hiệu năng tra
cứu so với khi chỉ sử dụng các moment bậc nhất
i
và bậc hai
i
. Đôi khi việc sử
dụng moment bậc 3 làm cho việc biểu diễn đặc trưng của ảnh nhạy cảm hơn đối
với những thay đổi của cảnh nền và do đó làm giảm khả năng của hệ thống.
Do chỉ sử dụng 9 giá trị (3 moment cho mỗi màu trong bộ ba màu) để biểu
diễn nội dung màu của mỗi ảnh nên việc sử dụng moment màu để biểu diễn véctơ
đặc trưng màu là rất đơn giản nếu so sánh với các phương pháp biểu diễn khác. Và
Một cách khác là sử dụng các bin màu có chứa nhiều điểm ảnh nhất, khi đó
chỉ cần một số lượng nhỏ bin màu cũng biểu diễn được đặc trưng quan trọng nhất
của một bức ảnh. Cách làm này không những không làm giảm hiệu năng của
phương pháp so sánh histogram mà đôi khi còn làm tăng hiệu năng do các bin màu
có kích thước lớn sẽ tránh được ảnh hưởng của nhiễu.
Khi cơ sở dữ liệu có chứa quá nhiều ảnh thì phương pháp so sánh histogram
có thể bị bão hoà, khi đó kết quả so sánh histogram màu chưa chắc đã phản ánh sự
tương tự về nội dung của các ảnh, để khắc phục nhược điểm này người ta đưa ra
kỹ thuật histogram liên kết.
Histogram liên kết có bổ sung thêm các thông tin khác mà không làm giảm
sự đơn giản của histogram màu. Để đạt được điều này, người ta phải lựa chọn rất
cẩn thận các đặc trưng cục bộ sẽ bổ sung vào histogram liên kết. Mỗi phần tử trong
lược đồ histogram liên kết chứa số lượng điểm ảnh trong ảnh được mô tả bởi một
bộ các giá trị đặc trưng. Như vậy histogram liên kết là lược đồ histogram đa chiều.
Mặt khác, do histogram màu không phản ánh được các thông tin mang tính
không gian của các điểm ảnh, vì vậy về mặt lý thuyết, các ảnh rất khác nhau có thể
có sự phân bố màu tương tự nhau. Vấn đề này rất dễ xảy ra đối với các cơ sở dữ
liệu ảnh lớn. Người ta đã đề xuất một vài cách khác nhau để khắc phục vấn đế này,
một cách đơn giản nhất là chia các bức ảnh thành những phân vùng nhỏ hơn và
15
tính histogram của từng phân vùng. Có thể sử dụng phương pháp phân vùng đơn
giản là phân thành các hình chữ nhật đồng đều hoặc phức tạp hơn là phân theo các
vùng ảnh hoặc các đối tượng ảnh. Ảnh được phân vùng càng nhỏ thì độ chính xác
càng cao nhưng khối lượng tính toán cũng nhiều hơn.
1.2.4. Vecto gắn kết màu:
Một cách tiếp cận khác để đưa thông tin về không gian vào histogram màu
là sử dụng véctơ gắn kết màu (Color Cohefeence Vector - CCV). Phương pháp
này có thể tóm tắt như sau:
Mỗi bin màu được phân thành 2 loại: loại có gắn kết nếu như bin màu đó
+ β
N
> chính là histogram màu của ảnh.
Do có chứa các thông tin về không gian của các điểm ảnh nên sử dụng các
véctơ gắn kết màu sẽ cho kết quả tra cứu tốt hơn so với sử dụng histogram màu,
đặc biệt là đối với những ảnh có vùng đồng nhất màu lớn.
Đối với cả phương pháp dùng véctơ gắn kết màu và phương pháp dùng
histogram màu thì sử dụng không gian HSV sẽ cho kết quả tốt hơn là sử dụng
không gian CIE L*u*v hay L*a*b.
1.2.5. Sơ đồ tương quan màu:
Sơ đồ tương quan màu không chỉ thể hiện sự phân bố màu của các điểm ảnh
mà còn thể hiện sự tương quan về mặt không gian của từng cặp màu. Trong sơ đồ
tương quan màu, thành phần thứ nhất và thứ hai của một histogram màu 3 chiều
thể hiện màu sắc của một cặp màu nào đó và thành phần thứ 3 là khoảng cách
không gian của chúng.
16
Sơ đồ tương quan màu là một bảng được đánh chỉ số bởi các cặp màu, trong
đó đầu vào thứ k của cặp (i,j) thể hiện xác suất để tìm thấy điểm ảnh có màu j ở
khoảng cách k so với điểm ảnh có màu i trong ảnh. Giả sử I là tập hợp tất cả các
điểm ảnh trong ảnh và I
c(i)
là tập hợp các điểm ảnh có màu là c(i) thì có thể định
nghĩa sơ đồ tương quan màu như sau:
]|||[Pr
21)(22,1
)(
,
)(
kppIp
hưởng bởi sự thay đổi của độ chói, phương hướng, góc chụp ảnh. Tuy nhiên, sự
bất biến của các yếu tố môi trường này đã không được tính đến trong khi trích
chọn các đặc điểm màu sắc đã trình bày ở trên.
17
1.2.7. Một số phương pháp truy vấn ảnh:
1.2.7.1. Truy vấn ảnh theo hình dạng :
Phương pháp này hiện đã được nghiên cứu rộng, trong đó dùng phương
pháp phân đoạn ảnh để xác định biên của đối tượng từ đó xác định hình dạng của
đối tượng cần tìm. Có nhiều hướng tiếp cận để thực hiện phân đoạn ảnh như [2]:
- Phương pháp dựa trên không gian đặc trưng:
Nếu chúng ta giả định màu sắc bề mặt của các đối tượng trong ảnh là một
thuộc tính bất biến và các màu sắc đó được ánh xạ vào một không gian màu nào đó,
vậy thì chúng ta sẽ có một cái nhìn đối với mỗi đối tượng trong ảnh như là một
cụm (cluster) các điểm trong không gian màu đó. Mức độ phân tán của các điểm
trong trong một cụm được xác định chủ yếu bởi sự khác biệt về màu sắc. Một cách
khác, thay vì ánh xạ các pixel trong ảnh vào một không gian màu cụ thể, ta xây
dựng một histogram dựa trên các đặc trưng màu dạng ad-hoc cho ảnh đó (ví dụ
như Hue), và thông thường các đối tượng trong ảnh sẽ xuất hiện như các giá trị
đỉnh trong histogram đó. Do đó, việc phân vùng các đối tượng trong ảnh tương
ứng với việc xác định các cụm – đối với cách biểu diễn thứ nhất – hoặc xác định
các vùng cực trị của histogram – đối với cách biểu diễn thứ hai.
Các phương pháp tiếp cận này chỉ làm việc trên một không gian màu xác
định chẳng hạn phương pháp của Park áp dụng trên không gian màu RGB, còn
- Phương pháp VisualSeek dựa trên đặc trưng không gian màu tương đồng
của ảnh (166 màu). Trước hết, người dùng phác họa một số vùng trên ảnh cần so
sánh và chọn màu sắc cho vùng, vị trí của vùng và độ lớn của vùng. Hệ thống dùng
hàm so sánh sự khớp nhau giữa các vùng trong 2 ảnh với công thức:
d(c
q,
c
t
)=(c
q
-c
t
)
t
* A(c
q
-c
t
) (1.5)
Trong đó: c
q
, c
t
là hai tập màu của hai ảnh và ma trận A(a[i,j]) là ma trận độ
tương đồng của các màu.
19
- Hệ thống Webseek là hệ thống truy vấn ảnh trên web theo danh mục ảnh
cho trước và sử dụng phép biến đổi wavelet: tập hợp ảnh sau đó phân lớp ảnh, tạo
chỉ mục và cuối cùng là tìm kiếm và hiển thị. Người dùng phải chọn chủ đề trong
t
[k] (1.6)
- Trong khi đó, phương pháp BlobWorld lại truy tìm ảnh theo ảnh mẫu dựa
trên việc rút trích dữ liệu điểm nguyên thủy cùng các đặc tính giống nhau về màu
sắc, kết cấu và hình dạng. Màu sắc sẽ được biểu diễn dưới dạng histogram 218
màu, kết cấu đặc trưng bởi sự tương phản và tính không thẳng đứng, còn các đặc
trưng hình dạng tính theo vùng với trọng tâm và hướng. Ảnh truy vấn theo sự phác
thảo của các vùng riêng biệt. Hàm so sánh sự tương đồng như sau:
d(h
1,
h
2
)=(h
1
-h
2
)
T
* A(h
1
-h
2
) (1.7)
Với A(a[i,j]) là ma trận đối xứng thể hiện sự tương đồng giữa màu i và j.
1.2.7.3. Truy vấn ảnh theo đối tƣợng:
Hướng nghiên cứu theo phương pháp này đang được nghiên cứu thực hiện
vì có rất nhiều ứng dụng liên quan và thực tế trong cuộc sống như nhận dạng
gương mặt người. Tuy nhiên quá trình xác định đối tượng gặp nhiều khó khăn phụ
thuộc vào các yếu tố như tỷ lệ kích thước các đối tượng trong các ảnh, vị trí xuất
hiện đối tượng, xác định chính xác đối tượng trong ảnh cần truy vấn, màu sắc của