i
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn với tên đề tài “Nghiên cứu kỹ thuật tra cứu
cứu ảnh và ứng dụng trong tra cứu cây thuốc” là kết quả nghiên cứu của bản
thân học viên, dựa trên nghiên cứu và thu thập cơ sở dữ liệu thực tiễn dưới sự
hướng dẫn khoa học của TS. Nguyễn Văn Tảo. Các số liệu, kết quả nêu trong
luận văn là hoàn toàn trung thực, chưa từng được công bố dưới bất cứ hình thức
nào.
Thái Nguyên, ngày 15 tháng 7 năm 2013
Người cam đoan
Nguyễn Thị Bích Hạnh
ii
LỜI CẢM ƠN
Trong suốt thời gian hoàn thành luận văn nghiên cứu, tôi luôn nhận được giúp
đỡ tận tình của thầy giáo hướng dẫn và biết bao người thân yêu bên tôi.
Nhân dịp này, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới TS.
Nguyễn Văn Tảo về những chỉ dẫn khoa học, những góp ý quý báu và tận tình
hướng dẫn tôi trong suốt quá trình thực hiện luận văn tốt nghiệp.
Tôi xin chân thành cảm ơn tập thể các Thầy, Cô giáo trong trường Đại học Công
nghệ thông tin và Truyền thông đã luôn nhiệt tình quan tâm, giúp đỡ và tạo mọi
điều kiện tốt nhất cho tôi trong suốt quá trình học tập tại trường.
Xin chân thành cảm ơn tới tập thể các thầy cô và các bạn đồng nghiệp Trung
tâm Nghiên cứu và Phát triển Nông Lâm nghiệp miền núi phía Bắc - Trường Đại
học Nông Lâm nơi tôi đang công tác; các bạn trường Đại học Y Thái Nguyên đã
luôn cổ vũ, động viên và tạo mọi điều kiện thuận lợi để tôi hoàn thành luận văn của
2.1.4. Lượng tử hóa màu và lược đồ màu........................................................................23
Lược đồ màu....................................................................................................................24
2.2. Tra cứu ảnh dựa vào hình dạng................................................................................31
2.2.1. Khái niệm về hình dạng.........................................................................................31
2.2.2. Đặc điểm hình dạng với việc tìm kiếm ảnh...........................................................31
2.2.3. Lược đồ hình dạng.................................................................................................33
2.2.4. Biểu diễn hình dạng trên cơ sở vùng và thước đo đồng dạng...............................34
Hình 2.8: Đo hai hình dạng trên cơ sở chỉ mục........................................................37
Các thao tác hình dạng khác............................................................................................38
2.3. Tra cứu ảnh dựa vào vân..........................................................................................38
2.3.1. Vân là gì?...............................................................................................................38
2.3.3. Phân hoạch vùng nhị phân cục bộ.........................................................................40
2.3.4. Phân đoạn vân........................................................................................................40
2.4. Phương pháp tra cứu ảnh sử dụng dấu hiệu nhị phân...............................................40
2.4.1. Giới thiệu...............................................................................................................40
2.4.2. Kiến trúc hệ thống.................................................................................................41
Hình 2.10: Kiến trúc của kỹ thuật tra cứu ảnh sử dụng dấu hiệu nhị phân..............42
2.4.3. Kỹ thuật tra cứu ảnh theo nội dung dựa vào dấu hiệu nhị phân............................42
Hình 2.11: Mẫu thiết lập hình ảnh.............................................................................44
Bảng 2.2: Dấu hiệu nhị phân của hình 2.11 sử dụng VBA......................................45
2.4.4. Độ đo tương tự.......................................................................................................47
Bảng 2.3: Chuỗi dấu hiệu nhị phân minh họa sự giống và khác nhau của ảnh........48
Hình 3.4: Biểu đồ Use Case......................................................................................55
3.3.2. Biểu đồ trình tự và biểu đồ hoạt động...................................................................55
Hình 3.5: Biểu đồ trình tự của tác nhân tra cứu........................................................56
3
4
viết tắt
VIR
CBIR
QBE
QBF
Visual Information Retrieval
Content Based Image Retrieval
Query by Example
Query by Feature
5
QBIC
Query By Image Content
6
7
8
RGB
HSV
CCV
9
Véc tơ gắn kết màu
Ủy ban quốc tế về màu sắc
Cyan-Magenta-Yellow
Lục lam, đỏ tươi, vàng
Constant Bin Allocation
Variable Bin Allocation
Global Color Histogram
Local Color Histogram
Phân bổ bin liên tục
Phân bổ biến bin
Lược đồ màu toàn cục
Lược đồ màu cục bộ
v
15
16
GIS
CSDL
Geographic Information System Hệ thống thông tin địa lý
Cơ sở dữ liệu
DANH MỤC CÁC HÌNH
2.4.1. Giới thiệu...............................................................................................................40
2.4.2. Kiến trúc hệ thống.................................................................................................41
Hình 2.10: Kiến trúc của kỹ thuật tra cứu ảnh sử dụng dấu hiệu nhị phân..............42
vi
2.4.3. Kỹ thuật tra cứu ảnh theo nội dung dựa vào dấu hiệu nhị phân............................42
Hình 2.11: Mẫu thiết lập hình ảnh.............................................................................44
Bảng 2.2: Dấu hiệu nhị phân của hình 2.11 sử dụng VBA......................................45
2.4.4. Độ đo tương tự.......................................................................................................47
Bảng 2.3: Chuỗi dấu hiệu nhị phân minh họa sự giống và khác nhau của ảnh........48
Hình 3.4: Biểu đồ Use Case......................................................................................55
3.3.2. Biểu đồ trình tự và biểu đồ hoạt động...................................................................55
Hình 3.5: Biểu đồ trình tự của tác nhân tra cứu........................................................56
Hình 3.7: Biểu đồ hoạt động của tác nhân tra cứu ảnh.............................................57
Hình 3.8: Biểu đồ trình tự của tác nhân quản lý CSDL ảnh.....................................58
Hình 3.10: Biểu đồ hoạt động của chức năng quản lý cơ sở dữ liệu ảnh.................59
Bảng 3.1: Bảng cơ sở dữ liệu ảnh.............................................................................59
Bảng 3.2: Bảng cơ sở dữ liệu nhị phân.....................................................................60
3.5.2.2. Màn hình chọn cơ sở dữ liệu ảnh.......................................................................62
Hình 3.12: Màn hình chọn cơ sở dữ liệu ảnh............................................................62
3.5.2.3. Màn hình chọn ảnh cần truy vấn........................................................................62
.....................................................................................................................................63
2.2.2. Đặc điểm hình dạng với việc tìm kiếm ảnh...........................................................31
2.2.3. Lược đồ hình dạng.................................................................................................33
2.2.4. Biểu diễn hình dạng trên cơ sở vùng và thước đo đồng dạng...............................34
Hình 2.8: Đo hai hình dạng trên cơ sở chỉ mục........................................................37
Các thao tác hình dạng khác............................................................................................38
2.3. Tra cứu ảnh dựa vào vân..........................................................................................38
2.3.1. Vân là gì?...............................................................................................................38
2.3.3. Phân hoạch vùng nhị phân cục bộ.........................................................................40
2.3.4. Phân đoạn vân........................................................................................................40
2.4. Phương pháp tra cứu ảnh sử dụng dấu hiệu nhị phân...............................................40
2.4.1. Giới thiệu...............................................................................................................40
2.4.2. Kiến trúc hệ thống.................................................................................................41
Hình 2.10: Kiến trúc của kỹ thuật tra cứu ảnh sử dụng dấu hiệu nhị phân..............42
2.4.3. Kỹ thuật tra cứu ảnh theo nội dung dựa vào dấu hiệu nhị phân............................42
Hình 2.11: Mẫu thiết lập hình ảnh.............................................................................44
Bảng 2.2: Dấu hiệu nhị phân của hình 2.11 sử dụng VBA......................................45
2.4.4. Độ đo tương tự.......................................................................................................47
Bảng 2.3: Chuỗi dấu hiệu nhị phân minh họa sự giống và khác nhau của ảnh........48
Hình 3.4: Biểu đồ Use Case......................................................................................55
3.3.2. Biểu đồ trình tự và biểu đồ hoạt động...................................................................55
Hình 3.5: Biểu đồ trình tự của tác nhân tra cứu........................................................56
Hình 3.7: Biểu đồ hoạt động của tác nhân tra cứu ảnh.............................................57
Hình 3.8: Biểu đồ trình tự của tác nhân quản lý CSDL ảnh.....................................58
Hình 3.10: Biểu đồ hoạt động của chức năng quản lý cơ sở dữ liệu ảnh.................59
Bảng 3.1: Bảng cơ sở dữ liệu ảnh.............................................................................59
tăng nhanh về tốc độ máy tính và giảm chi phí bộ nhớ, các cơ sở dữ liệu ảnh chứa
hàng nghìn thậm chí hàng triệu ảnh được sử dụng trong nhiều lĩnh vực ứng dụng khác
nhau như y học, ảnh vệ tinh, các cơ sở dữ liệu ảnh sinh học và các cơ sở dữ liệu ảnh
phong cảnh... Các ứng dụng này đòi hỏi độ chính xác tra cứu cao.
Khi có nhu cầu tra cứu một vài bức ảnh nào đó trong một cơ sở dữ liệu có
hàng trăm ngàn ảnh, điều này khó có thể thực hiện được khi ta tra cứu bằng tay theo
cách thông thường, nghĩa là xem từng tấm ảnh một cho đến khi thấy ảnh có nội dung
cần tìm. Với sự tăng nhanh về số lượng ảnh, cách tiếp cận tra cứu ảnh dựa vào chú
thích ảnh thủ công trở nên không khả thi về cả thời gian và chi phí.
Do đó, khi số lượng ảnh được lưu trữ trở nên rất lớn thì vấn đề đặt ra là phải
có những phương pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tra
cứu, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt mới đáp ứng được
nhu cầu ngày càng cao của con người. Việc xây dựng các hệ thống tra cứu ảnh là rất
cần thiết. Trong thực tế, bài toán tra cứu ảnh số có rất nhiều ứng dụng quan trọng. Ví
dụ trong lĩnh vực ngân hàng việc so sánh chữ ký của khách hàng với mẫu chữ ký đã
được lưu trữ sẵn có thể thực hiện rất nhanh và chính xác nếu có được một phần
2
mềm so sánh mẫu chữ ký tốt. Các ứng dụng phức tạp hơn như so sánh mẫu vân tay,
tra cứu ảnh tội phạm v.v... là những bài toán tra cứu ảnh được áp dụng trong ngành
khoa học hình sự.
Vì vậy, việc xây dựng các hệ thống tra cứu và xếp hạng ảnh là rất cần thiết
và thực tế đã có nhiều công cụ tra cứu ảnh thương mại xuất hiện. Các công cụ tra cứu
ảnh thường dựa vào hai đặc trưng chính là văn bản đi kèm ảnh hoặc nội dung ảnh. Tra
cứu ảnh theo nội dung đã nhận được nhiều sự quan tâm của các nhà khoa học do nhu
cầu tìm kiếm các cơ sở dữ liệu có cỡ lớn tăng nhanh.
Cây thuốc (cây dược liệu) có một vai trò quan trọng đối với đời sống của mỗi
con người, đặc biệt trong chăm sóc sức khỏe. Ngày nay, cây dược liệu đã được con
ảnh “tốt hơn” hoặc một kết luận.
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là
đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng
trong không gian và nó có thể xem như một hàm n biến P(c1, c2,..., cn). Do đó, ảnh
trong xử lý ảnh có thể xem như ảnh n chiều [1], [2].
Sơ đồ tổng quát của một hệ thống xử lý ảnh:
Thu nhận ảnh
(Scanner,
Camera,Sensor)
Tiền xử lý
Trích chọn
đặc điểm
Hệ quyết định
Đối sánh rút
ra kết luận
Hậu xử lý
Lưu trữ
Hình 1.1: Các bước cơ bản trong một hệ thống xử lý ảnh
Phần thu nhận ảnh
Các thiết bị thu nhận ảnh bao gồm camera, scanner các thiết bị thu nhận
này có thể cho ảnh đen trắng. Các thiết bị thu nhận ảnh có 2 loại chính ứng với 2
Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng và do
vậy rất hữu ích trong việc trích trọn các thuộc tính bất biến được dùng khi
nhận dạng đối tượng. Các đặc điểm này có thể được trích chọn nhờ toán tử
gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không” (zero
crossing) v.v..
Biểu diễn ảnh
Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hoá được
5
nhúng trong các thiết bị kỹ thuật khác nhau. Quá trình lưu trữ ảnh nhằm 2 mục
đích là: Tiết kiệm bộ nhớ và giảm thời gian xử lý.
Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in
ấn và xử lý ảnh được xem như là 1 tập hợp các điểm với cùng kích thước nếu sử dụng
càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi
tiết của ảnh người ta gọi đặc điểm này là độ phân giải.
Nhận dạng và giải thích ảnh
Nhận dạng ảnh là quá trình xác định ảnh. Quá trình được thực hiện nhờ so sánh
với mẫu chuẩn đã được học hoặc lưu từ trước. Giải thích là phán đoán theo ý nghĩa trên
cơ sở nhận dạng. Ví dụ một loạt chữ số và nét gạch ngang trên bì thư có thể phán đoán
là mã điện thoại.
Theo lý thuyết về nhận dạng, các mô hình toán học về ảnh được phân loại theo
hai loại nhận dạng ảnh cơ bản: Nhận dạng theo tham số và nhận dạng theo cấu trúc.
Một số đối tượng nhận dạng ảnh khá phổ biến hiện nay là nhận dạng kí tự (chữ
dựa trên cơ sở lý thuyết và ứng dụng của xử lý ảnh. Hệ thống cho phép người dùng tra
cứu các ảnh tương tự trong một cơ sở dữ liệu hình ảnh.
CBIR được thực hiện thông qua việc tính độ tương tự giữa hai bức ảnh được biểu
diễn bởi một trong số các đặc trưng mức thấp của ảnh như: Màu sắc, hình dạng, kết
cấu… Kết quả đưa ra là tập các bức ảnh tương tự với ảnh truy vấn được sắp xếp theo
thứ tự giảm dần độ tương tự. Cụm từ CBIR được T.Kato đưa ra vào năm 1992 trong
quá trình thu thập ảnh một cách tự động từ cơ sở dữ liệu dựa trên biểu diễn màu sắc
và hình dạng của ảnh.
Có hai cách tiếp cận chung đối với các giải pháp cho vấn đề tra cứu thông tin
dựa trên dạng thông tin trực quan đó là các phương pháp dựa trên đặc trưng và các
phương pháp dựa trên văn bản mô tả ảnh. Các phương pháp dựa trên văn bản mô tả
ảnh dựa trên các phương pháp tra cứu thông tin văn bản truyền thống và hệ quản trị cơ
sở dữ liệu cũng như sự can thiệp của con người để trích rút siêu dữ liệu về một đối
tượng trực quan và kết hợp nó cùng với đối tượng trực quan như một chú thích văn
7
bản. Tuy nhiên, gán các thuộc tính văn bản một cách thủ công cần nhiều thời gian và
chi phí. Hơn nữa, các chú thích thủ công thường phụ thuộc rất nhiều vào nhận thức chủ
quan của con người. Nhận thức chủ quan và chú thích thiếu chính xác là nguyên nhân
tra cứu không chính xác trong các quá trình tra cứu.
Các vấn đề đối với việc truy cập các ảnh và video dựa vào văn bản đã thúc đẩy
nhanh chóng sự quan tâm phát triển các giải pháp dựa vào nội dung. Với giải pháp này,
thay vì được chú thích một cách thủ công bởi các từ khoá dựa vào văn bản, các ảnh có
thể được trích rút sử dụng một số đặc trưng trực quan như màu, hình dạng và kết cấu
và được đánh chỉ số dựa trên các các đặc trưng trực quan này. Cách tiếp cận này dựa
chủ yếu vào các kết quả từ thị giác máy. Tuy nhiên, không có đặc trưng riêng lẻ tốt
nhất mà cho các kết quả chính xác. Thông thường một sự kết hợp các đặc trưng một
cách tuỳ biến là cần thiết để cung cấp các kết quả tra cứu thích hợp cho ứng dụng tra
sổ có cỡ khác nhau và với mỗi ảnh con, một dấu hiệu bố cục màu được trích rút. Độ
tương tự giữa các ảnh được tính toán bằng việc so sánh các dấu hiệu của các ảnh con
này. Ưu điểm của hệ thống này là có thể giảm các nhạy cảm với tỉ lệ và trượt, nhược
điểm là độ phức tạp tính toán tăng và hệ thống không xem xét đến đặc trưng hình.
Smith và Chang đã đề xuất các tập màu. Phương pháp xấp xỉ lược đồ màu để
tăng tốc quá trình tra cứu trong trường hợp cơ sở dữ liệu ảnh rất lớn. Tập màu được
chọn từ không gian màu được lượng hoá và từ các đặc trưng được biểu diễn như một
xâu bít, một cây nhị phân được sử dụng để tăng tốc quá trình tra cứu.
Một cách tiếp cận dựa vào màu khác được đề xuất trong, ở đây một ảnh được
biểu diễn với sự trợ giúp của ba mô men màu trung bình, phương sai và độ lệch. Kỹ
thuật có ưu điểm là tính toán đơn giản và chi phí không gian thấp. Độ tương tự giữa hai
ảnh được tính như là tổng trọng số của các sai khác giữa các mô men trong ảnh truy
vấn và các mô men của tất cả các ảnh trong cơ sở dữ liệu. Thậm chí thông qua các mô
men màu có thể ngăn chặn các ảnh hưởng của lượng hoá (không giống như lược đồ
màu). Cách tiếp cận thiếu thông tin không gian.
Pass và cộng sự đã đề xuất một phương pháp mới sử dụng véc tơ gắn kết màu
(CCV). Họ đã đề xuất một cách tiếp cận dựa vào lược đồ màu kết hợp với thông tin
không gian. Ảnh được làm mờ để loại đi các khác biệt nhỏ giữa các pixel và sau đó
không gian màu được lượng hoá thành n màu. Các pixel trong phạm vi một bin màu
9
được phân lớp hoặc là gắn kết hoặc là không gắn kết phụ thuộc vào chúng có thuộc vào
vùng pixel tương đối lớn hay không.
1.2.2. Đặc trưng màu vân
Có những lớp ảnh mà màu sắc không thể giải quyết được, đòi hỏi phải sử dụng
đặc trưng vân, ví dụ như những ảnh liên quan đến cấu trúc của điểm ảnh như: cỏ, mây,
đá, sợi. Vân sẽ giải quyết tốt cho việc tìm kiếm đối với lớp ảnh này.
xuất bởi Chang và cộng sự. Nó được xây dựng bởi việc chiếu các ảnh dọc theo các
hướng x và y. Hai tập ký hiệu V và A được định nghĩa trên hình chiếu. Mỗi ký hiệu
trong V biểu diễn một đối tượng trong ảnh. Mỗi ký hiệu A biểu diễn một loại quan hệ
không gian giữa các đối tượng. Do sự biến đổi của nó, xâu 2DG cắt tất cả các đối tượng
dọc theo hình hộp tối thiểu của nó và mở rộng các quan hệ không gian thành lập hai
toán tử không gian. Một tập định nghĩa các quan hệ không gian cục bộ. Tập còn lại định
nghĩa quan hệ không gian toàn cục, chỉ ra rằng hình chiếu của hai đối tượng là tách rời,
nối tiếp hoặc định vị tại cùng vị trí. Thêm nữa, xâu 2DC được đề xuất để cực tiểu hóa số
các đối tượng cắt. Xâu 2D-B biểu diễn một đối tượng bằng hai ký hiệu, vị trí cho bắt
đầu và kết thúc đường bao của đối tượng. Tất cả các phương pháp này có thể hỗ trợ ba
loại truy vấn. Loại truy vấn 0 tìm tất cả ảnh chứa đối tượng O 1, O2, ...,On. Loại 1 tìm tất
cả các ảnh chứa các đối tượng có quan hệ nào đó giữa chúng nhưng khoảng cách giữa
chúng là không đáng kể. Loại 2 tìm tất cả các ảnh có quan hệ khoảng cách nào đó với
mỗi ảnh khác.
Thêm với xâu 2D, cây tứ phân không gian, và ảnh ký hiệu cũng được sử dụng
cho biểu diễn thông tin không gian. Tuy nhiên, tìm kiếm các ảnh dựa trên các quan hệ
không gian của các vùng còn lại là một vấn đề nghiên cứu khó trong tra cứu ảnh dựa
vào nội dung, do phân đoạn tin cậy của các đối tượng hoặc các vùng thường là không
khả thi ngoại trừ các ứng dụng rất giới hạn. Mặc dù một số hệ thống chia các ảnh thành
các khối đều, chỉ thu được sự thành công khiêm tốn với các lược đồ chia không gian
như thế do hầu hết các ảnh tự nhiên không thể ép thành các khối con đều về không
gian. Để giải quyết vấn đề này, một phương pháp dựa vào biến đổi radon, tận dụng
phân bố không gian của các đặc trưng trực quan không cần phân đoạn phức tạp.
1.2.5. Phân đoạn
11
Phân đoạn là quá trình phân ảnh ra thành các vùng mà về lý tưởng nó sẽ tương
Thứ hai, nét ngoài được lọc bằng việc sử dụng quy hoạch động. Rui và cộng sự đã đề
xuất một thuật toán dựa vào phân cụm và nhóm trong không gian - màu - kết cấu.
Người sử dụng định nghĩa đối tượng quan tâm là ở đâu, và thuật toán nhóm các vùng
thành các đối tượng có ý nghĩa.
1.3. Các chức năng cơ bản của một hệ thống tra cứu ảnh dựa vào nội dung
Một hệ thống tra cứu ảnh dựa vào nội dung (CBIR – Content Based Image
Retrieval) tiêu biểu không chỉ xử lý các nguồn thông tin khác nhau ở các khuôn dạng
khác nhau (văn bản, hình ảnh và video) mà còn giải quyết các nhu cầu của người sử
dụng [4], [14], [16]. Về cơ bản hệ thống phân tích cả các nội dung của nguồn thông tin
cũng như các truy vấn sử dụng, và sau đó so sánh các nội dung này để tra cứu các mục
tin liên quan. Các chức năng chính của một hệ thống tra cứu ảnh dựa vào nội dung như
sau:
•
Phân tích các nội dung của nguồn thông tin và biểu diễn các nội dung của các
nguồn được phân tích theo cách thích hợp cho so sánh các truy vấn sử dụng (không
gian của nguồn thông tin được biến đổi thành không gian đặc trưng cho mục tiêu so
sánh nhanh trong bước tiếp theo). Bước này thông thường cần rất nhiều thời gian do
nó phải xử lý lần lược tất cả thông tin nguồn (các ảnh) trong cơ sở dữ liệu. Tuy
nhiên, bước này được thực hiện chỉ một lần và có thể được thực hiện ngoại tuyến.
•
Phân tích các truy vấn người sử dụng và biểu diễn chúng ở dạng thích hợp cho
so sánh với cơ sở dữ liệu nguồn. Bước này là tương tự với bước trước nhưng chỉ
được áp dụng với ảnh truy vấn.
•
Định nghĩa một chiến lược để so sánh các truy vấn tìm kiếm với thông tin trong
cơ sở dữ liệu được lưu trữ. Tra cứu thông tin liên quan theo một cách hiệu quả.
Bước này được thực hiện trực tuyến và được yêu cầu rất nhanh. Các kỹ thuật đánh
cứu ảnh dựa vào nội dung.
Truy vấn bởi ảnh mẫu
Trong loại truy vấn bởi ảnh mẫu (QBE), người sử dụng hệ thống chỉ rõ một ảnh
truy vấn đích, dựa trên ảnh truy vấn đó hệ thống sẽ tìm kiếm trong cơ sở dữ liệu ảnh
các ảnh tương tự nhất. Ảnh truy vấn có thể là một ảnh thông thường, một bản quét của
một ảnh có độ phân giải thấp, hoặc một phác thảo của người sử dụng sử dụng các công
cụ mô tả giao diện đồ hoạ. Một ưu điểm chính của loại hệ thống này đó là nó là một
cách tự nhiên cho những người sử dụng chung và chuyên gia để tìm kiếm một cơ sở dữ
liệu ảnh.
Truy vấn bởi đặc trưng
Trong hệ thống truy vấn bởi đặc trưng (QBF) tiêu biểu, những người sử dụng
chỉ rõ các truy vấn bằng việc chỉ rõ các đặc trưng họ quan tâm cho tìm kiếm. Thí dụ,
một người sử dụng có thể truy vấn một cơ sở dữ liệu ảnh bằng việc đưa ra một lệnh để
tra cứu tất cả các ảnh có góc phần tư trái chứa 25% pixel màu vàng. Truy vấn này được
chỉ rõ bằng việc sử dụng các công cụ giao diện đồ họa chuyên dụng. Những người sử
dụng hệ thống tra cứu ảnh chuyên biệt có thể thấy loại truy vấn này là bình thường,
nhưng những người sử dụng chung thì không thể. QBIC [5] là một ví dụ về một hệ
thống tra cứu ảnh dựa vào nội dung sử dụng loại phương pháp truy vấn này.
Các truy vấn dựa vào thuộc tính
Các truy vấn dựa vào thuộc tính sử dụng các chú thích văn bản, trích rút trước
bởi nỗ lực của con người, như một khoá tra cứu chính. Loại biểu diễn này đòi hỏi một
độ trừu tượng cao khó để thu được bằng các phương pháp tự động hoàn toàn do một
ảnh chứa một số lượng lớn các thông tin mà khó tóm tắt khi sử dụng một số ít các từ
khoá. Phương pháp này nhìn chung là nhanh hơn và dễ thực hiện hơn, nhưng có một
độ chủ quan và nhập nhằng cao xuất hiện như chúng ta đã đề cập.
Một người sử dụng tiêu biểu chắc chắn thích truy vấn các hệ thống tra cứu ảnh
dựa vào nội dung bằng việc yêu cầu các câu hỏi tự nhiên như “Đưa cho tôi tất cả các
bức tranh có hình ảnh của cây Đinh Lăng” hoặc “Tìm tất cả các ảnh có cây thảo dược”.
16
xét khi tính toán tính tương tự. Đặc trưng texture được biểu diễn với độ thô, tương
phản. Đặc trưng hình dạng được mô tả bằng diện tích, hình dáng tròn, độ lệch, hướng
trục chính và tập các bất biến moment đại số.
1.5.2. Hệ thống Photobook
Hệ thống này được phát triển ở viện kỹ thuật Massachusetts. Nó cho phép
người sử dụng tra cứu ảnh dựa trên màu sắc, hình dạng và kết cấu. Hệ thống này
cung cấp một tập các thuật toán đối sánh gồm: Euclidean, mahalanobis, vector
space angle, histogram, Fourier peak, và wavelet tree distance như là những độ đo
khoảng cách. Hệ thống như là một công cụ bán tự động và có thể sinh ra một mẫu
truy vấn dựa vào những ảnh mẫu được cung cấp bởi người sử dụng.
1.5.3. Hệ thống VisualSEEK và WebSEEK
Cả hai hệ thống này đều được phát triển tại Trường Đại học Colombia.
VisualSEEK là hệ thống cơ sở dữ liệu ảnh. Nó cho phép người sử dụng tra cứu ảnh
dựa trên màu sắc, không gian miền và đặc điểm kết cấu. Thêm vào đó VisualSEEK
còn cho phép người sử dụng tạo truy vấn bằng việc chỉ định vùng màu và những
không gian vị trí của chúng. WebSEEK được thiết kế để tìm kiếm ảnh và video trên
internet. Trong WebSEEK, các ảnh được phân tích theo hai tiến trình riêng biệt. Tiến
trình thứ nhất trích chọn và chỉ mục các đặc trưng trực quan như biểu dồ màu và
texture. Tiến trình thứ hai chia sẻ text kết hợp và phân lớp các ảnh theo các lớp chủ đề,
ví dụ như lớp cây cối, lớp trường học…
1.5.4. Hệ thống RetrievalWare
Hệ thống này được phát triển bởi tập đoàn công nghệ Excalibur cho phép
người sử dụng tra cứu ảnh bởi nội dung màu, hình dạng, kết cấu, độ sáng, kết cấu màu
Chương 2
MỘT SỐ KỸ THUẬT TRA CỨU ẢNH DỰA VÀO NỘI DUNG
2.1. Tra cứu ảnh dựa vào màu sắc
Tra cứu ảnh dựa trên màu sắc hầu hết là biến đổi dựa trên ý tưởng giống
nhau của các biểu đồ màu. Mỗi ảnh khi đưa vào tập hợp ảnh đều được phân tích,