Nghiên cứu xây dựng hệ thống tìm kiếm video theo nội dung - Pdf 43

Bộ GIáO DụC Và ĐàO TạO
TRƯờNG ĐạI HọC BáCH KHOA Hà NộI

LUậN VĂN THạC Sĩ KHOA HọC

NGHIÊN CứU, XÂY DựNG Hệ THốNG TìM KIếM
VIDEO THEO NộI DUNG

NGàNH: Xử Lý THÔNG TIN Và TRUYềN THÔNG

Đỗ VĂN HảI

Ngời hớng dẫn khoa học:
TS. HUỳNH QUYếT THắNG

H NI - 2006


LỜI CẢM ƠN
Em xin bày tỏ lòng biết ơn sâu sắc tới TS. Huỳnh Quyết Thắng người
thày kính mến đã hướng dẫn, chỉ dạy tận tình để em hoàn thành luận văn này.
Em xin chân thành cảm ơn các thày, cô giáo khoa Công nghệ Thông tin,
Trung tâm Bồi dưỡng và Đào tạo Sau đại học, Trường Đại học Bách khoa Hà
nội đã đón nhận và truyền thụ kiến thức cho em trong suốt quá trình học tập
vừa qua.
Tôi cũng xin cảm ơn cơ quan, bạn bè đồng nghiệp, gia đình và những
người thân đã cùng chia sẻ, giúp đỡ, động viên, tạo mọi điều kiện thuận lợi để
tôi hoàn thành nhiệm vụ học tập và bản luận văn này.
Hà nội, ngày 22 tháng 11 năm 2006
Học viên


MỤC LỤC
LỜI CẢM ƠN .........................................................................................I
MỞ ĐẦU ...............................................................................................II
MỤC LỤC.............................................................................................III
DANH SÁCH HÌNH VẼ ..................................................................... VIII
DANH SÁCH BẢNG BIỂU ................................................................. XI
DANH MỤC CÁC TỪ VIẾT TẮT........................................................ XII
CHƯƠNG 1. TỔNG QUAN VỀ TÌM KIẾM VIDEO THEO NỘI DUNG..1
1.1 Đặt vấn đề .................................................................................................. 1
1.2 Giới thiệu sơ lược về CBVR ..................................................................... 1
1.3 Các nghiên cứu trên thế giới về CBVR ................................................... 3
1.4 Hướng nghiên cứu và nội dung của luận văn......................................... 4
Kết luận chương .............................................................................................. 7
CHƯƠNG 2. PHƯƠNG PHÁP TÌM KIẾM ẢNH THEO NỘI DUNG ÁP
DỤNG TRONG BÀI TOÁN TÌM KIẾM VIDEO THEO NỘI DUNG ........8
2.1 Đặt vấn đề .................................................................................................. 8
2.2 Tổng quan về tìm kiếm ảnh theo nội dung ............................................. 8
2.2.1 Giới thiệu.............................................................................................. 8
iii


Mục lục

2.2.2 Cơ chế tính toán chung của CBIR........................................................ 9
2.2.3 Một số đặc trưng của ảnh ................................................................... 10
2.3 Đặc tính màu sắc của ảnh....................................................................... 11
2.3.1 Không gian màu ................................................................................. 12
2.3.2 Biểu đồ màu (Color Histogram)......................................................... 17
2.3.3 Biểu đồ tương quan màu (Color Correlogram).................................. 19
2.4 Đặc trưng Entropy của ảnh.................................................................... 20

3.1 Giới thiệu sơ lược phân đoạn video....................................................... 47
3.1.1 Một số khái niệm................................................................................ 47
3.1.2 Một số hình thức chuyển cảnh ........................................................... 48
3.1.3 Các hướng tiếp cận trong phân đoạn video........................................ 50
3.2 Một số phương pháp phân đoạn video.................................................. 50
3.2.1 So sánh điểm ảnh ............................................................................... 51
3.2.2 So sánh khối ....................................................................................... 52
3.2.3 So sánh biểu đồ màu .......................................................................... 53
3.2.4 Một số phương pháp khác.................................................................. 55
3.3 Đề xuất phương pháp phân đoạn video trong chuyển cảnh đột ngột 55
3.3.1 Thuật toán phát hiện chuyển cảnh đột ngột sử dụng ngưỡng đơn giản
..................................................................................................................... 56
3.3.2 Phát hiện chuyển cảnh đột ngột sử dụng cửa sổ trượt ....................... 56
3.3.3 Thuật toán cải tiến đề xuất ................................................................. 60
3.4 Xây dựng và đánh giá hệ thống ............................................................. 61
3.4.1 Các tham số đánh giá ......................................................................... 61
3.4.2 Sơ đồ hệ thống cải tiến....................................................................... 62
3.4.3 Các tham số của thuật toán ................................................................ 62
3.4.4 Kết quả thử nghiệm............................................................................ 64
v


Mục lục

3.4.5 Nhận xét ............................................................................................. 66
Kết luận chương ............................................................................................ 67
CHƯƠNG 4. TRÍCH CHỌN KHUNG HÌNH CHÍNH TRONG VIDEO.68
4.1 Đặt vấn đề ................................................................................................ 68
4.2 Một số kỹ thuật trích chọn khung hình chính hiện nay ...................... 69
4.3 Trích chọn khung hình chính bằng việc khảo sát đường sai khác tích


Danh sách hình vẽ

DANH SÁCH HÌNH VẼ
Hình 1.1 Sơ đồ hệ thống tìm kiếm video nghiên cứu trong luận văn......... 6
Hình 2.1 Cơ chế hoạt động của hệ thống CBIR ......................................... 10
Hình 2.2 Không gian màu RGB................................................................... 13
Hình 2.3 Không gian màu CMY .................................................................. 14
Hình 2.4 Một số cách biểu diễn không gian màu HSV.............................. 15
Hình 2.5 Không gian màu CIELAB ............................................................ 16
Hình 2.6 Mô tả biểu đồ màu......................................................................... 18
Hình 2.7 Những ảnh khác nhau nhưng có biểu đồ màu giống nhau........ 19
Hình 2.8 Hàm Entropy trong không gian hai chiều .................................. 21
Hình 2.9 Mô tả một số hàm khoảng cách thuộc họ Ls ............................... 24
Hình 2.10 Tính và so sánh ảnh bằng biểu đồ màu cục bộ ......................... 27
Hình 2.11 Biểu đồ màu Red, Green, Blue độc lập...................................... 28
Hình 2.12 Sơ đồ khối hệ thống tìm kiếm ảnh sử dụng phương pháp so
sánh biểu đồ màu trong không gian màu RGB.................................. 29
Hình 2.13 Kết quả tìm kiếm ảnh dựa trên không gian màu RGB (ảnh
truy vấn bên phải) ................................................................................. 30
Hình 2.14 Biểu đồ màu trong không gian màu CIELAB .......................... 31
Hình 2.15 Sơ đồ khối hệ thống tìm kiếm ảnh sử dụng phương pháp so
sánh biểu đồ màu trong không gian màu CIELAB ........................... 31
Hình 2.16 Kết quả tìm kiếm ảnh dựa trên không gian màu CIELAB (ảnh
truy vấn bên phải) ................................................................................. 32
Hình 2.17 Giá trị Entropy ứng với các biểu đồ màu R, G, B.................... 33
Hình 2.18 Sơ đồ khối hệ thống tìm kiếm ảnh sử dụng phương pháp so
sánh Entropy.......................................................................................... 33
Hình 2.19 Kết quả tìm kiếm ảnh dựa trên phương pháp Entropy (ảnh
truy vấn bên phải) ................................................................................. 34

Hình 3.10 Ví dụ về trường hợp thuật toán cửa sổ trượt nhận dạng nhầm
trong phân đoạn video. ......................................................................... 60
Hình 3.11 Hệ thống phát hiện chuyển cảnh đột ngột dựa vào thuật toán
cửa sổ trượt kết hợp với ngưỡng so sánh............................................ 62
ix


Danh sách hình vẽ

Hình 3.12 Giao diện hệ thống phát hiện chuyển cảnh ............................... 64
Hình 3.13 Thuật toán cửa sổ trượt phát hiện nhầm là chuyển cảnh ....... 66
Hình 3.14 Cả hai thuật toán đều phát hiện nhầm là chuyển cảnh ........... 67
Hình 4.1 Đường cong sai khác tích luỹ........................................................ 71
Hình 4.2 Thuật toán dò tìm các điểm có độ cong lớn ................................ 73
Hình 4.3 Ví dụ về việc trích chọn khung hình chính dựa vào giải thuật
tìm các điểm có độ cong lớn trên trong sai khác tích luỹ .................. 75
Hình 4.4 Giao diện chương trình trích chọn khung hình chính ............... 77
Hình 5.1 Sơ đồ hệ thống tìm kiếm video theo nội dung trong luận văn .. 81
Hình 5.2 Mối quan hệ giữa các bảng trong cơ sở dữ liệu.......................... 85
Hình 5.3 Giao diện cửa sổ tìm kiếm video .................................................. 86

x


Danh sách bảng biểu

DANH SÁCH BẢNG BIỂU
Bảng 2.1 So sánh giữa các không gian màu................................................ 17
Bảng 2.2 Giá trị Entropy của một số ảnh ................................................... 22
Bảng 2.3 Thời gian tìm kiếm ảnh của các phương pháp........................... 42

Content-Based Video Retrieval

Tìm kiếm video theo nội dung

Commission Internationale de
CIELAB l’Eclairage L*-a*-b*

Không gian màu đồng nhất
L*a*b*

Commission Internationale de
CIELUV l’Eclairage L*-u*-v*

Không gian màu đồng nhất
L*u*v*

CMY

Cyan-Magenta-Yellow color space Không gian màu CMY

HSB

Hue-Saturation-Brightness color
space

Không gian màu HSB

HSV

Hue-Saturation-Value color space

trước

RGB

Red-Green-Blue color space

Không gian màu RGB

SQL

Structure Query Language

Ngôn ngữ truy vấn có cấu trúc

UB

Upper Bound

Ngưỡng trên

xii


Chương 1. Tổng quan về tìm kiếm video theo nội dung

CHƯƠNG 1. TỔNG QUAN VỀ TÌM KIẾM VIDEO
THEO NỘI DUNG
1.1 Đặt vấn đề
Với sự phát triển nhanh chóng của máy tính cùng với đó là các chuẩn
nén hiệu quả hơn đã làm gia tăng nhanh chóng việc lưu trữ, sử dụng các đối

người chú thích là khác nhau.
Khác với thế hệ thứ nhất, trong thế hệ thứ hai của CBVR việc đánh chỉ
mục được thực hiện dựa trên các thuộc tính như màu sắc, kết cấu, hình dạng,
các quan hệ không gian,... Các phương pháp tập trung vào việc tự động hoá
việc đánh chỉ mục và tìm kiếm dựa vào các đặc trưng đó.
Hiện nay CBVR đang bước vào giai đoạn thứ ba, tự động hoá trong việc
đánh chỉ mục và tìm kiếm video ở mức cao (mức độ ngữ nghĩa). Tuy nhiên
các kết quả thu được còn rất khiêm tốn chỉ dừng lại ở một lĩnh vực rất hẹp
nào đó [16].
Việc mô hình hoá nội dung video là một trong những công việc quan
trọng nhất trong tìm kiếm video. M.Petkovic [1] đưa ra mô hình nội dung
video dưới dạng các mức:
• Dữ liệu thô: Bao gồm các thành phần cơ bản của video như: định
dạng, số khung hình trong một giây,...
• Các thông tin thị giác mức thấp: màu sắc, hình dạng, kết cấu,...
• Các thông tin mức ngữ nghĩa: các đối tượng và sự kiện.
Quá trình trích chọn các thông tin ngữ nghĩa là quá trình phức tạp nhất,
trong khi có thể tự động hoá trích chọn các thông tin thị giác ở mức thấp thì
việc chuyển các thông tin đó lên mức cao hơn (ngữ nghĩa) là khó khăn hơn rất
nhiều. Hiện nay trên thế giới vẫn chưa có một hệ thống nào có thể được coi là
công cụ vạn năng để thực hiện công việc đó.

2


Chương 1. Tổng quan về tìm kiếm video theo nội dung

1.3 Các nghiên cứu trên thế giới về CBVR
Trước nhu cầu ngày càng lớn trong việc quản lý dữ liệu video, nhiều
nhóm nghiên cứu đã nhảy vào cuộc. Đã có nhiều thuật toán về nén dữ liệu

• Đại học Maryland [5]: Đại học Maryland đang làm việc với những
nhà nghiên cứu từ đại học Oulu, mở rộng các phương thức được dùng
cho việc truy tìm ảnh.
• Đại học Bắc Texas [6]: Nhóm Đại học Bắc Texas trích các khung
hình từ dữ liệu video theo chu kỳ 5 giây. Những khung hình này sẽ
qua tiến trình chọn khung hình chính để bỏ đi những khung hình thừa.
Những khung hình chính sau đó sẽ được đưa vào ứng dụng UNT’s
Brighton Image Searcher, dựa vào các độ đo toán học tương ứng với
những đặc tính quan trọng của ảnh. Độ chính xác của quá trình chọn
khung hình chính tương đối khả quan.
Có thể thấy rằng hiện nay, lĩnh vực tìm kiếm video theo nội dung khá
hấp dẫn và thu hút được sự quan tâm của ngày càng nhiều nhóm nghiên cứu
vì những nhu cầu và ứng dụng thực tế của nó. Tuy nhiên những kết quả đạt
được còn hạn chế, do vậy việc nghiên cứu, phát triển tìm kiếm video theo nội
dung là một công việc cấp thiết, cần có nhiều sự đầu tư nghiên cứu nhiều hơn
nữa.

1.4 Hướng nghiên cứu và nội dung của luận văn
Như trình bày ở phần trên, trên thế giới hiện nay có rất nhiều phương
pháp tiếp cận trong việc tìm kiếm video theo nội dung. Trong luận văn này
người viết đưa ra một phương pháp tìm kiếm video dựa trên cơ chế tìm kiếm
ảnh.
Như chúng ta đã biết, video được hình thành từ các ảnh (khung hình –
frame) liên tiếp nhau, tuỳ theo các chuẩn video khác nhau mà số khung hình
trong một giây cũng khác nhau. Các khung hình liên tiếp về mặt thời gian tạo
thành một đoạn cơ sở (shot). Một video có thể gồm nhiều đoạn cở sở ghép nối
lại, chuyển từ đoạn này sang đoạn kia có thể là chuyển cảnh đột ngột hoặc
chuyển cảnh dần dần bằng việc sử dụng một số hiệu ứng khi biên tập video
4



Chương 1. Tổng quan về tìm kiếm video theo nội dung

Video Files

Phân đoạn

Trích chọn

Video

key-frame

Đánh chỉ mục

CSDL
Keyframe
và đoạn
Keyframes
Browser

Tìm kiếm ảnh
theo nội dung

Kết quả:
Các đoạn
Video

Hình 1.1 Sơ đồ hệ thống tìm kiếm video nghiên cứu trong luận văn
Với những phân tích như trên, luận văn gồm các nội dung chính như sau:

theo nội dung cũng như những khó khăn trong nghiên cứu lĩnh vực này. Các
nghiên cứu trên thế giới hiện nay về lĩnh vực này cũng được đề cập.
Chương này cũng trình bày phạm vi nghiên cứu và cách tiếp cận của
NVLV để xây dựng hệ thống tìm kiếm video.
Chương sau sẽ tìm hiểu cơ chế tìm kiếm ảnh theo nội dung, ứng dụng
trong việc tìm kiếm video.

7


Chương 2. Tìm kiếm ảnh theo nội dung

CHƯƠNG 2. PHƯƠNG PHÁP TÌM KIẾM ẢNH
THEO NỘI DUNG ÁP DỤNG TRONG BÀI TOÁN
TÌM KIẾM VIDEO THEO NỘI DUNG
2.1 Đặt vấn đề
Như đã đề cập ở chương trước, tìm kiếm ảnh theo nội dung là một phần
của hệ thống tìm kiếm video mà NVLV xây dựng. Mặt khác, các kiến thức về
CBIR là những kiến thức rất quan trọng trong việc nghiên cứu xử lý video ở
các chương tiếp, ví dụ như: cảm thụ của con người về màu sắc, tìm kiếm
trong không gian độ đo,...

2.2 Tổng quan về tìm kiếm ảnh theo nội dung
2.2.1 Giới thiệu
Trong cơ sở dữ liệu, ảnh số đóng một vai trò rất quan trọng, đặc biệt khi
khả năng lưu trữ dữ liệu của máy tính được tăng lên một cách nhanh chóng.
Khi nhu cầu về ảnh số tăng lên với khối lượng dữ liệu lớn đòi hỏi phải có một
phương pháp hiệu quả trong việc lưu trữ và tìm kiếm ảnh. Một vấn đề đặt ra
là làm sao để có thể quản lý và sử dụng chúng một cách hiệu quả khi người sử
dụng có nhu cầu tìm kiếm thông tin mà họ cần. Hiện nay phần lớn các hệ

Cơ chế hoạt động của hoạt hệ thống CBIR được mô tả trong hình 2.1
[17]. Toàn bộ quá trình này bắt đầu với việc phân tích và trích chọn các đặc
trưng của ảnh được xử lý bằng các thuật toán trích chọn đặc trưng, những đặc
trưng này được lưu vào cơ sở dữ liệu. Việc sử dụng thuật toán trích chọn đặc
trưng cũng được sử dụng để lấy các đặc trưng của ảnh truy vấn. Phương pháp
đo xấp xỉ sau đó sẽ so sánh những đặc trưng của truy vấn với các đặc trưng
trong cơ sở dữ liệu. Với những ảnh có đặc trưng trong cơ sở dữ liệu được cho
là “giống” với ảnh truy vấn sẽ được gửi lại cho người sử dụng như là một kết
quả cuối cùng.

9


Chương 2. Tìm kiếm ảnh theo nội dung
Ảnh truy vấn

Trích chọn đặc trưng

Trích chọn đặc trưng

87
23
27
19
40

54
56
10
76

Không gian màu RGB được sử dụng rộng rãi trong việc miêu tả màu sắc
của ảnh. Nó gồm ba thành phần màu cơ bản là đỏ (Red), lục (Green), lam
(Blue). Các màu khác được tạo ra bằng cách tổng hợp ba thành phần màu cơ
10


Chương 2. Tìm kiếm ảnh theo nội dung

bản này. Tuy nhiên không gian màu RGB biến đổi không phù hợp với cảm
nhận của mắt con người. Không gian màu CIELAB và CIELUV được nghiên
cứu phát triển để phù hợp với cảm nhận của mắt người.
Việc tính toán so sánh “khoảng cách” giữa các ảnh sử dụng đặc trưng
màu sắc có thể sử dụng các phương pháp như: mô men màu, biểu đồ màu,...
Mỗi phương pháp có những đặc điểm riêng chúng ta sẽ xem xét cụ thể ở các
phần tiếp theo.
b. Đặc trưng về hình dạng [7]
Hình dạng của đối tượng trong ảnh cũng là một đặc trưng có thể được
xét đến. Đối tượng của ảnh thể hiện nội dung ảnh nhiều nhất. Ảnh được chụp
hoặc tranh được vẽ luôn với mục đích mô tả lại các đối tượng trong đó. Việc
tách riêng các đối tượng và hình dạng của chúng trong ảnh là rất khó khăn. Và
khó hơn là so sánh các đặc trưng đó thế nào. Phương pháp này chỉ nên áp
dụng cho loại ảnh đặc biệt có đặc trưng hình dạng nổi bật, dễ phân tích.
c. Đặc trưng về kết cấu (texture) [8]
Khái niệm chung về kết cấu bề mặt là phản ánh sự biểu diễn một mẫu về
không gian có vài thuộc tính đồng đều. Vào các trường hợp đặc biệt, tính
đồng đều không thể có được từ sự biểu diễn bằng một màu đơn hoặc một độ
sáng trong vùng mà yêu cầu sự tương tác của nhiều màu, độ sáng khác nhau.
Để sử dụng kết cấu trong tìm kiếm ảnh, ta cần có các đặc tính kết cấu của một
đối tượng hoặc một vùng quan tâm đến trong ảnh cung cấp đặc tính để tìm
kiếm ảnh. Ví dụ đặc trưng kết cấu tách ra từ một cảnh của đồng cỏ thì ta có


Tính đồng nhất (uniform): Một không gian màu đồng nhất là một
không gian mà trong đó khoảng cách giữa các điểm trong không gian
màu là tương đương với khoảng cách nhận thức được giữa các điểm
đó của con người.



Tính đầy đủ (complete): Một không gian màu đầy đủ là một không
gian biểu diễn được tất cả các màu mà con người có thể cảm nhận
được.



Tính duy nhất (unique): Một không gian màu có tính duy nhất nếu hai
điểm riêng biệt trong không gian màu đại diện cho hai màu khác nhau
theo cảm nhận của con người.
12


Trích đoạn Một số kỹ thuật trích chọn khung hình chính hiện nay Xây dựng phần mềm trích chọn khung hình chính Mô-đun cơ sở dữ liệu Giao diện hệ thống
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status