Phát hiện thông tin bạo lực trong video dựa trên đa đặc trưng mang tính ngữ nghĩa cao TT - Pdf 47

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

LÂM QUANG VŨ

PHÁT HIỆN THÔNG TIN BẠO LỰC TRONG VIDEO DỰA
TRÊN ĐA ĐẶC TRƯNG MANG TÍNH NGỮ NGHĨA CAO

Chuyên ngành: Khoa Học Máy Tính
Mã số ngành: 62 48 01 01

TÓM TẮT LUẬN ÁN TIẾN SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

TP. Hồ Chí Minh năm 2018


Công trình được hoàn thành tại: Khoa Công Nghệ Thông Tin, Trường Đại Học Khoa Học Tự
Nhiên, ĐHQG Thành Phố Hồ Chí Minh.
Người hướng dẫn khoa học:
1. HDC: PGS.TS DƯƠNG ANH ĐỨC
2. HDP: TS. LÊ ĐÌNH DUY

Phản biện 1: TS. Lê Thành Sách
Phản biện 2: PGS.TS Vũ Đức Lung
Phản biện 3: TS. Nguyễn Hồng Sơn
Phản biện độc lập 1: PGS.TS. Phạm Thế Bảo
Phản biện độc lập 2: TS. Nguyễn Hồng Sơn

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp cơ sở đào tạo họp tại Trường Đại
Học Khoa Học Tự Nhiên, ĐHQG Thành Phố Hồ Chí Minh
vào hồi

1.3.4 Các hướng tiếp cận kết hợp đặc trưng ................................................ 5
1.4 Giới thiệu hướng tiếp cận của luận án ....................................................... 5
1.4.1 Giới thiệu kiến trúc tổng quan ........................................................... 5
1.4.2 Bước 1 - Tiền xử lý dữ liệu................................................................ 5
1.4.3 Bước 2 – Biểu diễn đặc trưng ............................................................ 6
1.4.4 Bước 3 - Huấn luyện mô hình/ đánh giá............................................. 7
1.4.5 Bước 4 - Kết hợp kết quả................................................................... 7
1.4.6 Song song hóa việc rút trích đặc trưng ............................................... 7
1.5 Đánh giá độ phức tạp của kiến trúc hệ thống............................................. 7
1.6 Bộ dữ liệu MediaEval ............................................................................... 8
1.6.1 Giới thiệu MediaEval ........................................................................ 8
1.6.2 Giới thiệu bộ dữ liệu MediaEval-VSD ............................................... 8
1.6.3 Thông tin bộ dữ liệu .......................................................................... 8
1.6.4 Các khái niệm được gán nhãn trong bộ dữ liệu .................................. 8
1.6.5 Nguyên tắc và quy trình xây dựng bộ dữ liệu ..................................... 8
1.6.6 Các độ đo .......................................................................................... 8
1.6.7 Các đóng góp trong việc xây dựng bộ dữ liệu .................................... 9
1.7 Kết luận.................................................................................................... 9

Chương 2. ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC CHO
BÀI TOÁN VSD 9
2.1 Giới thiệu ................................................................................................. 9
2.2 Đặc trưng cấp thấp ................................................................................. 10
2.2.1 Các đặc trưng trên khung ảnh .......................................................... 10
2.2.2 Đặc trưng chuyển động.................................................................... 11
2.2.3 Đặc trưng âm thanh ......................................................................... 12
2.3 Đặc trưng tự học được rút trích từ mô hình mạng nơ-ron tích chập ......... 12
2.3.1 Giới thiệu ........................................................................................ 12
2.3.2 Giới thiệu mạng nơ-ron tích chập (CNN) ......................................... 12
2.3.3 Một số vấn đề của mạng nơ-ron tích chập ........................................ 12

Chương 4. KẾT HỢP ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUYÊN TÍNH
TOÁN CHO VSD 19
4.1 Giới thiệu ............................................................................................... 19
4.2 Kết hợp đặc trưng ................................................................................... 20
4.2.1 Kết hợp đặc trưng trước khi huấn luyện (early fusion) ..................... 20
4.2.2 Kết hợp kết quả phân loại của các đặc trưng sau khi huấn luyện (late fusion)
20
4.3 Lựa chọn đặc trưng ................................................................................. 21
4.3.1 Giới thiệu ........................................................................................ 21
4.3.2 Phân tích kết quả từng loại đặc trưng riêng ...................................... 21
4.3.3 Đánh giá kết quả lựa chọn ............................................................... 21
4.4 Tối ưu tài nguyên tính toán ..................................................................... 22
4.4.1 Giới thiệu ........................................................................................ 22
4.4.2 Môi trường tính toán ....................................................................... 24
4.4.3 Chi phí rút trích đặc trưng ............................................................... 24
4.4.4 Đánh giá kết quả.............................................................................. 24
4.5 So sánh kết quả giữa các nhóm nghiên cứu ............................................. 25
4.6 Phân tích đánh giá .................................................................................. 26
4.7 Kết luận.................................................................................................. 26

Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...................26
5.1
5.2

Những kết quả đạt được.......................................................................... 26
Hướng phát triển .................................................................................... 26

DANH MỤC CÔNG TRÌNH ...........................................................26

ii

o Phương pháp rút trích và biểu diễn đa đặc trưng thông tin bạo lực.
o Đánh giá trên bộ dữ liệu chuẩn được cung cấp bởi MediaEval, bao gồm các phim
Hollywood [76], với đầu vào là các bộ phim và đầu ra là các cảnh được đánh giá
mức độ bạo lực.

3) Ý nghĩa khoa học và thực tiễn của luận án
Về mặt khoa học, luận án tập trung đánh giá các mô hình đặc trưng trên nhiều kênh thông
tin (kênh thông tin thị giác khai thác trên từng khung ảnh hoặc chuỗi khung ảnh - video, kênh âm
thanh) để biểu diễn cảnh bạo lực. Từ đó, xác định các loại đặc trưng phù hợp và đề xuất phương
pháp kết hợp các đặc trưng cho bài toán phát hiện thông tin bạo lực. Kết quả của nghiên cứu này
giúp các nhóm nghiên cứu có cơ sở lựa chọn các đặc trưng phù hợp theo yêu cầu, làm nền tảng
cho việc cải tiến độ chính xác, chi phí tính toán trong các nghiên cứu về sau, tiết kiệm thời gian
thử nghiệm lại từng loại đặc trưng.
Về mặt thực tiễn, mô hình hệ thống và các đánh giá thực nghiệm là nền tảng để phát triển
các ứng dụng phát hiện thông tin bạo lực, kiểm duyệt phim, xếp hạng các bộ phim theo mức độ
bạo lực một cách tự động (rating), kiểm duyệt thông tin bạo lực trên các kênh truyền thông đa
phương tiện trên Internet.

1

/>
1


4) Các đóng góp chính của luận án
Bài toán phát hiện cảnh bạo lưc trong video (VSD - Violent Scene Detection) là một dạng
bài toán phát hiện sự kiện (MED - Multimedia Event Detection), trong đó thách thức lớn nhất
của dạng bài toán này là tính ngữ nghĩa và độ phức tạp cao thể hiện qua sự xuất hiện của các đối
tượng, người, cảnh vật và tương tác giữa chúng. Để giải quyết các vấn đề này, hướng tiếp cận kết
hợp đa đặc trưng đã được chứng minh là phổ biến và hiệu quả cho bài toán MED. Do đó, đây

VSD hàng năm [CT5][CT7][CT6]. Quá trình tham gia xây dựng bộ dữ liệu được trình bày chi
tiết trong Chương 1 của luận án. Dựa trên các kết quả nghiên cứu, chúng tôi đã xây dựng hệ thống
hỗ trợ phát hiện thông tin bạo lực (lọt vào chung kết cuộc thi Nhân Tài đất Việt 2014) và đã đăng
ký giải pháp hữu ích để bảo hộ cho hệ thống được đề xuất tại Việt Nam.

5) Bố cục luận án







Luận án được bố cục theo các chương mục như sau:
PHẦN MỞ ĐẦU
CHƯƠNG 1: TỔNG QUAN
CHƯƠNG 2: ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC CHO BÀI
TOÁN VSD
CHƯƠNG 3: ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD
CHƯƠNG 4: KẾT HỢP ĐA ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUYÊN TÍNH TOÁN
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
2


Chương 1. TỔNG QUAN
Trong chương này, chúng tôi giới thiệu về bài toán giải quyết trong luận án: Phát hiện
thông tin bạo lực trong video; tầm quan trọng và các thách thức khi giải quyết bài toán này. Sau
đó, chúng tôi giới thiệu sơ lược về các cách tiếp cận được sử dụng rộng rãi hiện nay được kế
thừa từ bài toán phát hiện sự kiện trong video; từ đó, giới thiệu hướng tiếp cận của chúng tôi khi
thực hiện luận án này. Bên cạnh đó, chúng tôi cũng trình bày kiến trúc hệ thống được chúng tôi


Mô hình

0

0

Video được gán nhãn
1: bạo lực
0: không bạo lực

Giai đoạn kiểm tra (Online)
Kết quả đánh giá

Dữ liệu kiểm tra

Rút trích đặc trưng

ct r đặc trưng

Phân lớp

0

1

1

1


Hệ thống VSD được tổ chức thành hai giai đoạn như mô tả trong Hình 1.1. Ở giai đoạn đầu
(thực hiện ngoại tuyến - offline), dựa vào các dữ liệu huấn luyện được gán sẵn các nhãn bạo lực,
hệ thống tiến hành rút trích và biểu diễn các đặc trưng trên máy tính từ dữ liệu video đầu vào, sau
đó sẽ sử dụng các phương pháp học giám sát để huấn luyện mô hình máy học có khả năng đánh
giá, phân loại khái niệm bạo lực. Ở giai đoạn tiếp theo (thực hiện trực tuyến - online), hệ thống
sẽ sử dụng các mô hình huấn luyện ở bước đầu để tiến hành đánh giá các dữ liệu cần kiểm tra.
Trong phạm vi của luận án, chúng tôi sẽ tập trung chính vào bước rút trích và biểu diễn đặc trưng
trên máy tính cho khái niệm bạo lực.
Trong phạm vi luận án, bài toán VSD được đặc tả cụ thể như sau:
Vấn đề 1.1: Bài toán phát hiện thông tin bạo lực tổng quát
Đầu vào:
• Cho V là tập hợp gồm 𝑛 video: 𝑉 = {𝑣1 , 𝑣2 , . . , 𝑣𝑛 } với 𝑣𝑖 ∈ 𝑉𝑖𝑑𝑒𝑜,
1≤ 𝑖 ≤ 𝑛
𝑖 },
• Mỗi video 𝑣𝑖 là một tập hợp các phân đoạn 𝑣𝑖 = {𝑠1𝑖 , 𝑠2𝑖 , … , 𝑠𝑚
với 𝑚 là số
phân đoạn trong video 𝑣𝑖
• ℎ là hàm rút trích biểu diễn đặc trưng :
ℎ: ℕ𝐻×𝑊×𝐿 ⟶ ℝ𝐷 ,
𝐻, 𝑊 là chiều cao và rộng của khung ảnh
𝑠𝑗𝑖 ⟼ ℎ(𝑠𝑗𝑖 ),
𝐿 là số khung ảnh trong phân đoạn
𝐷 là chiều dài của vector đặc trưng
• 𝑡 là hàm phân lớp:
𝑡: ℝ𝐷 ⟶ ℤ2 = {0,1},

3


ℎ(𝑠𝑗𝑖 ) ⟼ 𝑙𝑗𝑖

c) Tài nguyên: việc xử lý trên dữ liệu video đòi hỏi tài nguyên lưu trữ và tính toán lớn.
Ví dụ để xử lý rút trích đặc trưng cho một giờ video, nếu sử dụng đặc trưng trên khung
ảnh, chúng ta phải rút trích và xử lý 90.000 khung ảnh (25 khung ảnh/ giây).
d) Dữ liệu cho bài toán học giám sát: với đặc tính ngữ nghĩa cao, việc xây dựng bộ dữ
liệu huấn luyện dựa trên khái niệm được định nghĩa cũng là một thách thức.

1.3 Tổng quan các hướng tiếp cận và các công trình liên quan
Phát hiện thông tin bạo lực là một dạng của bài toán phát hiện sự kiện trong video. Thông
thường, mỗi sự kiện có nhiều thể hiện đa dạng, mang tính ngữ nghĩa cao nên các hướng tiếp cận
đều sử dụng kết hợp đa đặc trưng để biểu diễn sự kiện, tuy nhiên chưa có nhiều nghiên cứu tương
tự cho bài toán phát hiện thông tin bạo lực. Kể từ sau năm 2011, khi MediEval và công ty
Technicolor đưa ra bộ dữ liệu MediaEval VSD[76], nhiều nhóm nghiên cứu đã cùng tham gia
giải quyết bài toán trên bộ dữ liệu chuẩn này.
1.3.1 Các hướng tiếp cận chung cho bài toán phát hiện sự kiện
Bài toán phát hiện thông tin bạo lực trong video là dạng bài toán phát hiện sự kiện trong
dữ liệu đa phương tiện (MED - multimedia event detection) đang phổ biến hiện nay. Bài toán
phát hiện thông tin bạo lực của MediEval mà luận án đang giải quyết được xây dựng trên dữ liệu
phim Hollywood (video dài, được biên tập nội dung, có độ phân giải cao và nhiều kỹ xảo) và tính
ngữ nghĩa của khái niệm cao hơn.
1.3.2 Các hướng tiếp cận đa đặc trưng cho bài bài toán VSD
Đặc điểm chung của các công trình trong giai đoạn này là sử dụng các khái niệm liên quan
đến bạo lực để thay thế cho khái niệm bạo lực. Việc sử dụng các định nghĩa mang tính chủ quan
cao không giải quyết bài toán một cách tổng quát và mất đi sự thể hiện đa dạng của khái niệm,
phạm vi và độ phức tạp của bài toán cũng giảm đáng kể.
Từ năm 2011, khi MediaEval VSD phát triển định nghĩa hình thức của khái niệm bạo lực
và công bố kèm bộ dữ liệu chuẩn, nhiều nhóm nghiên cứu trên thế giới đã tham gia vào MediaEval
VSD qua các năm và nhiều công trình đã được công bố [21]. Các hướng tiếp cận chung của các
bài toán là việc áp dụng đa đặc trưng trên nhiều kênh thông tin từ ảnh, âm thanh, video và các
cách kết hợp đặc trưng sao cho hiệu quả. Các nhóm nghiên cứu thường công bố kết quả của việc



1.4 Giới thiệu hướng tiếp cận của luận án
1.4.1 Giới thiệu kiến trúc tổng quan
Chúng tôi xây dựng hệ thống hỗ trợ phát hiện thông tin bạo lực trên nền tảng tham khảo
các hệ thống hỗ trợ phát hiện sự kiện [40], [65], [96]. Hệ thống chúng tôi xây dựng có khả năng
rút trích các đặc trưng trên nhiều kênh thông tin. Bên cạnh đó, hệ thống cũng được thiết kế để
thực hiện các tính toán song song trên hệ thống GRID Computing.
Kiến trúc hệ thống được minh họa trong Hình 1.2 bên dưới.
Dữ liệu
huấn luyện
0

0

1

1

0

0

TIỀN XỬ LÝ

1

1

Dữ liệu
đánh giá

HÌNH

ĐÁNH
GIÁ/
PHÂN
LỚP

TỔNG HỢP KẾT QUẢ

KẾT
HỢP
KẾT
QUẢ

HẬU XỬ

TĂNG
ĐỘ
CHÍNH
XÁC

Hình 1.2. Kiến trúc tổng quan của hệ thống hỗ trợ phát hiện thông tin bạo lực
Bước 1 - Tiền xử lý dữ liệu
Dữ liệu đầu vào của bài toán VSD thường là các phim hoặc video clip có chiều dài khác
nhau. Mục tiêu của bài toán là xác định các phân đoạn có chứa thông tin bạo lực, vì vậy ở bước
đầu tiên hệ thống sẽ thực hiện: (1) Phân chia video thành các phân đoạn; (2) trích khung ảnh từ
các phân đoạn (3) chuẩn hóa kích thước.
Cụ thể bước tiền xử lý dữ liệu được đặc tả tổng quát như sau:
1.4.2





đoạn 𝑠𝑗𝑖 có 𝑛𝐾𝐹𝑗𝑖 khung ảnh, 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ là chiều rộng và chiều cao của
khung ảnh sau khi được giảm kích thước.
toán:
Bước 1:
Loop duyệt qua từng video 𝑣𝑖
Bước 1.1:
Chia video thành các phân đoạn có độ dài ∆𝑓𝑟𝑎𝑚𝑒𝑠
Bước 1.2:
Loop duyệt qua từng phân đoạn 𝑠𝑖
Bước 1.2.1:
Rút trích theo tỷ lệ 𝑛𝑓𝑟𝑎𝑚𝑒 / 𝑔𝑖â𝑦
Bước 1.2.2:
Giảm kích thước khung ảnh về 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ
Bước 1.2.3:
Loại bỏ khung ảnh có dãy màu đồng nhất
End Loop
Bước 1.3:
Tạo danh sách khung ảnh cho phân đoạn 𝑠𝑖
End Loop
Bước 2:
Trả về danh sách phân đoạn và các khung ảnh tương ứng cho
từng phân đoạn.

1.4.3 Bước 2 – Biểu diễn đặc trưng
Sau bước tiền xử lý dữ liệu, các đặc trưng thô được rút trích để tạo thành các vector đặc
trưng biểu diễn cho các ảnh. Đối với đặc trưng cục bộ, âm thanh và đặc trưng chuyển động, các
đặc trưng thô sau khi rút trích sẽ được chuẩn hóa bằng các kỹ thuật khác nhau (túi từ - Bag of

phân đoạn.
ℎ(𝑠𝑗𝑖 ) = 𝑠𝑓𝑗𝑖 , 𝑠𝑓𝑗𝑖 ∈ ℝ𝐷 , với 𝐷 là số chiều của vector đặc trưng.

Tập vector đặc trưng 𝑋𝑖 cho các phân đoạn trong video 𝑣𝑖 :
𝑖
𝑋𝑖 = {𝑠𝑓1𝑖 , 𝑠𝑓2𝑖 , … 𝑠𝑓𝑛𝑆ℎ𝑜𝑡
}, với 𝑠𝑓𝑗𝑖 là phân đoạn thứ 𝑗 trong video 𝑣𝑖 có tổng
cộng 𝑛𝑆ℎ𝑜𝑡.
toán:
Bước 1:
Loop qua từng phân đoạn 𝑠𝑗𝑖
Bước 1.1:
Rút trích đặc trưng thô trên khung ảnh
Bước 1.2:
Mã hóa đặc trưng (BoW, FV
Bước 1.3:
Pooling (max, avg) các đặc trưng trên khung
ảnh  đặc trưng cho Phân đoạn 𝑠𝑗𝑖
End Loop
Bước 2:
Trả về danh sách đặc trưng của các phân đoạn.

6


1.4.4 Bước 3 - Huấn luyện mô hình/ đánh giá
1.4.4.1 Huấn luyện mô hình
Bài toán phát hiện thông tin bạo lực là một dạng bài toán học có giám sát (supervised
learning). Trong luận án chúng tôi sử dụng phương pháp phổ biến là vector hỗ trợ (Support
Vector Machines - SVM[87]).

}, với 𝑠𝑓𝑗𝑖 là phân đoạn thứ 𝑗 trong video 𝑣𝑖 có tổng
𝑋𝑖 = {𝑠𝑓1𝑖 , 𝑠𝑓2𝑖 , … 𝑠𝑓𝑛𝑆ℎ𝑜𝑡
cộng 𝑛𝑆ℎ𝑜𝑡.
• Hàm phân lớp với đầu ra xác suất 𝑡: ℝ𝐷 ⟶ ℤ = [0,1].
Đầu ra:
• Với mỗi video 𝑣𝑖 ∈ 𝑉, kết quả nhận được là tập các phân đoạn được
đánh giá xác suất (hay còn gọi là mức độ) bạo lực: 𝑟𝑒𝑠𝑢𝑙𝑡𝑖 =
𝑖
𝑖
{(𝑠1𝑖 , 𝑠𝑐𝑜𝑟𝑒1𝑖 ), (𝑠2𝑖 , 𝑠𝑐𝑜𝑟𝑒2𝑖 ), … , (𝑠𝑛𝑆ℎ𝑜𝑡
, 𝑠𝑐𝑜𝑟𝑒𝑛𝑆ℎ𝑜𝑡
)}, với 1 ≤ 𝑖 ≤ 𝑛, 𝑠𝑐𝑜𝑟𝑒𝑗𝑖 = [0,1], với
𝑠𝑐𝑜𝑟𝑒𝑗𝑖 càng gần 1 thì càng bạo lực.

1.4.5 Bước 4 - Kết hợp kết quả
Do đặc trưng ngữ nghĩa cao và thể hiện đa dạng của bài toán phát hiện sự kiện nói chung
và bài toán phát hiện thông tin bạo lực nói chung, việc kết hợp sử dụng nhiều loại đặc trưng trên
các kênh thông tin khác nhau sẽ giúp tăng khả năng phân loại thông tin trong biểu diễn khái niệm.
Ở bước này chúng tôi tiến hành thực hiện: (1) kết hợp sớm các đặc trưng (early fusion): kết hợp
đặc trưng khung ảnh, kết hợp các bộ mô tả; (2) kết hợp trễ trên danh sách kết quả (late fusion):
lựa chọn đặc trưng kết hợp, hậu xử lý trên danh sách kết quả, tối ưu bộ kết hợp theo tài nguyên
tính toán.
1.4.6 Song song hóa việc rút trích đặc trưng
Để rút ngắn thời gian tính toán, chúng tôi đã thiết kế lại hệ thống VSD để chạy trên hệ
thống tính toán lưới GRID Computing (gồm ~500 Cores).

1.5 Đánh giá độ phức tạp của kiến trúc hệ thống
Ở bước tiền xử lý dữ liệu: chi phí tính toán phụ thuộc chủ yếu vào phương pháp chia phân
đoạn và tỷ lệ lấy mẫu khung ảnh trong một giây.. Tổng chi phí tính toán ở bước tiền xử lý dữ liệu
là:

(1.4)

Ở giai đoạn kiểm tra đánh giá, độ phức tạp được tính như sau:
𝑂(𝑛. 𝑚 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛 đá𝑛ℎ 𝑔𝑖á, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔

(1.5)

1.6 Bộ dữ liệu MediaEval
Nhằm tìm hiểu bài toán phát hiện thông tin bạo lực và có được bộ dữ liệu nghiên cứu
chuẩn, từ năm 2012 chúng tôi tham gia vào Ban tổ chức của hội thảo MediaEval và tham gia vào
nhóm xây dựng bộ dữ liệu MediaEval-VSD3.
1.6.1 Giới thiệu MediaEval
1.6.2 Giới thiệu bộ dữ liệu MediaEval-VSD
1.6.3 Thông tin bộ dữ liệu
Bộ dữ liệu MediaEval VSD được xây dựng lần đầu năm 2011 và phát triển đến năm 2014.
Tổng thời gian của toàn bộ Bộ dữ liệu MediaEval VSD là 63.55 giờ.
1.6.4 Các khái niệm được gán nhãn trong bộ dữ liệu
1.6.5 Nguyên tắc và quy trình xây dựng bộ dữ liệu
1.6.6 Các độ đo
Từ năm 2013, Ban tổ chức MediaEval-VSD chuyển sang sử dụng các độ đo mAP (mean
Average Precision - độ chính xác trung bình).
𝑀𝐴𝑃2014 =

𝑉
𝑣=1 𝐴𝑃(𝑣)

𝑉

,


• Tham gia viết bài công bố bộ dữ liệu CBMI 2014 [CT9], 2015Error! Reference s
ource not found.

1.7 Kết luận
Trong chương này, chúng tôi giới thiệu tổng quan bài toán phát hiện thông tin bạo lực,
các thách thức và đánh giá các hướng tiếp cận tổng quan của bài toán, từ đó đề xuất một kiến trúc
tổng quan chung để tiến hành các thực nghiệm cho bài toán phát hiện thông tin bạo lực. Quá trình
phát triển và cải tiến kiến trúc tổng quan hệ thống được thực hiện song song với việc tham gia và
xây dựng bộ dữ liệu MediEval VSD. Kết quả của quá trình xây dựng bộ dữ liệu được công bố
trong các công trình Error! Reference source not found.[CT9].

Chương 2. ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC
CHO BÀI TOÁN VSD
Trong chương này, chúng tôi sử dụng các loại đặc trưng cấp thấp được rút trích từ nhiều
kênh thông tin khác nhau để biểu diễn khái niệm bạo lực. Thông qua việc đánh giá một cách hệ
thống các cấu hình đặc trưng khác nhau, chúng tôi có thể tối ưu hóa các bộ tham số của các đặc
trưng nhằm tăng độ chính xác trong việc phát hiện thông tin bạo lực.
Bên cạnh các đặc trưng được thiết kế sẵn, chúng tôi đề xuất sử dụng các đặc trưng học sâu
của các mô hình được huấn luyện sẵn trong một số thư viện CNN có sẵn như Alexnet, UvANet,
VGGnet. Thông qua việc đánh giá các đặc trưng được rút trích từ nhiều mô hình mạng nơ-ron
tích chập phổ biến, chúng tôi đề xuất sử dụng các đặc trưng ở tầng kế cuối cho việc biểu diễn
thông tin bạo lực, các đặc trưng này đem lại độ chính xác cao cho bài toán phát hiện thông tin
bạo lực
Chúng tôi tiến hành thử nghiệm trên bộ dữ liệu của bài toán MediaEval-VSD. Mục đích chính
của việc thử nghiệm này là lựa chọn được bộ tham số tối ưu cho bài toán phát hiện thông tin bạo
lực. Kết quả của nội dung nghiên cứu này được công bố trên hội nghị SocPar2013[CT3], một
phần trong bài tạp chí MTA2016 [CT1] và hội thảo MediaEval 2013,2014,2015
[CT5][CT6][CT7].

2.1 Giới thiệu

[60] và bài toán VSD [1], [40], [62], [102].
Đặc trưng học sâu được rút trích từ nhiều mô hình mạng nơ-ron tích chập: việc
huấn luyện một mô hình CNN riêng cho việc xác định thông tin bạo lực đòi hỏi nguồn
dữ liệu huấn luyện lớn, điều này hiện chưa khả thi với các bộ dữ liệu VSD hiện tại. Trong
khuôn khổ nghiên cứu này, chúng tôi thử nghiệm các đặc trưng được rút trích từ các mô
hình học sâu CNN để biểu diễn khái niệm bạo lực. Giống như cách tiếp cận fine-tuning
cho các mô hình CNN, chúng tôi sử dụng đặc trưng được rút trích từ các tầng kết nối đầy
đủ cuối của các mô hình CNN để biểu diễn cho khái niệm bạo lực.

Vấn đề 2.1: đánh giá đặc trưng
Đầu vào:
• Cho ℱ = {𝑓1 , 𝑓2 , … , 𝑓𝑛 }là tập hợp các loại đặc trưng khác nhau, bao gồm:
o Đặc trưng trên khung ảnh (cục bộ, toàn cục, đặc trưng được
rút trích từ mô hình mạng nơ-ron tích chập)
o Đặc trưng chuyển động (chuyển động)
o Đặc trưng trên âm thanh
• Mỗi loại đặc trưng 𝑓𝑖 có 𝑓𝑚𝑖 tham số, trong đó tham số 𝑝𝑎𝑟𝑎𝑚𝑖,𝑘 có
miền giá trị là 𝔻𝑖,𝑘 (𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑛 𝑣à 1 ≤ 𝑘 ≤ 𝑚𝑖 ). Gọi 𝔊(𝑓𝑖 ) là tập hợp các
cấu hình khác nhau cho loại đặc trưng 𝑓𝑖 , cụ thể là:
𝔊(𝑓𝑖 ) = {(𝑣𝑖,1 , 𝑣𝑖,2 , … , 𝑣𝑖,𝑚𝑖 ) ∈ 𝔻𝑖,1 × 𝔻𝑖,2 × 𝔻𝑖,𝑚𝑖 }
• Ví dụ: với loại đặc trưng toàn cục 𝑓𝑖 , cấu hình chủ yếu gồm độ mịn
(granularity), không gian màu (color space) và lượng hóa
(quantization).
𝔊(𝑓𝑖 ) = {(𝑔𝑖 , 𝑐𝑖 , 𝑞𝑖 } với 𝑔𝑖 ∈ 𝔻granularity , 𝑐𝑖 ∈ 𝔻color 𝑠𝑝𝑎𝑐𝑒 , 𝑞𝑖 ∈ 𝔻𝑞𝑢𝑎𝑛𝑡𝑖𝑧𝑎𝑡𝑖𝑜𝑛
Đầu ra: cùng với các cấu hình
• Trong phạm vi vấn đề này, chúng tôi xét riêng từng loại đặc trưng
𝑓 ⊆ ℱ để tìm ra cấu hình tốt nhất 𝑐̂ (𝑓) ∈ 𝔊(𝑓) để đạt được kết quả
cao nhất trong việc phát hiện cảnh bạo lực trên video khi chỉ sử
dụng duy nhất một loại đặc trưng 𝑓 này.
• Gọi 𝑆𝑐𝑜𝑟𝑒(ϕ, 𝐶ϕ ) là độ chính xác đạt được khi đánh giá nhãn bạo lực

Thuật toán:
• Bước 1:
Huấn luyện codebook
• Bước 1.1:
Rút trích ngẫu nhiên điểm 𝑛𝑠𝑎𝑚𝑝𝑙𝑒 đặc trưng
• Bước 1.2:
Rút trích bộ mô tả
• Bước 1.3:
Phân nhóm 𝑛𝑐𝑜𝑑𝑒𝑏𝑜𝑜𝑘 cluster bằng K-means
• Bước 1.4:
Tạo codebook
• Bước 2:
Loop từng khung ảnh trong DS khung ảnh của Phân đoạn 𝑠𝑖
• Bước 2.1:
Chia không gian khung ảnh theo (𝑥 × 𝑦)
• Bước 2.1:
Xác định các điểm đặc trưng 𝔻keypoint detector
• Bước 2.1:
Rút trích các bộ mô tả cục bộ
• Bước 2.1:
Phân nhóm vào 𝑛𝑐𝑜𝑑𝑒𝑏𝑜𝑜𝑘 cluster bằng phương thức
gán mềm.
• Bước 2.1:
Spatial Pyramid Pooling cho ảnh.
End Loop
• Bước 3:
Pooling các đặc trưng trên khung ảnh  đặc trưng cho Phân
đoạn

2.2.2 Đặc trưng chuyển động












Bước
Bước
Bước
Bước
Bước
Bước

2.2:
2.3:
2.4:
2.5:
2.6:
2.7:

Bước 3:
đoạn

Theo vết Trajectory trong 𝐿 khung ảnh
Xác định vùng bao quanh điểm ảnh 𝑁 × 𝑁

Trên thực tế, nếu chúng ta không có các nguồn dữ liệu huấn luyện lớn như Google,
Facebook, hoặc ImageNet, chúng ta không thể xây dựng mô hình CNN hiệu quả. Transferlearning là một tiến trình giúp xây dựng một mạng CNN trên bộ dữ liệu mới (không lớn) bằng
cách chọn các mô hình được huấn luyện trước đó (pre-trained model trên các dữ liệu lớn) và tinh
chỉnh lại (fine-tuning) với dữ liệu huấn luyện mới của chính chúng ta. Trong Hình 2.1 là một ví
dụ về việc sử dụng đặc trưng trích xuất từ mô hình mạng nơ-ron tích chập để học khái niệm mới,
thay vì sử dụng các đặc trưng cục bộ được thiết kế thủ công thì chúng ta có thể sử dụng các đặc
trưng trích xuất từ mô hình mạng nơ-ron tích chập được tự học các tham số làm đầu vào cho quá
trình huấn luyện các bộ phân loại khái niệm.
2.3.3

12


Hình 2.1. Ví dụ sử dụng đặc trưng trích xuất từ mô hình mạng nơ-ron tích chập để làm đầu vào huấn
luyện bộ phận loại khái niệm [75]

2.3.4 Áp dụng đặc trưng được rút trích từ mô hình mạng nơ-ron tích chập cho bài toán
VSD
Việc huấn luyện một mô hình CNN riêng cho việc xác định thông tin bạo lực đòi hỏi
nguồn dữ liệu huấn luyện lớn, điều này hiện chưa khả thi với các bộ dữ liệu VSD hiện tại. Trong
khuôn khổ nghiên cứu này, chúng tôi thử nghiệm các đặc trưng được rút trích từ các mô hình học
sâu CNN để biểu diễn khái niệm bạo lực. Việc huấn luyện khái niệm vẫn được thực hiện bằng
SVM. Trong phần này, chúng tôi tiến hành đánh giá chi tiết việc sử dụng các mô hình CNN của
AlexNet, VGGNet và UvANet cho bài toán phát hiện thông tin bạo lực.
2.3.4.1 AlexNet (2012) [4]
2.3.4.2 VGGNet (2014) [79]
2.3.4.3 UvANet (2016) [55]

2.4 Dữ liệu thử nghiệm
Chúng tôi tiến hành thực nghiệm trên bộ dữ liệu MediaEval VSD 2014 với phần dữ liệu

Kết quả đánh giá thực nghiệm trên bộ dữ liệu MediaEval VSD cho thấy, với các đặc trưng
cục bộ:
• Phương pháp lấy điểm đặc trưng theo mẫu dày có kết quả tốt hơn hẳn phương thức
Harlap.
• Trong các đặc trưng dựa trên SIFT, đặc trưng SIFT mở rộng kênh màu RGB có kết
quả tốt nhất.
• Việc phân chia vùng không gian cũng giúp cải thiện kết quả khá rõ rệt. Việc chia
vùng không gian càng mịn càng giúp tăng độ chính xác
• Max pooling cho kết quả tốt hơn Avg pooing.
2.5.3 Đặc trưng chuyển động
Đặc trưng MBH không bị ảnh hưởng bởi chuyển động camera so với HoG và HoF (đã
được chứng minh trong [91]), vì vậy MBH có kết quả rất tốt cho VSD, trong khi đó thì HoG và
HoF có kết quả khá thấp (so với MBH và cả các đặc trưng cục bộ). Việc kết hợp cả 3 bộ mô tả
không giúp cải thiện hiệu năng của hệ thống.
2.5.4 Đặc trưng âm thanh
Việc sử dụng đặc trưng âm thanh cho bài toán phát hiện thông tin bạo lực không thực sự
hiệu quả về mặt độ chính xác do tính thể hiện đa dạng trong kênh âm thanh của cảnh bạo lực.
Tuy nhiên chúng ta có thể thấy kết quả của đặc trưng MFCC cũng khá tương đồng với các đặc
trưng toàn cục, kết quả MAP-AT100 cũng tương đối tốt thể hiện đặc trưng có tính phân loại cao
(nếu các cảnh bạo lực có đặc trưng rất riêng như có tiếng thét, tiếng súng, tiếng nổ), điều này sẽ
giúp cho việc kết hợp với các đặc trưng khác trở nên hiệu quả.
2.5.5 So sánh cách biểu diễn đặc trưng BoW và Fisher Vector
Bảng 2.1 Bảng so sánh cách mã hóa đặc trưng bằng Bag of Words và Fisher Vector
Feature
BoW_MAP2014 FV_MAP2014 BoW_MAP-AT100 FV_MAP-AT100
Densetrajectory - MBHHOFHOG
46.52%
50.77%
67.78%
73.23%

AlexNet_fc6.max
AlexNet_Full.max
AlexNet_Full.sum

MAP2014
47.30%
45.57%
45.20%
45.20%
35.92%
35.55%

2.5.7 Đặc trưng của mô hình VGGNet
Bảng 2.3 trình bày kết quả của cCác đặc trưng được rút trích từ mô hình VGGNet ở 3
tầng cuối, các tầng này cũng có số chiều tương tự như trong AlexNet. Phương pháp áp dụng max14


pooling và đặc trưng fc7 cho kết quả rất tốt. Kết quả của VGGNet hiện cho kết quả cao hơn
AlexNet (~3%) chứng minh các cải tiến của VGG trên mô hình của Alex đã phát huy tác dụng.
Bảng 2.3 Kết quả sử dụng đặc trưng rút trích từ mô hình VGGNet
STT
1
2
3
4
5
6
7
8
9

36.76%

2.5.8 Đặc trưng của mô hình UvANet
Kết quả các đặc trưng được rút trích từ mô hình UvANet được trình bày trong Bảng 2.4,
phương pháp sử dụng max-pooling vẫn cho kết quả tốt hơn sum-pooling. Với kết quả giữa các
cấu hình 4k,8k,12k (~4000,8000,12000 khái niệm ở tầng kết nối đầy đủ) thật sự không có nhiều
sự chênh lệch. Việc sử dụng càng nhiều khái niệm sẽ không đem lại hiệu quả cao về độ chính xác
mà chi phí huấn luyện sẽ lớn.
Bảng 2.4 Kết quả sử dụng đặc trưng rút trích từ mô hình UvANet
STT
1
2
3
4
5
6
7
8

Đặc trưng
UvANet_bottomup_12k_Full.max
UvANet_topdown_4k_Full.max
UvANet_bottomup_12k_Full.sum
UvANet_bottomup_8k_Full.max
UvANet_bottomup_4k_Full.max
UvANet_bottomup_8k_Full.sum
UvANet_topdown_4k_Full.sum
UvANet_bottomup_4k_Full.sum

MAP2014

thông qua quá trình xây dựng bộ dữ liệu, chúng tôi xác định các thuộc tính có liên quan đến các
cảnh bạo lực và xây dựng bộ dữ liệu huấn luyện cho các thuộc tính này. Trên cơ sở đó, chúng tôi
thiết kế một đặc trưng cấp cao dựa trên các thuộc tính liên quan để biểu diễn cảnh bạo lực. Đặc
trưng cấp cao dựa trên thuộc tính không những giúp xây dựng bộ phân loại đánh giá mức độ bạo
lực mà còn cung cấp thêm thông tin mô tả giàu ngữ nghĩa hơn. Kết quả của nội dung nghiên cứu
này là một bài báo hội nghị SoICT 2013 [CT4] và bài tạp chí MTA 2016 [CT1].

3.1 Giới thiệu
Do đặc trưng của các khái niệm, sự kiện đều mang tính ngữ nghĩa, đặc biệt là sự kiện.
Một khái niệm, sự kiện có thể có nhiều thể hiện và mang tính ngữ nghĩa cao, đôi khi còn phụ
thuộc vào suy nghĩ chủ quan của con người (ví dụ như khái niệm bạo lực, người thì nói cảnh này
là bạo lực, nhưng có thể người khác lại nói là không bạo lực). Chúng tôi tập trung nghiên cứu các
vấn đề chính sau:
• Biểu diễn cảnh bạo lực bằng các thuộc tính liên quan: để làm giảm khoảng cách về
mặt ngữ nghĩa, chúng tôi sử dụng các thuộc tính trung gian được lựa chọn trước để
biểu diễn cảnh bạo lực (xem Hình 3.1)
• Mô tả cảnh bạo lực: bên cạnh việc sử dụng các thuộc tính để quyết định cảnh bạo
lực, chúng ta có thể sử dụng các thuộc tính để mô tả thông tin cho một cảnh. Việc
cung cấp thêm thông tin mô tả giúp người dùng cuối có nhiều thông tin hơn đơn
thuần chỉ là quyết định có/không có bạo lực.
Cảnh bạo lực

Xác định
Khái niệm
Khoảng
cách ngữ
nghĩa thấp

ũ khí lạnh



Đặc trưng biểu diễn trên máy tính

Hình 3.1 Giảm khoảng cách ngữ nghĩa bằng cách sử dụng các khái niệm liên quan (thuộc
tính) khi biểu diễn VSD

Thuật ngữ đặc trưng cấp cao được dùng chung cho các thuật ngữ tiếng Anh sau với nghĩa tương đương:
attribute (thuộc tính), mid-level feature.
4

16


3.2 Đặc trưng cấp cao sử dụng thuộc tính liên quan đến bạo lực
3.2.1 Giới thiệu các thuộc tính
Dựa trên định nghĩa của khái niệm bạo lực theo WHO, trong quá trình xây dựng bộ dữ
liệu, chúng tôi lựa chọn các đối tượng, cảnh, hành động và sự kiện có liên quan đến khái niệm
bạo lực và sử dụng các thông tin này như là các thuộc tính để biểu diễn cảnh bạo lực.
3.2.2 Biểu diễn cảnh bạo lực bằng thuộc tính
Các thuộc tính có khái niệm ngữ nghĩa thấp hơn khái niệm bạo lực nên có thể sử dụng
các đặc trưng cục bộ hoặc tự học để biểu diễn dễ dàng.
Giải pháp chúng tôi đề xuất có tính mở, cho phép có thể thay đổi, bổ sung hay định nghĩa
riêng danh sách các thuộc tính trong tập A phù hợp bài toán. Trong phạm vi luận án, chúng tôi
chọn các thuộc tính sau đây cho tập A gồm 13 thuộc tính trên cơ sở kế thừa và mở rộng tập gồm
7 thuộc tính ban đầu trong bộ dữ liệu do chúng tôi đề xuất thông qua quá trình thực hiện gán nhãn
dữ liệu.
Vấn đề 3.1: Biểu diễn cảnh bạo lực bằng đặc trưng dựa trên thuộc tính
Đầu vào:
• Cho V là tập hợp gồm n video: 𝑉 = {𝑣1 , 𝑣2 , . . , 𝑣𝑛 } với 𝑣𝑖 ∈ 𝑉𝑖𝑑𝑒𝑜,
1≤ 𝑖 ≤ 𝑛

, 𝑒𝑛𝑑𝑖,𝑔𝑛
, 𝑔𝑙𝑎𝑏𝑒𝑙𝑖,𝑔𝑛
𝑖
𝑖
𝑖
𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑛, 1 ≤ 𝑘 ≤ 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠
𝑎
Nhãn 𝑔𝑙𝑎𝑏𝑒𝑙𝑖,𝑗𝑘 của phân đoạn j trong video 𝑣𝑖 có giá trị nhị phân
(1 hoặc 0), tương ứng với việc phân đoạn này có được xem là
có thông tin thuộc tính 𝑎𝑘 hay không.

o

Đầu ra:
• Với mỗi video 𝑣𝑖 ∈ 𝑉, kết quả nhận được là tập các phân đoạn được đánh
giá xác suất (hay còn gọi là mức độ) bạo lực:
𝑖
𝑖
𝑟𝑒𝑠𝑢𝑙𝑡𝑖 = {(𝑠1𝑖 , 𝑠𝑐𝑜𝑟𝑒1𝑖 ), (𝑠2𝑖 , 𝑠𝑐𝑜𝑟𝑒2𝑖 ), … , (𝑠𝑛𝑆ℎ𝑜𝑡
, 𝑠𝑐𝑜𝑟𝑒𝑛𝑆ℎ𝑜𝑡
)}, với 1 ≤ 𝑖 ≤ 𝑛, 𝑠𝑐𝑜𝑟𝑒𝑗𝑖 =
𝑖
[0,1], với 𝑠𝑐𝑜𝑟𝑒𝑗 càng gần 1 thì càng bạo lực.
• Bên cạnh kết quả đánh giá bạo lực, với mỗi video 𝑣𝑖 ∈ 𝑉, kết quả còn
có là tập 𝑟𝑒𝑠𝑢𝑙𝑡𝑖𝐴 mô tả việc gán nhãn đánh giá các thuộc tính liên quan
bạo lực của từng phân đoạn trong video 𝑣𝑖 .
𝑎

𝑖,𝑎




Bước 4: Sử dụng các bộ phân loại 𝐶𝑎𝑘 để kiểm tra cho các phân đoạn của
tập V𝑇𝑟𝑎𝑖𝑛2 và V𝑇𝑒𝑠𝑡
𝑎𝑘
Bước 4: Sử dụng điểm đánh giá 𝑠𝑠𝑐𝑜𝑟𝑒
kết quả của bước 3 để tạo thành
vector biểu diễn cho từng phân đoạn (mỗi vector của một phân đoạn sẽ
𝑎𝑘
chứa các 𝑠𝑠𝑐𝑜𝑟𝑒
của thuộc tính). Như vậy mỗi phân đoạn được biểu diễn
bằng một vector có 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠, đại diện cho 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 của các thuộc
tính liên quan. Vector đặc trưng của một phân đoạn có dạng:
𝑓(𝑠ℎ𝑜𝑡𝑡 ) = (𝐶𝑎1 (𝑠ℎ𝑜𝑡𝑡 ), 𝐶𝑎2 (𝑠ℎ𝑜𝑡𝑡 ), … , 𝐶𝑎𝑎𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 (𝑠ℎ𝑜𝑡𝑡 ))
Bước 5: Sử dụng dữ liệu đã được gán nhãn G (trên tập V𝑇𝑟𝑎𝑖𝑛2 ) của khái
niệm bạo lực để huấn luyện bộ phân loại cho khái niệm bạo lực.
Bước 6: Kiểm tra bộ phân loại này trên tập V𝑇𝑒𝑠𝑡 .

3.2.3 Thử nghiệm và đánh giá kết quả
3.2.3.1 Dữ liệu thử nghiệm
Chúng tôi sử dụng bộ dữ liệu thử nghiệm của MediaEval 2014 với việc tổ chức các tập
huấn luyện và kiểm tra như sau:
• Tập V𝑇𝑟𝑎𝑖𝑛1 : dùng để huấn luyện các thuộc tính
• Tập V𝑇𝑟𝑎𝑖𝑛2 : dùng để huấn luyện khái niệm bạo
• Tập V𝑇𝑒𝑠𝑡 : dùng để kiểm tra đánh giá kết quả
3.2.3.2 Đánh giá kết quả
Bảng 3.1 Kết quả sử dụng thuộc tính cho bài toán VSD (độ đo MAP2014)
Features
RGBSIFT
AlexNET

đến cảnh và việc ra quyết định có thể được thực hiện chủ quan bởi con người.

18


Hình 3.2. Hình minh họa kết quả Top các cảnh bạo lực mà hệ thống trả về kèm thông tin
các thuộc tính liên quan đến bạo lực. Phía trên các khung ảnh là giá trị thể hiện điểm
đánh giá các thuộc tính và bên phải các khung ảnh là biểu tượng các thuộc tính có tồn tại
trong phân đoạn đang đánh giá.

3.5 Kết luận
Trong chương này chúng tôi đề xuất cách tiếp cận về mặt ngữ nghĩa, sử dụng các thuộc
tính để biểu diễn cho khái niệm bạo lực. Việc sử dụng các thuộc tính giúp tăng tính ngữ nghĩa
của khái niệm thông qua các thuộc tính được xây dựng trong vector đặc trưng biểu diễn. Kết quả
các nghiên cứu trong chương này được công bố trong hội nghị SoICT2013 [CT4].

Chương 4. KẾT HỢP ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUYÊN
TÍNH TOÁN CHO VSD
Kết hợp đa đặc trưng là hướng tiếp cận phổ biến hiện nay, nhưng lựa chọn đặc trưng nào
để kết hợp mà không ảnh hưởng đến hiệu năng hệ thống (tăng độ chính xác, tiết kiệm chi phí tính
toán) cũng là vấn đề mở cần được giải đáp cho bài toán phát hiện thông tin bạo lực. Chúng tôi
đánh giá các cách kết hợp sớm (early fusion) và kết hợp trễ (late fusion) các đặc trưng, đồng thời
lựa chọn hướng tiếp cận loại bỏ từng đặc trưng khi kết hợp (leave one feature out) để đánh giá
mức độ đóng góp của từng đặc trưng khi kết hợp, từ đó lựa chọn lại các đặc trưng thực sự đóng
góp hiệu quả. Việc kết hợp các đặc trưng đòi hỏi tài nguyên tính toán lớn, để triển khai ứng dụng
trong thực tế, chúng ta cần cân nhắc lựa chọn tối ưu các đặc trưng phù hợp với điều kiện tính
toán thực tế. Trong chương này chúng tôi cũng tiến hành đánh giá và đề xuất các cấu hình (bộ
đặc trưng) tùy vào các điều kiện tài nguyên tính toán khác nhau. Kết quả của các nghiên cứu
trong chương này được trình bày tại hội nghị IC3INA 2016[CT2].



Cho tập Rank list 𝑅𝐿 gồm 𝑚 Rank list của 𝑚 đặc trưng
𝑅𝐿 = {𝑅𝐿1 , 𝑅𝐿2 , . . , 𝑅𝐿𝑚 }, với 𝑚 là số đặc trưng cần Late fusion
Mỗi Rank list 𝑅𝐿𝑖 là một tập hợp gồm 𝑛𝑆ℎ𝑜𝑡 bộ mô tả thông tin mã số
của video phân đoạn (𝑠ℎ𝑜𝑡𝐼𝐷) và giá trị đánh giá mức độ bạo lực của
phân đoạn video này (𝑠𝑐𝑜𝑟𝑒𝑠ℎ𝑜𝑡𝐼𝐷 )

𝑅𝐿𝑖 = {(𝑠ℎ𝑜𝑡𝐼𝐷1 , 𝑠𝑐𝑜𝑟𝑒𝑖,1 ), (𝑠ℎ𝑜𝑡𝐼𝐷2 , 𝑠𝑐𝑜𝑟𝑒𝑖,2 ), . . (𝑠ℎ𝑜𝑡𝐼𝐷𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑖,𝑛𝑆ℎ𝑜𝑡 )}, ∀ 𝑖 = 1,2, . . 𝑚
Đầu ra:



Kết quả late fusion là một Rank list 𝑅𝐿𝐿𝑎𝑡𝑒𝐹𝑢𝑠𝑖𝑜𝑛 dựa trên trung bình
cộng có trọng số giá trị score của tất cả các Rank list trong tập
𝑅𝐿.
Kết quả nhận được là:

)}
𝑅𝐿𝐿𝑎𝑡𝑒𝐹𝑢𝑠𝑖𝑜𝑛 = {(𝑠ℎ𝑜𝑡𝐼𝐷1, 𝑠𝑐𝑜𝑟𝑒1∗ ), (𝑠ℎ𝑜𝑡𝐼𝐷2 , 𝑠𝑐𝑜𝑟𝑒2∗ ), . . (𝑠ℎ𝑜𝑡𝐼𝐷𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑛𝑆ℎ𝑜𝑡
𝑓𝑢𝑠𝑖𝑜𝑛

với 𝑠𝑐𝑜𝑟𝑒𝑗

=

𝑚
𝑖=1 𝑤𝑖 𝑠𝑐𝑜𝑟𝑒𝑖,𝑗 , ∀

𝑗 = 1,2, . . , 𝑛𝑆ℎ𝑜𝑡 𝑣à 0 ≤ 𝑤𝑖 ≤ 1.


31.18%

2

Kết hợp tất cả đặc trưng cục bộ

48

46.90%

RGBSIFT

45.06%

3

Kết hợp tất cả cấu hình đặc trưng âm thanh

2

37.93%

MFCC_FV

34.09%

4

Kết hợp tất cả đặc trưng chuyển động


50.17%

7

Kết hợp cấu hình tốt nhất từng loại

14

53.50%

--

--

8

Kết hợp tất cả cấu hình của tất cả đặc trưng

106

49.57%

--

--

Bảng 4.1 trình bày kết quả kết hợp các đặc trưng bằng phương thức kết hợp trễ. Kết quả
cho thấy việc kết hợp các cấu hình đặc trưng trong cùng một loại giúp tăng độ chính xác của hệ
thống. Tuy nhiên, khi kết hợp tất cả các cấu hình đặc trưng từ nhiều loại đặc trưng khác nhau,
chúng ta có thể thấy kết quả không tốt bằng việc lựa chọn kết hợp các cấu hình tốt nhất của từng


Sau đây là thuật toán xác định đóng góp của từng đặc trưng.
Thuật toán 4.1: Lựa chọn đặc trưng đóng góp cho việc kết hợp (Leave one
feature out)
Đầu vào:
• Danh sách các đặc trưng ℱ = {𝑓1 , 𝑓2 , … , 𝑓𝑛 }
Đầu ra:


Danh sách các đặc trưng có đóng góp cho việc kết hợp ϕ ⊆ ℱ
với 𝑓𝑖 ∈ ϕ, 𝑔(𝑓𝑖 ) < 0.
Thuật toán:


Bước 1:

Kết hợp tất cả đặc trưng, tính 𝑀0 theo (4.1)



Bước 2:

Loop qua từng đặc trưng 𝑓𝑖 ∈ ℱ
Tính 𝑀𝑖 theo công thức (4.2)
If (𝑀𝑖 < 𝑀0) Then
Đưa 𝑓𝑖 vào Danh sách chọn ϕ
End If
End Loop



Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status