LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này được thực hiện bằng sự đam mê và công sức của tôi
dưới sự hướng dẫn tận tình của TS.Ngô Đức Thành. Luận văn được thực hiện tại
trường Đại học Công Nghệ Thông Tin, TP.Hồ Chí Minh.
Những kết quả thống kê trong luận văn này là do quá trình thực hiện từ hệ thống
của tôi trên các bộ dữ liệu đã được liệt kê.
Những nội dung cơ sở và kế thừa trong quá trình viết luận văn này tôi đã liệt kê
trong mục tài liệu tham khảo một cách trân trọng.
Tp. Hồ Chí Minh, ngày 15 tháng 01 năm 2016
Học viên thực hiện
Nguyễn Phạm Phú Quý
1
LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc đến Tiến sĩ Ngô Đức Thành, người đã tin tưởng, tận
tình hướng dẫn và giúp tôi hoàn thành luận văn này cùng với các thầy cô Trường
Đại học Công Nghệ Thông Tin ĐHQG TP.HCM những người đã tận tình giảng dạy
và cung cấp cho tôi các kiến thức nền tảng của việc nghiên cứu.
Tôi xin cảm ơn các thành viên làm việc tại phòng thí nghiệm Truyền Thông Đa
Phương Tiện (MMLAB) Trường Đại học Công Nghệ Thông Tin đã đóng góp nhiều
ý kiến quý báu trong khi tôi thực hiện luận văn này.
Ngoài ra tôi cũng xin cảm ơn tác giả đã cung cấp dữ liệu cho tôi để thực hiện các
thực nghiệm của mình.
Cuối cùng là lời cảm ơn cao cả dành cho cha mẹ, những người đã hết lòng nuôi
dưỡng và luôn động viên tôi trong quá trình nghiên cứu.
2
3.3.1. Sự nổi bật của Collective Manifolds trong các đám đông ....................25
3.3.2. Sự nhất quán hành vi trong vùng lân cận .............................................26
3.3.3. Sự nhất quán toàn cục thông qua các đường (path) ..............................26
3.3.4. Tính đồng nhất tại l-Path Scale .............................................................28
3.3.5. Qui tắc hóa tính đồng nhất trên tất cả phạm vi (All-Scale) ..................30
3
3.4. Hạn chế của phương pháp State-of-The-Art ...............................................32
3.5. Tổng kết .......................................................................................................33
CHƯƠNG 4. PHƯƠNG PHÁP ĐỀ XUẤT CẢI TIẾN ĐỘ ĐO TÍNH ĐỒNG
NHẤT DỰA TRÊN VIỆC LÀM TRƠN TRAJECTORY........................................34
4.1. Cơ sở lý thuyết .............................................................................................34
4.1.1. Trajectory ..............................................................................................34
4.1.2. Làm trơn (Smooth) Trajectory ..............................................................34
4.1.3. Moving Average (MA) Filter ...............................................................35
4.1.4. Savitzky-Golay (SGL) Filter ................................................................36
4.2. Phương pháp đề xuất ...................................................................................37
4.3. Tổng kết .......................................................................................................40
CHƯƠNG 5.
THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................................41
5.1. Tiêu chuẩn đánh giá .....................................................................................42
5.1.1. Hệ số tương quang (Correlation Coefficient) .......................................42
5.1.2. Phân lớp nhị phân (Binary Classification) ............................................42
5.1.3. Đồ thị ROC (Receiver Operating Characteristic) .................................44
5.2. Bộ dữ liệu ....................................................................................................45
5.3. Phân tích giá trị Max, Min, Aveg của L ......................................................46
trưng chuyển động của đối tượng trong video
Feature Tracker)
[8].
Một phương pháp làm trơn dữ liệu bằng cách
Bộ lọc Moving Average
(Moving Average Filter)
thay thế mỗi điểm bằng giá trị trung bình của
các điểm dữ liệu lân cận.
Một phương pháp làm trơn dạng đa thức
Bộ lọc Savitzky-Golay
(Savitzky-Golay Filter)
(Polynomial Smoothing) hay bình phương
tối thiểu (Least-squares Smoothing), thường
được sử dụng với dữ liệu tần số hoặc với dữ
liệu quang phổ [41].
Đường tương đồng
(Path Similarity)
l-Path Similarity
Đường kết nối dùng cho việc ước lượng sự
tương đồng giữa hai cá nhân không phải là
44
Bảng 5.3
Các số liệu của đồ thị 5.1
47
Bảng 5.4
Bảng 5.5
Bảng 5.6
Các kết quả so sánh của phương pháp đề xuất với từng
phương pháp khác.
Kết quả phân loại của phương pháp đề xuất với phương
pháp State-of-The-Art.
Các kết quả so sánh giữa việc chọn T động và T cố định.
6
49
50
50
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Ý nghĩa
Minh họa cho sự đồng nhất đa nếp gấp.
23
Hình 3.4
Hình 3.5
Hình 3.6
Hình 3.7
Hỉnh 4.1
Minh họa cho các thách thức của việc đo lường tính
đồng nhất.
Minh họa cho sự nhất quán hành vi của các cá nhân
27
trên cùng Collective Manifold.
Minh họa cho việc kết nối các đường tương đồng
giữa hai cá nhân.
Minh họa cho trường hợp sai sót trong cách đo lường
tính đồng nhất của phương pháp State-of-The-Art
Minh họa cho việc làm trơn Trajectory với 2
Trajectory mẫu.
Hình 4.2
24
giá trị của T
7
47
48
MỞ ĐẦU
Phân tích hành vi đám đông gần đây đã trở thành một chủ đề nóng bỏng trong lĩnh
vực thị giác máy tính vì nhu cầu lớn về giám sát đám đông. Nhiều nghiên cứu chỉ ra
rằng các đám đông khác nhau chia sẻ chung một tập các đặc tính phổ biến bởi vì các
kiểu hành vi đám đông khác nhau đều có một vài nguyên tắc chung làm nền tảng.
Việc đo lường một cách định lượng các đặc tính đó và so sánh chúng qua lại giữa
các hệ thống đám đông khác nhau đóng một vai trò quan trọng cho việc hiểu biết
các nguyên tắc chung nền tảng và trong các ứng dụng giám sát.
Một trong số những hướng nghiên cứu phổ biến của phân tích hành vi đám đông là
các nghiên cứu về chuyển động đồng nhất của đám đông. Trong một đám đông, các
chuyển động đồng nhất thể hiện cho các hành vi của các cá nhân thành phần. Một ví
dụ điển hình là các đàn cá sẽ chuyển động cuộn tròn như một chất lỏng được khuấy
mãnh liệt để chống lại sự tấn công của kẻ săn mồi. Vì vậy chuyển động đồng nhất
có thể được xem như là một thể hiện của hành vi đồng nhất. Nhiều nghiên cứu đã
được tiến hành để khám phá các nguyên tắc nền tảng này. Các cá nhân trong một
đám đông sẽ có xu hướng chuyển động đồng nhất nếu chúng điều phối hành vi của
mình với các cá nhân lân cận mà không có sự tác động bên ngoài. Việc dò tìm các
chuyển động đồng nhất trong đám đông thì thách thức vì sự đa dạng của các chuyển
động, chất lượng video cũng như là sự tồn tại của dữ liệu theo vết nhiễu (Tracking
Noise).
Hầu hết các nghiên cứu hiện tại không thể so sánh hành vi đám đông qua các hoàn
cảnh khác nhau vì chúng thiếu những bộ mô tả tổng quát dùng cho việc đặc trưng
Nội dung chương được chia thành 4 phần:
Giới thiệu chung: Trình bày về tính cấp thiếp, mô tả bài toán và các thách
thức.
Mục tiêu luận văn: Trình bày các mục tiêu của việc nghiên cứu.
Đóng góp của luận văn: Giới thiệu về các đóng góp khoa học của luận
văn.
Bố cục luận văn: Giới thiệu bố cục tổng thể của luận văn.
1.1. Giới thiệu chung
1.1.1.
Tính cấp thiết
Với sự phát triển nhanh chóng của khoa học công nghệ, các hệ thống camera giám
sát ngày càng phổ biến với chi phí triển khai thấp. Các hệ thống camera này thường
được sử dụng để theo dõi và đánh giá tình hình trật tự ở các địa điểm công cộng
(công viên, trường học, quảng trường, nhà ga, sân bay…), các cơ quan trọng yếu
(tòa nhà/trụ sở quốc hội, trụ sở tiếp dân), cơ quan an ninh. Một trong những đối
tượng quan trọng cần giám sát thông qua camera này là đám đông (hoặc nhóm tụ
tập đông người). Phát hiện và phân tích hành vi đám đông (bao gồm cả hành vi
thông thường và bất thường) là cơ sở quan trọng để đánh giá tình hình an ninh, trật
tự trong phạm vi giám sát.
Việc triển khai và ứng dụng các hệ thống camera giám sát để theo dõi và đánh giá
hành vi đám đông ngày càng phổ biến nhưng cho đến nay việc phân tích các hành vi
trên chủ yếu vẫn dựa vào sức người, mức độ tự động hóa thấp. Khi số lượng camera
lớn (vài chục đến hàng trăm camera) có thể dẫn đến tình trạng quá tải, sai sót trong
quá trình giám sát. Do đó, rất cần thiết xây dựng một hệ thống tự động phát hiện và
10
Tính đồng nhất: Thể hiện mức độ hoạt động theo tập thể của các thành
viên trong đám đông.
Tính bền vững: Đặc trưng cho sự tồn tại của đám đông theo thời gian.
Tính đồng bộ: Mô tả sự phân bố đồng điều theo không gian giữa các thành
viên trong đám đông.
Tính đụng độ: Phản ánh sự tương tác qua lại của các thành viên từ các
nhóm khác nhau.
Các thuộc tính này phụ thuộc vào nhiều yếu tố như môi trường, văn hóa, ngữ cảnh
ứng dụng và cấu trúc nội tại nên có độ phúc tạp cao (Hình 1.2). Ví dụ như một
nhóm hình thành từ các thành viên có mối quan hệ quen biết với nhau như bạn bè,
gia đình thì tính bền vững sẽ cao hơn một nhóm chỉ hình thành tạm thời hay một
nhóm hình thành trong ngữ cảnh là một cuộc diễu hành thì tính đồng bộ giữa các
thành viên sẽ cao hơn của các nhóm bình thường khác. Các thuộc tính này cũng
đóng vai trò quan trọng trong việc phân tích và hiểu hoàn cảnh đám đông trong các
hệ thống giám sát.
Hình 1.2: Minh họa sự phức tạp của hành vi đám đông. Hình ảnh được sắp xếp từ trái qua
phải theo thứ tự các thuộc tính nhóm: tính đồng nhất, tính bền vững, tính đồng bộ, tính
đụng độ. Hàng trên đại diện cho các thuộc tính ở mức độ thấp, hàng duới đại diện cho các
thuộc tính ở mức độ cao. Các đặc tính này luôn tồn tại ở các cấp độ khác nhau và phục
thuộc vào nhiều yếu tố như môi trường, văn hóa, ngữ cảnh. Nguồn: Hình ảnh được trích
dẫn từ [25].
Đối với một số loại dữ liệu như video giám sát, chất lượng và độ phân giải kém.
12
1.1.3.2.
tính đồng nhất trong chuyển động của phương pháp State-of-The-Art.
13
Chương 4: Trình bày về các cơ sở lý thuyết và phương pháp đề xuất để cải
thiện phương pháp State-of-The-Art.
Chương 5: Trình bày các tiêu chuẩn đánh giá, bộ dữ liệu và thực nghiệm.
Chương 6: Trình bày các kết luận và kiến nghị.
14
CHƯƠNG 2.
TÌNH HÌNH NGHIÊN CỨU
Mục tiêu của Chương 2 nhằm cho người đọc cái nhìn tổng quan về tình hình nghiên
cứu hành vi đồng nhất và phân tích chuyển động đồng nhất trong đám đông.
Nội dung chương được trình bày gồm 2 phần:
Tình hình nghiên cứu về các hành vi đồng nhất.
Phân tích chuyển động đồng nhất trong thị giác máy tính.
2.1. Tình hình nghiên cứu về các hành vi đồng nhất
Những chuyển động đồng nhất nổi bật của các sinh vật từ lâu đã thu hút sự chú ý
của các nhà khoa học từ các lĩnh vực khoa học khác nhau. Hiểu biết về các hành vi
đồng nhất của đám đông là một vấn đề nền tảng trong khoa học xã hội. Nó đã chỉ ra
rằng các cá nhân ở trong đám đông sẽ có xu hướng đánh mất những tính cách của
mình. Thay vì hành xử một cách độc lập thì họ có xu hướng làm theo những hành vi
của người khác và di chuyển theo hướng tương tự như những người lân cận của họ
[11], [17]. Một số hành vi đồng nhất của những đám đông như nhóm người đã được
như quản lý các đại dịch châu chấu. Sự phân tích chi tiết định lượng của các chuyển
động đồng nhất trở nên thiết yếu để hiểu được khi nào, như thế nào và ở đâu chúng
xảy ra và làm sao để cải thiện sự kiểm soát của các hệ thống đám đông. Buhl et al.
[23] đã ghi hình những chuyển động châu chấu, nghiên cứu thực nghiệm các pha
dịch chuyển và đánh giá SDP.
Trong lĩnh vực khoa học mạng và lý thuyết điều khiển (Network Science and
Control Theory), khối của các đơn vị tương tác (con người, robot, agent, và các hệ
thống động) được kết nối vào mạng lưới thay đổi động. Sau đó, các cấu trúc cộng
đồng (Community Structure) với chia sẻ cùng hành vi đồng nhất được phát hiện
[34]. Các hoạt động tiến hóa mạng lưới và cộng đồng tiếp tục được phân tích [18].
Trong khi đó, các thuật toán từ lý thuyết điều khiển đã được đề xuất để kiểm soát
các hệ thống được phân phối phức tạp này trong đó các đơn vị này có thể được
đồng bộ hóa trong sự di chuyển đồng nhất bất chấp sự vắng mặt của sự điều phối
trung tâm [48].
Tuy nhiên với một lượng lớn tài liệu về những hành vi đồng nhất đã được cho thì
các nghiên cứu về các thước đo định lượng của tính đồng nhất (Collectiveness) rất
16
hạn chế. Hầu hết các công trình hiện [58] chỉ đơn giản là đo tính đồng nhất như vận
tốc trung bình của các particle trong một hệ thống đám đông, và giả định rằng độ
lớn của vận tốc trung bình của một hệ thống đám đông hỗn loạn là gần bằng không.
Petitjean et al. [30] đã tính toán nó như là trung bình của cos( 𝜙𝑖 ) điều kiện 𝜙𝑖 là
hướng chuyển động của mỗi cá nhân i. Những đo lường như vậy không thể đối phó
với những chuyển động đồng nhất với các cấu trúc Manifold (Tạm dịch: Đa nếp
gấp) như trong Hình 2.1 hoặc kết hợp của các mẫu vừa đồng nhất vừa hỗn tạp.
Hình 2.1: Minh họa cho những chuyển động đồng nhất của đàn cá, đàn cừu, đàn chim và
đám đông người chạy bộ trên cấu trúc đa nếp gấp (Manifold).
Dense Trajectories) cho phân đoạn của các đối tượng chuyển động trong video. Các
phương pháp dò tìm chuyển động liền mạch này trích xuất và gom cụm các mục
tiêu chuyển động đồng nhất từ các điểm di chuyển ngẫu nhiên. Một số phương pháp
đã được đề xuất để mô hình hóa các biến đổi không gian-thời gian cục bộ cho việc
dò tìm tính bất thường với kết cấu động [1], [59], HMM [28], sự phân bổ của năng
lượng hướng không gian–thời gian (Distributions of Spatio-temporal Oriented
Energy) [37], những bất biến hỗn loạn (Chaotic Invariants) [53], và các bộ mô tả
chuyển động cục bộ (Local Motion Descriptors) [61]. Những phương pháp này là
cảnh cụ thể và những đặc trưng hoặc mô tả của chúng không thể được sử dụng để so
sánh các video đám đông được bắt từ những cảnh khác nhau.
Các cá nhân trong các nhóm xã hội có cùng đích đến và mối quan hệ gần gũi hơn.
Họ có nhiều khả năng để hình thành những hành vi tập thể hơn. Để phân tích các
tương tác và ảnh hưởng xã hội giữa những người đi bộ, các mô hình lực lượng xã
hội, lần đầu tiên được đề xuất bởi Helbing et al. [12] cho sự mô phỏng đám đông,
18
đã được giới thiệu đến cộng đồng thị giác máy tính gần đây và đã được áp dụng cho
việc theo vết nhiều mục tiêu (Multi-target Tracking) [42] và dò tìm tính bất thường
(Abnormality Detection) [45]. Ge et al. [63] đã đề xuất một phương pháp gom cụm
phân cấp để dò tìm nhóm và Chang et al. [33] đề xuất một chiến lược ngẫu nhiên để
nhẹ nhàng gán các cá nhân thành các nhóm. Moussaid et al. [35] đã biến đổi các mô
hình lực lượng xã hội để giải thích cho sự ảnh hưởng của các nhóm xã hội. Lan et
al. [57] đã phân tích các hành vi cá nhân bằng cách xét bối cảnh của các nhóm xã
hội với các mô hình phân cấp. Gần đây Kratz et al. [29] đã đề xuất cách hiệu quả để
đo lường sự khác biệt giữa chuyển động thực tế và chuyển động ý định của người đi
bộ trong đám đông để theo dõi và dò tìm tính bất thường.
Trong đồ họa máy tính, mô phỏng các hành vi đồng nhất của các đám đông ảo đã
thu hút nhiều sự chú ý do tính ứng dụng rộng rãi của nó đến giải trí kỹ thuật số, đào
tạo khẩn cấp, và quy hoạch đô thị. Một cuộc khảo sát gần đây có thể được tìm thấy
3.1. Khái niệm cơ sở
Video:
Một đoạn video là một tập hợp gồm nhiều khung hình (frame) đặt liên tiếp nhau để
tạo nên sự chuyển động. Một khung hình có thể xem như là một ảnh tĩnh. Có nhiều
chuẩn video khác nhau, mỗi chuẩn có số khung hình khác nhau. Ví dụ: Tiêu chuẩn
PAL (Châu Âu, Châu Á, Úc…) và SECAM (Pháp, Nga…) là 25 khung
hình/giây,trong khi tiêu chuẩn NTSC (USA, Canada, Nhật Bản…) là 29,97 khung
hình. Tỷ lệ khung hình tối thiểu để tạo nên ảo giác một hình ảnh chuyển động là
khoảng mười sáu khung hình mỗi giây. Ngoài ra, việc nhận dạng và phân tích hành
vi của đối tượng trên một video không chỉ đơn thuần là xét từng khung hình riêng
biệt mà nó còn xét trên khía cạnh mối liên hệ của nhiều khung hình đặt liên tiếp
nhau theo thời gian.
Camera giám sát:
Camera giám sát là các loại máy quay video được sử dụng cho mục đích quan sát
một khu vực. Chúng thường được kết nối với một thiết bị thu (âm thanh, hình ảnh)
hoặc mạng IP, và có thể được theo dõi bởi nhân viên an ninh hoặc viên chức thi
hành luật của nhà nước.
20
Video giám sát: Các video thu được từ camera giám sát.
Đặc trưng chuyển động: Những thông tin về vị trí (x, y) của các cá nhân.
Trích xuất đặc trưng chuyển động:
Là việc trích xuất những thông tin chuyển động của các cá nhân qua nhiều khung
hình liên tiếp. Trong luận văn này học viên đã sử dụng KLT-Tracker từ [8] để trích
xuất các đặc trưng chuyển động. Tập các đặc trưng chuyển động đã được trích xuất
có thể được biểu diễn như sau:
X = {𝑥𝑦𝑖 }𝑛𝑖=1
động khác hướng với đám đông.
Collective Manifold (Tạm dịch: Đồng nhất đa nếp gấp):
Là chuyển động đồng nhất dựa trên Spatially Coherent Structures (Tam dịch: Các
cấu trúc liên kết không gian) như chuyển động vòng cung trong đám đông người,
đàn cá và đàn vi khuẩn (Hình 3.3).
22
Hình 3.3: Minh họa cho sự đồng nhất đa nếp gấp. Hình được sắp xếp theo thứ tự từ trái qua
phải là những chuyển động đồng nhất của người, đàn cá, đàn vi khuẩn và cấu trúc liên kết
không gian. Nguồn: Hình được trích dẫn từ [5].
3.2. Thách thức của bài toán đo lường tính đồng nhất
Việc đo lường tính đồng nhất vô cùng thách thức do sự đa dạng của đối tượng
chuyển động, loại chuyển động, che khuất, chất lượng của video giám sát cũng như
sự tồn tại của dữ liệu theo vết nhiễu (Hình 3.4).
23
Hình 3.4: Minh họa cho các trường hợp thách thức của việc đo lường tính đồng nhất với
các dạng chuyên động như chuyển động tự do trong các video hàng đầu, dạng vòng cung
trong video người chạy ma-ra-tông ở hàng 2, dạng sóng trong video người chạy bộ cùng
hướng nhìn ở hai video sau, chuyển động đồng nhất và chất lượng video thấp trong ba
video cuối cùng.
Hầu hết các công trình hiện tại đều chủ yếu tập trung vào mô hình và học hành vi
người đi bộ [7], [66] hay dò tìm các chuyển động đồng nhất từ các cụm đám đông
một khoảng cách xa có thể có một số bất định, như là sự tương quan vận tốc thấp
giữa những cá nhân màu đỏ và màu xanh đã được minh họa như trong Hình 3.5.
Tính đồng nhất đám đông đo lường sự nhất quán hành vi toàn diện của Collective
Manifold. Trong khi đó, tính đồng nhất cá nhân đo lường sự nhất quán hành vi của
mỗi cá nhân với tất cả các cá nhân khác. Nhưng do sự bất định hành vi giữa những
cá nhân có khoảng cách xa làm cản trở việc ước lượng tính đồng nhất đám đông nên
chúng ta không thể đo lường trực tiếp tính đồng nhất cá nhân. Để xử lý vấn đề này,
chúng ta nghiên cứu sự nhất quán hành vi theo các đường (Path) trên Collective
Manifold. Vì vậy việc đo lường tính đồng nhất có thể được thực hiện theo một cách
từ dưới lên (Bottom-up): Từ sự nhất quán hành vi trong vùng lân cận của các cá
nhân tới sự nhất quán hành vi giữa các cặp cá nhân theo các đường trong đám đông,
từ tính đồng nhất cá nhân tới tính đồng nhất đám đông.
25