Nghiên cứu một số phương pháp phát hiện chuyển động trong video và ứng dụng - Pdf 25

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ


TRẦN THỊ HOÀN NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÁT HIỆN
CHUYỂN ĐỘNG TRONG VIDEO VÀ ỨNG DỤNG
LUẬN VĂN THẠC SĨ

Chương 2-PHÁT HIỆN, ĐÁNH DẤU VÀ PHÂN LOẠI ĐỐI TƯỢNG CHUYỂN
ĐỘNG TRONG VIDEO 16
2.1. Phát hiện đối tượng 16
2.1.1. Phát hiện nổi trội 18
2.1.1.1 Mô hình trừ nền có khả năng thích ứng 18
2.1.1.2. Mô hình hỗn hợp Gaussian tương thích 20
2.1.1.3. Sự khác biệt theo thời gian 22
2.1.2. Bước hậu xử lý điểm ảnh 23
2.1.2.1. Phát hiện bóng và sự thay đổi ánh sáng đột ngột 24
2.1.3. Phát hiện các vùng liên tục 29 2.1.4. Bước hậu xử lý vùng 29
2.1.5. Trích rút các đặc trưng của đối tượng 30
2.2. Đánh dấu đối tượng 30
2.2.1. Tham chiếu tương tự với các đối tượng cơ bản 32
2.2.2. Điều khiển sự chồng chéo của các đối tượng 36
2.2.2.1 Phát hiện các đối tượng bị che khuất 37
2.2.2.2. Phát hiện các đối tượng tách ra 37
2.2.2.3. Lược đồ cơ sở tham chiếu tương ứng 37
2.2.3. Phát hiện các đối tượng dời đi và các đối tượng biến mất 39
2.3. Phân loại đối tượng 41
2.3.1. Phân loại dựa trên mẫu hình chiếu 41
2.3.2. Cơ sở dữ liệu mẫu hình chiếu 42
2.3.3. Ma trận phân loại 45
2.3.4. Sự bảo toàn theo thời gian 46
Chương 3- ỨNG DỤNG 48
3.1. Một số ứng dụng trong công nghệ phần mềm 49
3.1.1. Ứng dụng trong phần mềm nhúng (Embedded Software) 49
3.1.1.1. Khái niệm phần mềm nhúng 49

trộm cắp,…
Thách thức chính cho ngành công nghệ phần mềm là đưa ra các giải pháp nhằm
xây dựng một hệ thống giám sát tối ưu nhất nhằm giúp con người phát hiện chính xác
và kịp thời các hiện tượng bất thường để có biện pháp xử lý nhanh chóng nhằm tránh
các thiệt hại đáng tiếc cho xã hội.
Dữ liệu thu được từ hệ thống camera giám sát thường được lưu trữ dưới dạng
video. Như vậy công việc hiện nay của chúng ta là nghiên cứu các vấn đề liên quan
đến việc xử lý video.
Hiện nay trên thế giới đã có nhiều công trình nghiên cứu về xử lý video và cũng
đã có nhiều ứng dụng đáng kể trong lĩnh vực này. Tuy nhiên, so với yêu cầu thực tế thì
như thế vẫn là chưa đủ.
Ở Việt Nam, xử lý Video là một vấn đề còn khá mới mẻ. Thực tế cho thấy rằng,
khi xã hội phát triển càng mạnh, yêu cầu về các thiết bị công nghệ càng cao. Như vậy,
xử lý video là một mảnh đất màu mỡ cho các trung tâm nghiên cứu, các công ty đầu tư
vào. Nhất là trong giai đoạn hệ thống nhúng đang phát triển và mở ra một kỷ nguyên
mới cho ngành công nghệ phần mềm như hiện nay.
Giám sát tự động là một hướng mới và có nhiều triển vọng trong sự phát triển
tiếp theo của lĩnh vực nhận dạng và xử lý ảnh 2 chiều. Đồng thời, đó cũng là một
hướng đi cho mảng phần mềm thiết kế chuyên dụng cho các thiết bị giám sát tự động.
Việc phát hiện ra các đối tượng chuyển động trong video nhờ các kỹ thuật xử lý ảnh,
trên cơ sở đó đoán nhận một số hành vi của đối tượng là một việc làm có ý nghĩa khoa

2
học và thực tiễn. Nhất là trong hoàn cảnh Việt Nam chưa có nhiều những nghiên cứu
và ứng dụng theo hướng này.
Xuất phát từ thực tế đó, việc nghiên cứu và đưa ra các phương pháp để xử lý
video là vô cùng thiết thực. Được sự hướng dẫn của PGS.TS. Đỗ Năng Toàn tôi đã
tiến hành nghiên cứu đề tài “Nghiên cứu một số phương pháp phát hiện đối tượng
chuyển động trong video và ứng dụng”
Trong khuôn khổ của luận văn này, mục tiêu của tôi là tìm hiểu các bước phát

hàng loạt các nghiên cứu khác được triển khai và đã có những ứng dụng đáng kể. Năm
1887, khi Hannubal Good phát minh ra phim ảnh thì vấn đề ảnh chuyển động được
quan tâm đặc biệt vì những lợi ích kinh tế mà nó mang lại. Năm 1895, một hệ thống
camera/Projector với các chuẩn phim (35mm chiều rộng, 24 khung hình trên giây)
được phát triển bởi Louis Lumiére
Sự chuẩn hóa của video tương tự trong những năm đầu của thập niên 1950
(NTSC) và những năm cuối của 1960 (SECAM và PAL) làm cho ảnh chuyển động
xuất hiện hầu như khắp nơi, với các thiết bị vô tuyến được dùng rộng rãi cho mục đích
giải trí, các hệ thống ứng dụng công nghệ như phát hiện chuyển động tiếp tục được
phát triển.
Vào năm 1990, các tổ chức về chuẩn hóa như tổ chức ISO-IEC (International
Organization for Standard – International Electrotechnical Commission) đã đưa ra
chuẩn MJPEG cho video kĩ thuật số, tổ chức chuẩn ITU-T (International
Telecommunication Union) đã đưa ra chuẩn H.261 và một số các chuẩn liên quan
khác. Đi kèm với nó là các thiết bị tin học giá rẻ đã tạo nên sự phát triển bùng nổ cho
các ứng dụng đa phương tiện.

4
1.1.2. Các dạng Video
1.1.2.1 Video tương tự
NTSC Video: Đây là dạng Video tương tự với 525 dòng trên một khung hình, 30
khung hình trong một giây, quét cách dòng, chia làm hai trường (mỗi trường 262.5
dòng), có 20 dòng dự trữ cho thông tin điều khiển tại thời điểm bắt đầu mỗi trường.
PAL Video: Dạng Video này có 625 dòng trên một khung hình, 25 khung hình
trong một giây, quét cách dòng. Khung gồm hai trường chẵn lẽ, mỗi trường bao gồm
312.5 dòng.
1.1.2.2 Video số

50
30,15,10,7.5
30,15,10,7.5
Cách quét
Cách dòng
Cách dòng
Liên tục
Liên tục
1.1.3. Các chuẩn video
Các chuẩn do tổ chức chuẩn ISO-IEC (International Organization for Standard-
International Electrotechnical Commission) đưa ra bao gồm:
Chuẩn MJPEG
MJPEG (Motion JPEG) là tên gọi của một lớp các quy cách của video, trong đó
mỗi frame của video hoặc phạm vi được kết hợp lại của một dãy video số được nén lại
một cách độc lập như là một ảnh JPEG
MJPEG sử dụng hình thái nén dựa trên phép biến đổi cosin rời rạc. Phép toán này
chuyển đổi mỗi frame của video nguồn từ miền thời gian xác định vào miền tần số.
Một mô hình tri giác dựa theo một cách không chặt chẽ vào hệ thống trực quan của

5
con người để loại bỏ thông tin có tần số cao, ví dụ như sự chuyển đổi một cách chính
xác theo cường độ và màu sắc. Trong miền chuyển đổi, việc xử lý rút gọn các thông
tin được gọi là lượng tử. Trong đó, lượng tử là một phương pháp làm giảm được một
nhóm tỷ lệ lớn (với sự xẩy ra khác nhau của mỗi một nhóm) vào một nhóm nhỏ hơn,
và miền chuyển đổi này rất thuận tiện cho việc biểu diễn ảnh bởi các hệ số có tần số
cao, nó góp phần làm giảm các ảnh trên hơn là các hệ số khác với những đặc tính có
giá trị nhỏ với hệ số nén cao. Các hệ số lượng tử này ngay sau đó được xếp dãy và
đóng gói vào đầu ra của các tuyến bit. Gần như việc thi hành của tất cả các phần mềm
của chuẩn MJPEG cho phép người dùng điểu khiển trên tỉ lệ nén (như là các tham biến
tùy ý khác), cho phép người sử dụng để trao đổi ngoại tuyến đối với các tệp có kích

khác nhau.
 Truy cập ngẫu nhiên dựa trên các điểm truy cập độc lập.
 Tìm nhanh xem như quét dòng bit mã hóa, chỉ hiển thị các khung
được chọn.
 Trễ mã hóa và giải mã hợp lý (1s), gây ấn tượng tốt cho truy cập video
đơn công.
MPEG-1 chỉ xét các tín hiệu Video lũy tiến. Sử dụng không gian màu (Y, C
r
, C
b
)
đã được thừa nhận theo kiến nghị CCIR 601. Trong SIF (Standard Input Format)
MPEG kênh chính là 352 pixel x 240 dòng và 30 khung hình/s.
Sau đây là một số ràng buộc đối với MPEG-1:
Bảng 1.2. Một số ràng buộc của MPEG-1
Số pixel lớn nhất trên một dòng
720
Số dòng lớn nhất trên một ảnh
576
Số ảnh trong một giây
30
Số MB trên một ảnh
396
Số MB trên một giây
9900
Tốc độ bit tối đa
1.86 Mbps
Kích thước bộ đệm giải nén tối đa
376.832 bits

thuộc phạm vi của MPEG-7.
Ngoài ra, tổ chức chuẩn ITU-T (International Telecommunication Union) cũng
đưa ra một số chuẩn cho Video như sau:
Chuẩn H.120
H.120 là chuẩn đầu tiên cho việc mã hóa video kĩ thuật số. được đưa ra vào
những năm 1984.
H.120 chạy với tốc độ 1544kbit/s cho NTSC và 2048 cho PAL
Chuẩn Video H.261
H.261 được phát triển cho dịch vụ truyền hình hội nghị và Video phone qua
ISDN ở tốc độ px64kbps/s (p=1, 2, …,30), H.261 làm cơ sở cho các chuẩn nén sau này
như MPEG 1, 2.
H.261 sử dụng dạng thức trung gian CIF (Common Intermediate Format) với các
tốc độ bit thấp hơn, nó sử dụng dạng có tốc độ nhỏ hơn ¼ là QCIF (Quadrature). Với
tốc độ 30 khung hình/s thì tốc độ dữ liệu của CIF là 37.3 Mbps, QCIF là 9.35 Mbps.
Tốc độ càng thấp thì càng giảm số khung hình/s.
Tín hiệu video được phân thành các lớp, mỗi lớp đều có các header để định nghĩa
các tham số được sử dụng bởi bộ mã hóa khi tạo dòng bit. Lớp ảnh được phân thành

8
các nhóm khối GOB (Group of Block), các GOB bao gồm các MB (MacroBlock). MB
là đơn vị nhỏ nhất bao gồm 4 khối 8x8 của tín hiệu Y và hai khối 8x8 của tín hiệu sắc.
Lớp GOB luôn được kết hợp của 33 MB hợp thành ma trận 3x11. Mỗi MB có
một header chứa địa chỉ MB và kiểu nén, tiếp theo là dữ liệu của khối.

Bảng 1.3. Mô tả kiểu CIF và QCIF
Kiểu
Số GOB/khung
Số MB/GOB
Tổng MB/khung
CIF

 Chính xác sai biệt dự đoán với ½ điểm ảnh
 Không hạn chế vector chuyển động
 Mã hóa số học theo cú pháp
 Dự đoán thuận lợi với các khung P,…

9
Chuẩn Video H.263
H.263 là một chuẩn video codec được thiết kế một cách sáng tạo như định dạng
nén tốc độ bit thấp cho các cuộc hội nghị thông qua video. Nó là một thành viên trong
nhóm H.26x của các chuẩn mã hóa video của ITU-T, được công nhận năm 1996.
H.263 là một yêu cầu bắt buộc của video codec trong công nghệ ETSI 3GPP cho
hệ thống đa phương tiện nhỏ sử dụng giao thức IP (IMS), các dịch vụ gửi nhận thông
điệp đa phương tiện (MMS),…
Chuẩn Video H.264
H.264 là một chuẩn để nén video, được hoàn thành vào tháng 5 năm 2003. Nó
tương tự như chuẩn ISO/IEC 14496 (MPEG-4) dành cho video.
1.2. Một số vấn đề cơ bản trong xử lý Video
1.2.1. Phát hiện đối tượng chuyển động trong Video
Mỗi ứng dụng được thừa hưởng từ việc xử lý video thông minh những thứ nó cần
để giải quyết những yêu cầu khác nhau. Tuy nhiên, chúng có một số điểm chung sau:
các đối tượng chuyển động. Như vậy, việc phát hiện các đối tượng chuyển động là
bước đầu tiên của bất kỳ hệ thống xử lý video nào. Khi tìm kiếm thấy các đối tượng
chuyển động mới bắt đầu chuyển sang bước xử lý khác. Thực tế thì các video thu được
từ camera có rất nhiều nhiễu, chẳng hạn như sự thay đổi của ánh sáng, sự thay đổi của
thời tiết, lá rung,…Việc phát hiện đối tượng chuyển động gặp vấn đề khó khăn để xử
lý một cách chính xác. Các công nghệ thường xuyên được sử dụng để phát hiện đối
tượng chuyển động là phép trừ nền, các phương pháp tĩnh, sự khác biệt theo thời gian
và optical flow.
vùng phát hiện. Nền cơ sở được cập nhật với các ảnh mới theo thời gian để thích ứng
với sự thay đổi của các cảnh động.
Có nhiều hướng tiếp cận khác nhau về việc phối hợp dựa trên phép trừ nền trong
phạm vi của việc phát hiện vùng nổi trội, duy trì nền và hậu xử lý.
Heikkila và Silven [20] sử dụng một cách đơn giản phép phối hợp này, với mỗi
điểm ảnh được biểu diễn bởi một tọa độ (x,y) trong ảnh hiện thời I
t
sẽ được đánh dấu là
điểm nổi bật nếu
|I
t
(x,y) – B
t
(x,y)|>

(1.1)
được thỏa mãn, trong đó,

là ngưỡng xác định trước. Ảnh nền B
T
được cập nhật bởi
việc sử dụng phép lọc Infinite Impulse Respone (IIR) như sau :
B
t+1
=αI
t
+ (1- α)B
t
(1.2)
Việc tạo ra bản đồ điểm nổi trội được cho phép bởi các hình thái đóng và kết thúc

cập nhật trực tuyến bởi dữ liệu ảnh đầu vào. Các phân bố Gaussian sẽ đánh giá xem
một điểm sẽ thuộc về việc xử lý điểm nổi trội hay là thuộc về xử lý nền.
1.2.1.3. Sự khác biệt theo thời gian
Sự khác biệt theo thời gian cố gắng phát hiện các vùng chuyển động bằng cách sử
dụng sự khác nhau giữa một điểm ảnh ở các frame liên tiếp nhau (hai hoặc ba) trong
một dãy video. Phương pháp này có khả năng thích ứng cao với các cảnh động, tuy
nhiên, nó thường mắc một số lỗi trong việc phát hiện đối tượng chuyển động. (a) (b)
Hình 1.1: Ví dụ về lỗi trong phương pháp khác biệt theo thời gian
(a)Một cảnh với hai đối tượng chuyển động, (b) Phương pháp dựa trên sự khác
biệt theo thời gian bị lỗi khi phát hiện tất cả các điểm ảnh chuyển động của đối tượng
bên trái. Các vùng chuyển động được phát hiện đánh dấu bởi màu đỏ
Vùng màu đơn của người bên ảnh trái làm cho thuật toán khác biệt về thời gian bị
lỗi trong việc trích ra tất cả các điểm ảnh của vùng chuyển động của con người. Cũng
vậy, phương pháp này lỗi khi phát hiện các đối tượng đã dừng lại trong cảnh. Các
phương pháp bổ sung cần kế thừa để phát hiện các đối tượng đứng yên giúp cho việc
thành công ở những bước xử lý cao hơn.
Lipton [29] đã trình bày cách phối hợp giữa hai frame khác nhau, ở đó, các pixel
thỏa mãn các biểu thức sau :
|I
t
(x,y) –I

chứa màu sắc giữa các điểm ảnh nền và ảnh hiện thời.
1.2.2. Phân loại đối tượng trong video
Vùng chuyển động được phát hiện trong video có thể tương ứng với các đối
tượng khác nhau trong thế giới thực như người, nhóm người, xe cộ, sự hỗn loạn,…
Việc thừa nhận kiểu của đối tượng là rất quan trọng để xác nhận kiểu của đối tượng
được phát hiện để đánh dấu nó một cách chính xác và phân tích các hoạt động một
cách đúng đắn. Hiện nay, có hai hướng tiếp cận trong việc phân loại các đối tượng, đó
là các phương pháp shape-base và motion - base [49] (dựa theo hình dạng và dựa theo
chuyển động). Phương pháp Shape – base thường dùng cho các đối tượng trong không
gian hai chiều 2D còn phương pháp motion – base dùng để lần theo các dấu vết đặc
trưng theo thời gian của các đối tượng cho giải pháp phân loại.

13
1.2.2.1. Phân loại dựa theo hình dạng
Các đặc trưng chung chung sử dụng trong phân chia các đối tượng theo hình dạng
là tạo các hình chữ nhật bao quanh, tạo các vùng, hình chiếu và độ nghiêng của các
vùng chứa đối tượng được phát hiện.
Hướng tiếp cận này sử dụng độ dài các đường nét của hình chiếu và vùng thông
tin để phân loại các đối tượng đã được phát hiện và đưa nó vào thành 3 nhóm: Người,
xe cộ và các đối tượng khác [29]. Phương pháp này phụ thuộc vào các giả định, chẳng
hạn như, nếu là con người thì sẽ nhỏ hơn xe cộ và có bóng phức tạp. Mức độ rải rác
được dùng như là một ma trận phân loại và nó được định nghĩa trong các giới hạn của
các vùng của đối tượng và độ dài đường viền (chu vi) như sau:
Mức độ rải rác =
vùng
vichu
2
(1.5)
Việc phân loại được thực hiện ở mỗi frame và kết quả lưu lại thường được tận
dụng để đảm bảo việc phân loại theo thời gian.

flow cục bộ của các vùng đối tượng đã được phát hiện [28]. Nó được mong đợi cho
các đối tượng mềm như là con người và sẽ đưa ra giá trị flow trung bình, còn các đối
tượng cứng như là xe cộ sẽ được đưa ra giá trị flow nhỏ. Cũng vậy, phần còn lại trong
chuyển động phát sinh của con người sẽ có chu kỳ. Bằng cách sử dụng gợi ý này,
chuyển động của con người và cả con người có thể được phân biệt với các đối tượng
khác như là xe cộ.
1.2.3. Phát hiện ánh sáng
Hầu hết các phương pháp đã trình bày đều dựa trên màu sắc và các điểm đặc
trưng chuyển động của ánh sáng.
Liu và Ahuja [30] đưa ra một phương pháp định nghĩa về các mô hình quang phổ,
không gian và thời gian của các điểm ánh sáng để phát hiện ra sự có mặt của nó trong
video. Mô hình quang phổ được biểu diễn trong giới hạn độ đậm đặc màu của các
điểm sáng. Mô hình không gian mô tả cấu trúc không gian của các vùng ánh sáng và
mô hình thời gian nắm bắt sự thay đổi của các cấu trúc theo thời gian.
1.2.4. Đánh dấu đối tượng
Đánh dấu là vấn đề có ý nghĩa và khó nên được các nhà nghiên cứu về máy tính
rất quan tâm. Mục đích của đánh dấu là để thiết lập sự phù hợp của các đối tượng và
các phần của đối tượng giữa các frame liên tiếp trong video. Nó là một công việc có ý
nghĩa trong hầu hết các ứng dụng giám sát từ việc nó cung cấp dữ liệu gắn kết theo
thời gian về các đối tượng chuyển động để dùng cho cả việc làm tăng khả năng của các
bước xử lý thấp như phân đoạn chuyển động và khả năng mở rộng dữ liệu ở mức cao
hơn như phân tích hoạt động và thừa nhận cách hành động. Đánh dấu là một công việc
khó khăn để ứng dụng trong các vị trí chồng chéo do các đối tượng phân đoạn không
đúng. Các vấn đề chung của việc phân đoạn không đúng là các bóng dài, các phần
riêng lẻ và tình trạng bị chồng chéo của các đối tượng với mỗi đối tượng khác và với
phần tử đứng yên trong cảnh đó. Như vậy, việc đối phó với bóng ở bước phát hiện
chuyển động và việc bắt được các phần bị che khuất ở cả bước phân đoạn và bước
đánh dấu là rất quan trọng cho sự đánh dấu đúng đắn.

15

đen trắng. Bước đầu tiên trong hướng tiếp cận này là phân biệt các đối tượng nổi trội
từ các nền tĩnh. Để đạt được điều này, ta sử dụng một kết hợp giữa phương pháp trừ
nền và phương pháp hậu xử lý ảnh ở mức thấp để tạo ra một bản đồ điểm đặc trưng
cho mọi frame. Ta nhóm các vùng liên tục trong bản đồ đó để mở rộng các đặc trưng
cho đối tượng riêng biệt như là tạo các đường bao, các miền, điểm trung tâm của khối
hoặc biểu đồ màu (color histogram).
Điểm mới trong thuật toán phân loại đối tượng này là làm cho việc sử dụng bản
đồ các điểm đặc trưng thuộc về mỗi vùng đặc trưng để tạo ra một hình chiếu cho đối
tượng đó. Hình chiếu và điểm trung tâm của một khối của một đối tượng được sử dụng
để tạo ra một tín hiệu khoảng cách. Tín hiệu này được co dãn, được làm trở lại bình
thường và được so sánh với các nhãn tín hiệu trước đó trong cơ sở dữ liệu mẫu để
phân biệt kiểu của đối tượng. Đầu ra của bước đánh dấu được dùng để đạt được sự
thống nhất theo thời gian trong bước phân loại.
Thuật toán đánh dấu đối tượng này tận dụng các đặc trưng của đối tượng đã được
trích rút cùng với sự phối hợp phù hợp được xây dựng trong bước trước để làm cho
phù hợp với các đối tượng sau khi xảy ra trường hợp bị che khuất. Đầu ra của bước
đánh dấu là thông tin về đường đi của đối tượng được dùng để tính toán hướng và tốc
độ của các đối tượng trong cảnh.
Sau khi chắt lọc thông tin của các đặc điểm trên các đối tượng như loại, đường đi,
kích cỡ và tốc độ với mức độ riêng biệt của các mức xử lý cao, có thể được áp dụng
trên các dữ liệu đó. Một khả năng sử dụng thời gian thực là đặt cảnh báo bằng tiền
điều kiện với các vị từ như: "Một người di chuyển theo phương d với tốc độ lớn hơn s
sinh ra cảnh báo a
1
.” hoặc “một cái xe dừng lại ở một vị trí l trong khoảng thời gian
hơn t phút sinh ra cảnh báo a
2
.”. Một cách khác là ta có thể tạo ra một tham chiếu trên
dữ liệu video đã được lưu trữ cho việc tìm kiếm thông minh và độc lập. Cả hai cách

(x) – B
n
(x)|>T
n
(x) (2.1)
Trong đó T
n
(x) là giá trị ngưỡng có khả năng thích hợp được khởi tạo cùng với
ảnh video đầu tiên I
0
, B
0
= I
0
, và ảnh ngưỡng được khởi tạo bởi giá trị đã được xác
định trước.
Vì hệ thống này sẽ được dùng cho cả trong và ngoài nhà nên mô hình nền cần tự
thích ứng với các thay đổi động như sự thay đổi toàn bộ ánh sáng (chuyển giữa ngày
và đêm) và cập nhật nền một thời gian dài (một cái xe đỗ trước một tòa nhà). Vì thế
nền cơ sở và các ảnh ngưỡng phải được cập nhật liên tục từ các ảnh đầu vào. Sự phối
hợp cập nhật này là khác nhau đối với các vị trí điểm, chẳng hạn như một điểm x

FG
thì sẽ khác với x

BG :





nnn
n
),(
),)()()(1()(
)(
1

(2.3)

19
Trong đó
 
 
0.1,0.0, 

là các hằng số chỉ ra rằng có bao nhiêu thông tin từ các
ảnh đầu vào được đẩy vào nền và các ảnh ngưỡng. Nói cách khác, nếu mỗi điểm ảnh
nền được coi như là chuỗi các lần, các ảnh nền là một giá trị trung bình của trọng số
vùng theo thời gian của chuỗi các ảnh đầu vào và ảnh ngưỡng là giá trị trung bình của
trọng số vùng của

lần khác nhau của các ảnh đầu vào và nền đó. Các giá trị α,

và


được định rõ qua thực nghiệm bởi các video clip ở cả bên trong và bên ngoài nhà.
Ta cập nhật nền cho tất cả các kiểu của các điểm ảnh (x

FG, x

Stauffer và Grimson [44] đã trình bày mô hình hỗn hợp nền trực tuyến tương
thích có thể giải quyết đơn giản sự thay đổi của ánh sáng, các chuyển động lặp đi lặp
lại, sự hỗn loạn, các đối tượng dời đi từ các cảnh và các đối tượng chuyển động chậm.
Chuyển động của chúng ở mô hình nền đơn không thể điều khiển nhiễu, sự thay đổi
ánh sáng và sự đa dạng mặt ngoài nhận được từ ảnh đối với mỗi phần của điểm ảnh ở
cùng một thời điểm.
Trong mô hình này, các giá trị của một điểm ảnh riêng lẻ theo thời gian được coi
như là một „„xử lý điểm‟‟ và sự kiện gần đây của các điểm ảnh, {X
1
,…,X
t
}, được mô
hình bởi hỗn hợp của phân phối Gaussian K. Khả năng của việc quan sát giá trị của
điểm ảnh hiện thời trở thành:


 
 


K
i
titittit
XXP
1
,,,
,,*

(2.4)
Trong đó,

1
2
1
)2(
1
),,(
tt
T
tt
XX
n
t
eX



(2.5)
Việc giải quyết trên K được quyết định bởi sự sẵn sàng của bộ nhớ và sức mạnh
của tính toán. Ngoài ra, ma trận hợp nhất được thừa nhận là mẫu sau với hiệu quả tính
toán

21

2
, ktk



I (2.6)
Nó thừa nhận ba màu thành phần red, green, blue là độc lập và có cùng biến. Thủ

X



(2.8) )()()1(
2
1
2
tt
T
tttt
XX



(2.9)
Trong đó :

),|(
kkt
X


(2.10)
Nếu không tìm thấy điểm ảnh tương tự cho điểm ảnh theo dõi mới, phân bố
Gaussian với khả năng thấp nhất được thay đổi với một phân bố mới với giá trị điểm
ảnh hiện thời như là giá trị trung bình của nó, khởi tạo với sự khác biệt cao và trọng số

Hình 2.2 : Hai cách nhìn khác nhau về một ví dụ xử lý điểm
Khi đó các phân bố B đầu tiên được chọn như là mô hình nền, trong đó :
B=argmin
b









b
k
k
T
1

(2.11)
Và T là phần nhỏ nhất của dữ liệu điểm ảnh được cho là của nền. Nếu một giá trị
nhỏ được chọn cho T, nền thường được mô hình thống nhất.
2.1.1.3. Sự khác biệt theo thời gian
Sự khác biệt theo thời gian làm cho việc sử dụng các mức độ khác nhau của điểm
ảnh giữa hai hoặc ba frame liên tiếp trong video để trích rút các vùng chuyển động. Nó
là một hướng tiếp cận phù hợp cho sự thay đổi các cảnh động. Như vậy, nó sai khi
trích rút tất cả các điểm ảnh liên quan của một đối tượng nổi trội, nhất là khi đối tượng
đó có kết cấu thống nhất hoặc chuyển động chậm. Khi một đối tượng dừng chuyển
động, phương pháp khác biệt theo thời gian sai khi phát hiện sự thay đổi giữa các
frame liên tiếp và để mất đối tượng. Các thuật toán hỗ trợ đặc biệt được yêu cầu để

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu một số phương pháp phát hiện chuyển động trong video và ứng dụng - Pdf 25

Tài liệu, ebook tham khảo khác

Học thêm