Nhận dạng cử chỉ động của bàn tay người sử dụng kết hợp thông tin hình ảnh và độ sâu ứng dụng trong tương tác người thiết bị. - Pdf 47

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

ĐOÀN THỊ HƯƠNG GIANG

NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA BÀN TAY
NGƯỜI SỬ DỤNG KẾT HỢP THÔNG TIN HÌNH
ẢNH VÀ ĐỘ SÂU ỨNG DỤNG TRONG TƯƠNG
TÁC NGƯỜI-THIẾT BỊ

Chuyên ngành: Kỹ thuật Điều khiển và Tự động hóa
Mã số: 62520216

TÓM TẮT LUẬN ÁN TIẾN SĨ
ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA

Hà Nội −2017


Công trình được hoàn thành tại:
Trường Đại học Bách khoa Hà Nội

Người hướng dẫn khoa học:
1. TS. Vũ Hải
2. TS. Trần Thị Thanh Hải

Phản biện 1:
Phản biện 2:
Phản biện 3:

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án tiến sĩ

triển công nghệ phụ trợ và phát triển thuật toán. Với xu hướng phát triển công nghệ
phụ trợ bao gồm các giải pháp sử dụng găng tay chuyên dụng, miếng dán đánh dấu
vùng bàn tay, hoặc gắn trực tiếp cảm biến trên tay hoặc cánh tay khiến cho người
dùng phụ thuộc thiết bị, chi phí mua thiết bị đắt đỏ, và điều khiển không tự nhiên.
Cách tiếp cận thứ hai là phát triển thuật toán, nhận dạng cử chỉ tay đã được triển
khai trong nhiều lĩnh vực khác nhau như: thị giác máy tính và rô bốt, điều khiển và
tự động hóa,... Tuy vậy, yêu cầu về tính bền vững và xử lý thời gian thực vẫn còn là
một thách thức khi nghiên cứu hệ thống nhận dạng cử chỉ tay. Luận án này là một sự
dung hòa của hai hướng tiếp cận trên. Trong đó, một tập cử chỉ tay có tính ngữ nghĩa,
gợi nhớ đã được đề xuất nhằm thay thế các thiết bị phụ trợ, cung cấp các đặc trưng
hữu ích cho hệ thống, nên người dùng có thể điều khiển một cách tự nhiên. Bên cạnh
đó, các giải thuật biểu diễn nhận dạng hoạt động cử chỉ đã được nghiên cứu cà thiết
kế với mục tiêu hiệu quả. Các kết quả đánh giá thử nghiệm chỉ ra rằng, phương pháp
tương tác này tự nhiên hơn và không yêu cầu bất cứ liên kết trực tiếp với thiết bị cũng

1


như không yêu cầu phải có giao diện người dùng. Hệ thống đề xuất tối đa khả năng sử
dụng thông qua công cụ nhận dạng cử chỉ tay và cung cấp hệ thống điều khiển nhiều
thiết bị điện gia dụng với đáp ứng thời gian thực.

Mục tiêu của luận án
❼ Thiết kế tập cơ sở dữ liệu (CSDL) cử chỉ bàn tay tương ứng với một số các lệnh

điều khiển căn bản cho các thiết bị điện tử gia dụng. Ngoài ra, CSDL này có các
đặc trưng hỗ trợ hệ thống nhận dạng đạt được hiệu quả nhận dạng cao.
❼ Nghiên cứu và triển khai giải thuật phân đoạn cử chỉ bàn tay đáp ứng thời gian

thực, bền vững với sự thay đổi của các yếu tố bên ngoài (ánh sáng,...): Nghiên

❼ Mở đầu: Giới thiệu chung tính cấp thiết, mục tiêu của luận án; ngữ cảnh, các

ràng buộc và thách thức khi giải quyết các bài toán; Các đóng góp của luận án.
2


❼ Chương 1: Tổng quan về điều khiển sử dụng cử chỉ bàn tay và các nghiên cứu

liên quan đến các vấn đề đặt ra trong luận án.
❼ Chương 2: Thiết kế và xây dựng cử chỉ bàn tay có tính chất chu kỳ.
❼ Chương 3: Đề xuất phương pháp phát hiện, phân đoạn cử chỉ bàn tay đáp ứng

yêu cầu thời gian thực và độ chính xác. Phân đoạn chuỗi cử chỉ tay động từ chuỗi
liên tiếp các hình trạng bàn tay.
❼ Chương 4: Đề xuất giải pháp biểu diễn các cử chỉ động của bàn tay kết hợp các

đặc trưng không gian và thời gian, giải pháp đồng bộ pha trong không gian mới.
❼ Chương 5: Triển khai, đánh giá hệ thống điều khiển sử dụng cử chỉ tay. Thực

hiện các đánh giá thử nghiệm trên hệ thống hoàn thiện.
❼ Kết luận và định hướng nghiên cứu tiếp theo của luận án.

CHƯƠNG 1

CÁC NGHIÊN CỨU LIÊN QUAN
Chương này trình bày về các nghiên cứu liên quan đến hệ thống điều khiển thiết
bị điện tử gia dụng dùng cử chỉ động của bàn tay và các phương pháp nhận dạng cử
chỉ động của bàn tay với các pha chính gồm: Phát hiện và trích chọn vùng bàn tay
trong ảnh, phân đoạn và nhận dạng các cử chỉ động của bàn tay từ chuỗi ảnh liên tiếp.


Phương pháp phân đoạn cử chỉ động của bàn tay

Đối với các hệ thống nhận dạng cử chỉ động của bàn tay, việc xác định điểm bắt
đầu và kết thúc chuỗi cử chỉ tương ứng với một ứng viên của một cử chỉ nào đó, là
việc làm cần thiết trước khi đưa vào biểu diễn và nhận dạng cử chỉ. Các phương pháp
phân đoạn hiện tại thường chia thành hai loại: Sử dụng các mô hình và sử dụng các
tín hiệu đặc trưng. Hướng tiếp cận sử dụng các mô hình thường gặp phải một số giới
hạn chế sau: Các hệ thống yêu cầu một ngưỡng các tham số mô hình trong quá trình
huấn luyện và khó thay đổi hệ thống khi thêm hoặc bớt cử chỉ. Hơn nữa, cần thiết
phải định nghĩa các cử chỉ có nghĩa và tập cử chỉ thông thường, trong khi có rất nhiều
các cử chỉ thông thường. Ngoài ra, khi sử dụng mô hình thường có thời gian trễ lớn và
điều đó thực sự thách thức khi triển khai các hệ thống thực.
Hướng tiếp cận dựa trên các dạng tín hiệu đặc trưng của các cử chỉ tay thường là:
Sự chuyển động, vận tốc, gia tốc của bàn tay,... Hướng tiếp cận này thường đạt được
tốc độ đáp ứng nhanh với giải thuật đơn giản. Tuy nhiên, các cử chỉ tay phải thiết kế
sao cho đảm bảo được đặc trưng khác biệt và/hoặc sử dụng thêm các thiết bị phụ trợ
để đo chính xác sự thay đổi của cử chỉ tay.

1.4

Phương pháp nhận dạng cử chỉ động của bàn tay

Các phương pháp nhận dạng cử chỉ động hiện nay đang gặp một số giới hạn như:
Các mô hình cần phải cài đặt, thiết lập lại tham số khi cần thêm hoặc bớt cử chỉ. Giải
pháp đạt được độ chính xác thì yêu cầu độ phức tạp tính toán và thời gian đáp ứng
cao. Các mô hình nhận dạng như HMM hay CRF, CNN thường yêu cầu số lượng dữ
liệu huấn luyện lớn. Đặc biệt, phương pháp sử dụng mạng nơ ron yêu cầu cấu hình
máy tính cao hoặc máy tính phải có GPU.

1.5

tay mới có tính chu kỳ.

2.1

Các CSDL cử chỉ động của bàn tay đã có

Các bộ CSDL cử chỉ động của bàn tay đã được đề xuất tồn tại một số giới hạn
nhất định như: Phục vụ cho một ứng dụng chuyên biệt, pha trộn lẫn giữa các cử chỉ
tĩnh và động, số lượng các cử chỉ hạn chế chỉ ở lệnh bật/tắt thiết bị, hoặc các CSDL
không được công bố cho cộng đồng nghiên cứu.

2.2
2.2.1

Thiết kế CSDL cử chỉ động có tính chu kỳ
Các lệnh điều khiển các thiết bị điện tử gia dụng cơ bản
Bảng 2.1 Các lệnh chính của các thiết bị điện tử gia dụng
Lệnh

Thiết bị
Tivi
Máy quay
Đèn
Điều hòa
Quạt

Lệnh 1/Bật-Tắt

Lệnh 2/Tăng


(-) Tiếng
Quay phải
(-) Thô
Chế độ
Đèn ngủ

Mỗi hộ gia đình thường có nhiều thiết bị điện tử gia dụng khác nhau như: Đèn,
quạt, tivi, điều hòa, cửa, loa đài, tivi,... Để có một hệ thống điều khiển sử dụng cử chỉ
tay một cách đồng bộ, rất cần thiết phải có một bộ CSDL cử chỉ tay có khả năng dùng
chung cho các thiết bị này. Để định nghĩa một bộ CSDL cử chỉ tay phục vụ cho điều
khiển, phải xác định các lệnh gốc của thiết bị cần điều khiển, ý nghĩa lệnh và cách
5


thực hiện gợi nhớ đưa ra từ nhà sản xuất. Sau đó, Các cử chỉ tay thường được định
nghĩa sao cho có sự tương ứng với ý nghĩa của lệnh, đồng thời có tính gợi nhớ để dễ
sử dụng thường xuyên, lâu dài. Cuối cùng, gán các cử chỉ tay với các lệnh gốc. Trong
nghiên cứu này, năm lệnh được định nghĩa và mô tả như trong Bảng. 2.1.
2.2.2

Định nghĩa CSDL

Năm lệnh cơ bản thường được sử dụng gồm: bật/tắt, tăng(kênh), giảm(kênh),
tăng(tiếng), giảm(tiếng). Mỗi lệnh thực hiện có ba pha chính là pha chuẩn bị, pha
thực thi và pha kết thúc. Trong pha thực thi, bàn tay không những thay đổi hình
trạng mà còn dịch chuyển theo ba trạng thái gồm: khởi động, trung gian/chuyển động
và kết thúc. Sự thay đổi hình trạng của bàn tay có tính chu kỳ từ lúc đóng tay sau đó
mở tay và đóng tay lại như mô tả trong Hình. 2.1.
Middle



Stop

Middle
Decrease

Stop
Next

Back

Hình 2.1 Sự thay đổi hình trạng tay và quỹ đạo của các cử chỉ tay định nghĩa

2.2.3

Đặc điểm của CSDL
x

x (t ) = x (t + T )

x(t)

x(t+T)
time
t

Stop
Move

t+T

nhau là không giống nhau do tốc độ thực hiện của mỗi người, và/hoặc hướng
chuyển động của bàn tay trong mỗi lệnh không giống nhau.
- Các cử chỉ trong cùng một lớp có thể không đồng bộ về pha với nhau. Trong mỗi
lớp, các trạng thái của một loại cử chỉ có thể không đồng bộ.

2.3

Thu thập CSDL

Từ năm cử chỉ đã định nghĩa, bốn bộ CSDL đã được thu thập tại các môi trường,
ngữ cảnh khác nhau phông nền gồm MICA1, MICA2, MICA3, MICA4. Đặc điểm của
các bộ CSDL thể hiện chi tiết trong Bảng 2.2 sau đây:
Bảng 2.2 Đặc điểm của các CSDL
CSDL
Đặc điểm
Số lượng người
Môi trường
Điều kiện nền
Nhiễu
Số vị trí
Khoảng cách (m)

2.4

MICA1

MICA2

MICA3


Ít
13
1.5->3

Thảo luận và kết luận

Sau khi khảo sát các tập CSDL đã được công bố cũng như xuất phát từ yêu cầu
của bài toán điều khiển thiết bị điện gia dụng, một CSDL mới đã được định nghĩa.
CSDL bao gồm năm lệnh, tương ứng với các lệnh cơ bản nhất để điều khiển hầu hết
các thiết bị điện gia dụng. Tập CSDL đề xuất bao gồm các chuỗi cử chỉ tay có tính
chất chu kỳ đóng, dễ nhớ, và dễ thực hiện. Bốn bộ CSDL đã được thu thập tại các môi
trường khác nhau, với các điều kiện phông nền khác nhau, đa dạng độ tuổi và giới tính
của người tham gia thu thập. Các bộ CSDL được chia sẻ cho cộng đồng nghiên cứu.

CHƯƠNG 3

TRÍCH CHỌN BÀN TAY VÀ PHÂN ĐOẠN CỬ CHỈ
ĐỘNG VỚI GIẢN ĐỒ HỌC NGƯỜI DÙNG
3.1

Mở đầu

Tương tác người máy thông qua cử chỉ bàn tay được xem như một trong những
cách thức tương tác tự nhiên và thân thiện. Tuy nhiên, cách thức điều khiển này phải

7


đối mặt với khá nhiều thách thức như sự phức tạp và luôn biến đổi của cấu trúc bàn
tay, điều kiện chiếu sáng khác nhau, điều kiện phông nền phức tạp. Vì vậy, các thuật

Detecting body
area

Hand detected and
Segmented

Detecting hand
candidates

Depth
image

Pruning hand

Learning parameters
(d±∆) of a distance to
hand

Learning parameters
(µ,δ) ,η of background
model

Learning
parameters (µ,δ)
of skin model

(b) The proposed user-guide scheme

Hình 3.1 Minh họa hệ thống đề xuất phát hiện và trích chọn bàn tay.
- Tiền xử lý: Do ảnh I và D thu thập từ cảm biến Kinect không có cùng tọa độ.

Sử dụng mô hình GMM [6] để quan sát sự ổn định của mỗi điểm ảnh p trên
một chuỗi n ảnh độ sâu: sp = [D1,p , D2,p , ..., Dn,p ]. Tham số quan sát là độ lệch chuẩn
σp = std(sp ) của điểm ảnh. Trong đó, điểm ảnh p của mô hình nền được biểu diễn bởi
BGp = (µp , ηp , σp ), được tính toán như sau:
❼ Mô hình nhiễu ηp :

0
255

ηp =

if σp < τ
otherwise

(3.4)

❼ Giá trị trung bình µp :
n
t=1

µp =

(a) RGB image

Dt,p

if σp < τ

Dt,p |Dt,p

Dhand = Dt,t−1 ∩ Dt−2,t−1
3.2.3.3

(3.6)

Học tham số màu da vùng bàn tay

Sự ổn định của phân bố màu da xác định dựa trên tương quan chéo của hai biểu
đồ màu da bàn tay của các khung hình liên tiếp nhau t , với ∆t = | t − t−1 |. Hình
3.4(d) cho thấy tích lũy sai số N1 N
t=1 ∆t từ khung hình 1 đến N. Giá trị này tăng dần
tương ứng với sự sai khác khi vùng màu da còn biến động do tay chưa đặt đúng vị trí.
Cho đến một khi sai số dao động quanh một giá trị nhất định tương ứng của màu da
của người thì việc học có thể dừng lại.
9


(a)

(b)
-

(c)
-

=

(d)


40

(d) Accumulation of ∆ along frames

Hình 3.4 Huấn luyện mô hình màu da
3.2.4

Phát hiện và tinh chỉnh kết quả vùng bàn tay dựa trên giản đồ học
Hi
ROIi
H*

(a) A candidate of
hand

(b) Mahalanobis
distance

(c) Hand detection

Hình 3.5 Kết quả của trích chọn vùng bàn tay. (a) Ứng viên vùng bàn tay; (b) Khoảng
cách Mahalanobis; (c) Kết quả tinh chỉnh.
Từ vùng ứng viên của bàn tay Hi được mở rộng với H ∗ = Hi × δ (Hình chữ nhật
màu xanh ở Hình 3.5(a)). Sau đó, khoảng cách Mahalanobis giữa H ∗ và mô hình màu
da được tính toán để trích chọn vùng bàn tay như hình 3.5(b). Vùng bàn tay được làm
đầy với phần màu da bị thiếu và với vùng ứng viên của bàn tay không trùng với màu
da sẽ được loại bỏ. Sau khi làm mượt thì kết quả thu được là H ∗∗ ) như minh họa trong
hình 3.5(c).

3.3

fC

0.6
0.4
ܵ௜
‫ݕ‬

ܵ௜ାଵ

‫ݕ‬
ܶ݅݉݁ሺܶ௜ାଵ ሻ‫ݐ݁݉ܽݎ݂݂݋‬௜ାଵ
ܶ݅݉݁ሺܶ௜ ሻ‫ݐ݁݉ܽݎ݂݂݋‬௜
(a) Hand movements in time

0.2
0

0

10

20

30

40

50

60


150

200

250

300

350

400

1.0
0.8
0.6
0.4
0.2
Ground Truth

0
0

20

Ground Truth

40

Ground Truth

Ti+1 − Ti

(3.8)

Hàm fC (t) kết hợp hai tín hiệu fC (t) = (fS (t), fV (t)) như sau:
fC (t) = M ax(||fS (t)||, ||fV (t)||)

11

(3.9)


Sau đó, hàm fC (t) được sử dụng để phát hiện điểm bắt đầu và kết thúc của cử
chỉ động của bàn tay như minh họa trong hình 3.7.

3.4

Các kết quả thử nghiệm

Mười người được mời tham gia đánh giá thử nghiệm hệ thống phát hiện và trích
chọn vùng bàn tay. Mỗi người đều được thực hiện với kịch bản có sẵn như nhau gồm:
học các tham số, thực hiện thử nghiệm. Các kết quả về thời gian học, thời gian đáp
ứng, độ chính xác của hệ thống được ghi lại để phân tích và đánh giá.
3.4.1

Yêu cầu thời gian học đối với người dùng

3.4.2

Thời gian đáp ứng để trích chọn và nhận dạng vùng bàn tay

9

10

121

157

144

147

149

141

142

125

135

58.2

63.1

64.8

61.3


3.4.4

86.7

87.6

89.5

88.9 90.4 84.8
87.98 ± 2.58 %

Hiệu quả của giải pháp phân đoạn cử chỉ động bàn tay
False alarm rate

Area

False alarm rate

Combination

1

1

0.8

0.8

0.6


0.85

0.9

0.95

1

True positive rate

True positive rate

(a) Spotting results of MICA1 dataset

(b) Spotting results of MICA2 dataset

Hình 3.8 Kết quả phân đoạn chuỗi cử chỉ động trên CSDL MICA1 và MICA2

12


3.5

Thảo luận và kết luận

Chương này đã trình bày các phương pháp cho phép phát hiện vùng bàn tay và
phân đoạn cử chỉ động từ ảnh RGB-D. Phương pháp phân vùng dữ trên việc học trước
một số tham số của môi trường. Làm cho hệ thống khi hoạt động sẽ đáp ứng nhanh
hơn và bền vững để phát hiện, trích chọn vùng bàn tay. Phương pháp phân đoạn dựa
trên việc phân tích sự thay đổi của hàm tín hiệu vận tốc và diện tích của hình trạng

ISOMAP

PCA
Representation

RMSE

SpatialTemporal
Space

Phase
Synchrolization

Dynamic Hand Gesture Representation

3D-CNN[21]
Representation

RBF SVM

Linear SVM

Recognition schemes

Recognition

K_NN
Recognition

Gesture label

K

xji

K
i=1

,

K

yij

)

(4.2)

Quỹ đạo trung bình biểu diễn hướng dịch chuyển của cử chỉ tay. Đây chính là
G
G
đặc trưng thời gian T rN
trích chọn từ chuỗi các khung hình liên tiếp G (T rN
=
[p1 , p2 , ..., pK ]) như (4.3):
G
T rN
= {(x1 , y1 ), (x2 , y2 ), ..., (xN , yN )}

(4.3)


T rN
i,j ]

(4.5)

G∗
T rN
= [p1j − (x, y), p2j − (x, y), ..., pN
j − (x, y)]

(4.6)

4.2.1.2

Trích chọn đặc trưng không gian sử dụng kỹ thuật suy giảm tuyến tính

4.2.1.3

Trích chọn đặc trưng không gian sử dụng kỹ thuật đa tạp

Kỹ thuật ISOMAP được áp dụng để suy giảm số chiều phi tuyển. Mục đích nhằm
khai thác các cấu trúc phi tuyến tiềm ẩn của cấu trúc lớp dữ liệu. Hình. 4.3. Thực
nghiệm cho thấy, với dữ liệu cử chỉ động bàn tay như định nghĩa, chỉ cần ba chiều là
14


(0,0)

x


1

0.14

On_off

0.12

Up
Down

0.1

Left
Right

0.5

Residual variance

0

-0.5

0.08
0.06

-1

0.04


4

x 10

0
1

2

3

4

5
6
7
Isomap dimensionality

8

9

10

b. Residual presentations

Hình 4.3 a) Biểu diễn 05 cử chỉ tay trong không gian đa tạp 3 chiều.
4.2.2
4.2.2.1

Y1

0
-20

Y1

0

-50

150

0
-50

150

-150
100

100

-100
50

50

-50
150


0

Y1

0

-20
-150

-50
150

x

100
-50

100

50

50
0

x

0

y

100
50

0

-50
50

-50
-100

50

-150
-100

0

x

0
-50

0

-50
150
-100

150

10
12
9
1
220
11
19
813
14
19
150 19
911
11
211
13
14
19
13
12 111
112
10
911
10
8
10
18
10
934 13
12
13

19
10
10
3119820
10
11
10
12
15
16
11
13
1
9
2019
220 811
64912
8
9
2
8
3
10
13
10
11
14
2
18
10

911
712
12
711
18
13
20
218
1
11
16
20
18
12
318
12
911
1
7
2
13
710
11
20
1820
814
1816
20
14
8

8
7
18
11
27
1
11
13
18
517
15
4
2
11
10
15
15
19
12
20
12
44
18
13
17
412
11
6
2
018

13
978
118
910
11
3
12
10
13
12
12
20
5
2
6
9
10
11
13
6
12
812
19
13
1
1
37
47
91
20

2
13
10
11
19
17
311
19
27
712
113
8
1
19
20
20
14
20
13
12
6
10
1
8
16
1
20
10
1
15

13
13
9
10
10
14
5
114
813
6
16
814
619
20
9
15
15
13
514
8915
714
3916
2320
514
18
119
63
49
18
715

2
4
15
812
7
620
7
20
18
19
17
88
7
6
14
19
16
15
14
8910
16
16
19
15
9
20
14
5
18
2

28
16
18
14
17
6
12
2
14
17
19
217
3
13
20
5
7
16
14
67
12
17
215
0331521 1
13
17
17
6
8
3

20
16
13
20
15
7
12
8
7
9
13
5
5
4
216
11
3
20
3
7
5
34
9
3
9
17
16
10
115
19

16
7
16
13
10
3
417
15
20
18
118
5
7
12
14
6
15
17
10
8
14
17
2
17
15
6
17
15
17
6

1
16
4
6
7
6
5
7
19
17
16
6
2
16
4
5
4
16
17
14
1
6
14
6
4
17
12
16
3
5

18
1
1
14
10
16
17
20
2
13
13
5
4
2
1
15
15
16
1
2
3
16
20
19
15
18
19
18
17
5

17
5
6
3
16
16
9
15
15
719
18
19
417
17
13
19
7
20
617
16
6
6
3
416
12
3
16
13
816
12

16
15
9
97
14
14
20
6
6
1
12
15
3
5
7
15
5
16
6
4
17
3
18
17
15
20
4
16
16
19

16
6
619
17
2
3
2
417
18
1
5
4
18
11
219
15
16
13
7
6
18
14
14
5
7
11
5
5
17
16

315
17
16
4
16
41
20
17
64
16
7
16
2
3
315
5
18
13
66
16
18
5
5
7
4
13
4
8
4
16

12
16
1
18
420
17
13
7
20
8
3
1
6
13
1
14
4
4
5
15
17
16
17
18
20
14
6
11
17
16

04
4
16
19
15
18
217
3
415
7
17
12
18
16
1
618
2
10
8
19
617
915
14
6
15
0
316
2
3
13

2
18
17
118
219
17
4
18
19
16
6
4
20
218
119
1
18
19
15
7
6
7
7
5
7
6
20
18
15
19

3
12
2
16
3
8
20
2
18
8
1
5
20
16
3
1
818
123519
19
17
16
1
13
1
16
15
7
18
7
5

16
16
2
14
5
15
89
53
14
17
4
13
12
63
3
1
16
18
219
19
19
20
15
15
14
2
89
17
17
2

14
75
6
9
12
8
13
82
13
214
16
3
19
4
18
20
19
18
1
218
17
14
16
17
18
1
019
20
913
813

19
6
17
13
13
13
526
8
14
714
4
19
5
6
17
720
17
7
1
19
7
6
05
9
118
19
19
18
13
18

5
6
3
14
17
12
20
213
20
19
20
16
5
2
55
10
10
1
6
1
11
13
10
2
20
20
13
20
13
8

712
17
13
11
7
6
13
1
2
1
14
10
18
6
110
38
14
6
8
12
10
7
1
2
42
17
92
12
1
20

10
57
9
13
12
18
810
8
1
20
12
4
8
16
6
613
1
118
2
19
219
19
2219
20
6
12
12
15
715
719

12
2
3
1
1 11
12
85
2
7
12
12
14
13
9
1
14
7
0210
10
9
10
20
988
6
12
10
8
11
14
910

20
111
92
10
10
18
2
9718
8
13
9
8
83
3319
11
12
11
18
10
1
12
9
10
65 5
11
810
12
911
14
13

12
810
13
11
12
9
12
10
14
10
910
6
12
8811
13
11
10
9
10
110
9810
117 14
12
20
8 10
8 19 12
912
11
10
12


y
b. 37 Increase gestures

-150

150
100

-50

-50
0

100

a. 40 Turn On_off gestures

0

x

-150
-100

50

y

-150


... YN,1 


... YN,2 
... YN,3
(4.8)

Phân tích pha của các cử chỉ có tính chu kỳ

Cử chỉ động có N cử chỉ tương ứng với N hình trạng trong không gian đa tạp nằm
trên một đường cong đóng, mỗi hình trạng được coi như pha của tín hiệu cử chỉ động
như trong Hình. 4.5.

(P10,s10)

Y1

si >

(P9,s9)
(P11,s11)

10

60

(P12,s12)

40

-20

(P3,s3)

(P4,s4)

si =

The most
different frames

-40
-150

2π T
N

b) Quasi closed-form gesture c) Quasi closed-form gesture

7
(P5,s5)

2

si

0

x

50

100

150

d) Ideal closed-form gesture

a. Closed-form gesture in new space

Hình 4.5 Biểu diễn đa tạp của cử chỉ tay động “Tiếp theo" trong không gian đề xuất
4.2.3.3

Đồng bộ pha với phương pháp nội suy

Một giải pháp nội suy được triển khai để đồng bộ các chuỗi cử chỉ động của bàn
tay nhằm đưa các chuỗi về cùng một kích thước trong không gian mới. Giải pháp đề
16


The most
similar frames

si =

(a) Quasi close-form gesture

xuất được thực hiện với hai trường hợp: (1) Nội suy giữa cặp hai cử chỉ liên tiếp khác
nhau nhất, (2) loại bỏ bớt một cử chỉ giữa hai cử chỉ tương tự nhau nhất như minh
họa trong Hình. 4.6(a). Gọi M là kích thước của chuỗi của chỉ tay mong muốn, từ cử
chỉ tay GT S = {P1 , P2 , ..., PN } tại (t1 , t2 , ... , tN ), véc tơ khoảng cách GT S được tính
toán bởi Dinter = {di ; (i = 1, ..., N − 1)}. Các khoảng cách này được tính bằng khoảng
cách Ơ cờ lít di = ||Pi − Pi+1 ||2 giữa hai cử chỉ tay liên tiếp Pi và Pi+1 .
Khi cử chỉ động có N cử chỉ, kích thước mong muốn là M và N < M . Khoảng
cách lớn nhất được xác định từ véc tơ Dinter (dmax = max(Dinter )), minh họa trong
Hình. 4.6(c). Điểm xa nhau nhất được nội suy với điểm P ∗ (4.9) được chèn vào giữa.
Quá trình nội suy được lặp lại cho đến khi kích thước của chuỗi cử chỉ mới bằng M :
P∗ = [

xi+1 − xi yi+1 − yi Yi+1,1 − Yi,1 Yi+1,2 − Yi,2 Yi+1,3 − Yi,3 T
,
,
,
,
]
2
2
2
2
2

(4.9)

Khi N > M , véc tơ khoảng cách nhỏ nhất được tính toán giữa hai cử chỉ tay gần
nhau nhất Dinter (dmin = min(Dinter )). Phép loại trừ một điểm từ hai điểm gần nhau
nhất được thực hiện như (4.10). Quá trình này được lặp lại cho đến khi chuỗi cử chỉ
tay mới có kích thước bằng M :

Trong phần này, các đánh giá được thực hiện bao gồm: Độ chính xác của hệ thống
đề xuất khi điều chỉnh hệ số nội suy của chuỗi cử chỉ M , điều chỉnh tham số của bộ
17


phân lớp SVM, và độ chính xác nhận dạng sử dụng giá trị tối ưu của hệ số M , so sánh
đánh giá độ chính xác nhận dạng với các đặc trưng riêng lẻ và kết hợp, so sánh hiệu
năng của giải pháp đề xuất trên các bộ CSDL khác nhau.
Hiệu quả của hệ thống khi điều chỉnh hệ số nội suy
100

Recall
(%)

MICA1

96
94
92
90
88
86
84
82
80

98
96
94
92

75

0

70

8 10 18 30 40 60 80 100
Temporal resolution value

8

10 18 30 40 60 80 100
Temporal resolution value

8
9
10
15
18
25
30
35
40
50
60
70
80
90
100
150


80

80
60

60
40

40

20

20
0

0
MICA 1

MICA 2

MICA 3

MICA1

MICA 4

MICA 2

MICA3

70
60
50
40
30
20
10
0
1

2

3

4

5

6

7

8

9

10

11



Chương này đã trình bày một biểu diễn mới cho các cử chỉ động của bàn tay kết
hợp các đặc trưng không gian dựa trên biểu diễn đa tạp ISOMAP và thời gian dựa
trên KLT. Giải pháp nội suy trong không gian mới cho các mẫu tín hiệu có tính chu
kỳ đóng được thực hiện trước khi đưa vào bộ phân lớp RBF-SVM, đây là bộ phân lớp
phù hợp nhất với đặc trưng biểu diễn đề xuất. Kết quả cho thấy hệ thống đạt được độ
chính xác nhận dạng cao tại nhiều vị trí và góc nhìn khác nhau, và cao hơn so với giải
pháp sử dụng kỹ thuật học sâu tiên tiến C3D và giải pháp đồng bộ pha DTW.

CHƯƠNG 5

TRIỂN KHAI ỨNG DỤNG ĐIỀU KHIỂN THIẾT BỊ
GIA ĐỤNG SỬ DỤNG CỬ CHỈ TAY ĐỘNG
5.1

Mở đầu

Chương này trình bày quá trình triển khai một hệ thống điều khiển các thiết bị
điện gia dụng sử dụng cử chỉ tay đã định nghĩa. Hệ thống điều khiển các hoạt động
thông thường của thiết bị điện gia dụng như bật/tắt, tăng/giảm cường độ sáng của
đèn cũng như các hoạt động của đèn. Hệ thống cho phép người dùng tương tác một
cách tự nhiên và thuận tiện mà không yêu cầu giao diện người dùng.

5.2
5.2.1

Triển khai hệ thống điều khiển sử dụng cử chỉ tay
Ánh xạ các cử chỉ tay với tập lệnh

Để ánh xạ giữa tập lệnh đã định nghĩa với các chế độ của thiết bị, sáu trạng thái

Increase
Level 1
/Speed 1
(20%)

Next
Back

Level 2
/Speed 2
(40%)

Next

Level 3
/Speed 3
(60%)

Back

Next
Back

Level 4
/Speed 4
(80%)

Next
Back



Home appliances

Hình 5.2 Kết nối phần cứng hệ thống điều khiển đèn và quạt.

5.3

Các đánh giá thử nghiệm hệ thống điều khiển

Môi trường thử nghiệm được thiết kế mô phỏng theo một phòng thực tế của gia
đình tại phòng thông minh của Viện nghiên cứu Quốc tế và Truyền thông Đa phương
tiện MICA - Đại học Bách khoa Hà Nội. Các đồ dùng trong phòng được bố trí tương
tự như một phòng sinh hoạt của gia đình gồm tivi, đèn, quạt, bàn ghế, cửa ra vào,
camera, điều hòa,... Hai hệ thống được cài đặt để điều khiển là thiết bị chiếu sáng
(đèn) và thiết bị làm mát (quạt). Sau khi đặt cố định cảm biến Kinect, mười ba vị trí
khác nhau trong tầm nhìn thấy ở phía trước của cảm biến Kinect được đánh dấu.
5.3.1

Thiết lập ngữ cảnh

5.3.2

Cài đặt môi trường

5.3.3

Xây dựng kịch bản

5.3.4



Hand
Spotting
detectionN

(58.897േ14.4)ms
*13.5frames

Gesture
extraction

0.954േ0.27
ms

112.036േ50.4
ms

Recognition

0.672േ0.013
ms

Hình 5.3 Chi phí thời gian của toàn bộ hệ thống tương tác bằng cử chỉ tay.
khoảng thời gian 113.662 ms thì hệ thống sẽ phát lệnh điều khiển. Thời gian này là
khá ngắn và phù hợp để triển khai các ứng dụng thực tế.
5.3.4.2

Đánh giá hiệu quả của hệ thống phát hiện và nhận dạng

Độ triệu hồi, độ chính xác và độ đo F1 của toàn hệ thống được tính toán. Kết quả

84.18
87.45 ± 2.54

87.59
92.79
92.05
90.71
89.91
90.61 ± 1,81

Đánh giá phản hồi người dùng đối với hệ thống
8.33

8.33 16.66
2

16.66

3
4

Yes

5
91.67
(a) % Users agreements (Yes/no)
on using hand to control appliances
8.33

16.66

8
33.33

33.33

58.33
(b) % Users do again a gesture
when the system “do nothing”

7
33.33

Repeat times

No

16.66
(e) Assessments on
responding time

(d) Users’ feeling on
the interaction way using hand

Hình 5.4 Đánh giá của người dùng đối với hệ thống.

21

5
6
7

❼ Nâng cao hiệu quả của các thuật toán: phát hiện bàn tay, phân đoạn cử chỉ động,

nhận dạng cử chỉ động. Cụ thể như sau:
– Đề xuất một phương pháp học các tham số của môi trường như mô hình
nền, mô hình màu da, khoảng cách từ người đến Kinect. Đề xuất này làm
tăng độ chính xác của phát hiện, đồng thời giảm thời gian tính toán ở pha
tiền xử lý của hệ thống.
– Nghiên cứu và đề xuất một phương pháp hiệu quả, đơn giản, thời gian thực
để phân đoạn cử chỉ động của bàn tay từ chuỗi hình ảnh liên tiếp thu nhận
được từ Kinect. Đây là một pha tiền xử lý quan trọng trước khi thực hiện
nhận dạng cử chỉ. Với đặc điểm của tập cử chỉ có tính chu kỳ, hiệu quả của
giải thuật phân đoạn cử chỉ động đã được cải thiện đáng kể.
– Đã đề xuất một biểu diễn mới các cử chỉ động của bàn tay dựa trên việc kết
hợp đồng thời đặc trưng không gian và thời gian. Trong khi các đặc trưng
thời gian được trích chọn từ lộ trình chuyển động của bàn tay, đặc trưng
không gian được biểu diễn trong một không gian có số chiều thấp sử dụng
kỹ thuật đa tạp. Hơn nữa, LATS cũng đã đề xuất một phương pháp nội suy
để giải quyết các vấn đề liên quan đến sự biến động về pha của các cử chỉ
22


do sự sai khác về vận tốc thực hiện cử chỉ, độ dài của cử chỉ và tốc độ lấy
mẫu của cảm biến. Cuối cùng giải thuật học máy SVM được sử dụng để
thực hiện phân lớp các cử chỉ.
❼ Triển khai, cài đặt, đánh giá hệ thống điều khiển đèn và quạt trong môi trường

nhà thông minh tại Viện MICA và hội chợ triển lãm KHCN của trường ĐHBK
Hà Nội với nhiều người dùng khác nhau.
Bên cạnh những đóng góp trên, LATS vẫn còn một số hạn chế sau:
❼ Hiện tại, tập cử chỉ gồm năm cử chỉ có tính chu kỳ để điều khiển một số chức

làm mịn hành trình (sử dụng bộ lọc Kalman, bộ lọc hạt) để nâng cao hiệu
quả của phát hiện bàn tay.
– Trong pha phân đoạn cử chỉ động: Kết hợp các đặc trưng khác của tính chu
kỳ như hướng chuyển động, các ràng buộc của đa tạp đóng từ điểm bắt đầu
23



Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status