BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
ĐOÀN THỊ HƯƠNG GIANG
NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA BÀN TAY
NGƯỜI SỬ DỤNG KẾT HỢP THÔNG TIN HÌNH
ẢNH VÀ ĐỘ SÂU ỨNG DỤNG TRONG TƯƠNG
TÁC NGƯỜI-THIẾT BỊ
Chuyên ngành: Kỹ thuật Điều khiển và Tự động hóa
Mã số: 62520216
TÓM TẮT LUẬN ÁN TIẾN SĨ
ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA
Hà Nội 12−2017
Công trình được hoàn thành tại:
Trường Đại học Bách khoa Hà Nội
Người hướng dẫn khoa học:
1. TS. Vũ Hải
2. TS. Trần Thị Thanh Hải
Phản biện 1: PGS.TS Ngô Quốc Tạo
Phản biện 2: PGS.TS Nguyễn Quang Hoan
Phản biện 3: PGS.TS Trần Đức Tân
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án tiến sĩ
triển công nghệ phụ trợ và phát triển thuật toán. Với xu hướng phát triển công nghệ
phụ trợ bao gồm các giải pháp sử dụng găng tay chuyên dụng, miếng dán đánh dấu
vùng bàn tay, hoặc gắn trực tiếp cảm biến trên tay hoặc cánh tay khiến cho người
dùng phụ thuộc thiết bị, chi phí mua thiết bị đắt đỏ, và điều khiển không tự nhiên.
Cách tiếp cận thứ hai là phát triển thuật toán, nhận dạng cử chỉ tay đã được triển
khai trong nhiều lĩnh vực khác nhau như: thị giác máy tính và rô bốt, điều khiển và
tự động hóa,... Tuy vậy, yêu cầu về tính bền vững và xử lý thời gian thực vẫn còn là
một thách thức khi nghiên cứu hệ thống nhận dạng cử chỉ tay. Luận án này là một sự
dung hòa của hai hướng tiếp cận trên. Trong đó, một tập cử chỉ tay có tính ngữ nghĩa,
gợi nhớ đã được đề xuất nhằm thay thế các thiết bị phụ trợ, cung cấp các đặc trưng
hữu ích cho hệ thống, nên người dùng có thể điều khiển một cách tự nhiên. Bên cạnh
đó, các giải thuật biểu diễn nhận dạng hoạt động cử chỉ đã được nghiên cứu cà thiết
kế với mục tiêu hiệu quả. Các kết quả đánh giá thử nghiệm chỉ ra rằng, phương pháp
tương tác này tự nhiên hơn và không yêu cầu bất cứ liên kết trực tiếp với thiết bị cũng
1
như không yêu cầu phải có giao diện người dùng. Hệ thống đề xuất tối đa khả năng sử
dụng thông qua công cụ nhận dạng cử chỉ tay và cung cấp hệ thống điều khiển nhiều
thiết bị điện gia dụng với đáp ứng thời gian thực.
Mục tiêu của luận án
❼ Thiết kế tập cơ sở dữ liệu (CSDL) cử chỉ bàn tay tương ứng với một số các lệnh
điều khiển căn bản cho các thiết bị điện tử gia dụng. Ngoài ra, CSDL này có các
đặc trưng hỗ trợ hệ thống nhận dạng đạt được hiệu quả nhận dạng cao.
❼ Nghiên cứu và triển khai giải thuật phân đoạn cử chỉ bàn tay đáp ứng thời gian
thực, bền vững với sự thay đổi của các yếu tố bên ngoài (ánh sáng,...): Nghiên
❼ Mở đầu: Giới thiệu chung tính cấp thiết, mục tiêu của luận án; ngữ cảnh, các
ràng buộc và thách thức khi giải quyết các bài toán; Các đóng góp của luận án.
2
❼ Chương 1: Tổng quan về điều khiển sử dụng cử chỉ bàn tay và các nghiên cứu
liên quan đến các vấn đề đặt ra trong luận án.
❼ Chương 2: Thiết kế và xây dựng cử chỉ bàn tay có tính chất chu kỳ.
❼ Chương 3: Đề xuất phương pháp phát hiện, phân đoạn cử chỉ bàn tay đáp ứng
yêu cầu thời gian thực và độ chính xác. Phân đoạn chuỗi cử chỉ tay động từ chuỗi
liên tiếp các hình trạng bàn tay.
❼ Chương 4: Đề xuất giải pháp biểu diễn các cử chỉ động của bàn tay kết hợp các
đặc trưng không gian và thời gian, giải pháp đồng bộ pha trong không gian mới.
❼ Chương 5: Triển khai, đánh giá hệ thống điều khiển sử dụng cử chỉ tay. Thực
hiện các đánh giá thử nghiệm trên hệ thống hoàn thiện.
❼ Kết luận và định hướng nghiên cứu tiếp theo của luận án.
CHƯƠNG 1
CÁC NGHIÊN CỨU LIÊN QUAN
Chương này trình bày về các nghiên cứu liên quan đến hệ thống điều khiển thiết
bị điện tử gia dụng dùng cử chỉ động của bàn tay và các phương pháp nhận dạng cử
chỉ động của bàn tay với các pha chính gồm: Phát hiện và trích chọn vùng bàn tay
trong ảnh, phân đoạn và nhận dạng các cử chỉ động của bàn tay từ chuỗi ảnh liên tiếp.
Phương pháp phân đoạn cử chỉ động của bàn tay
Đối với các hệ thống nhận dạng cử chỉ động của bàn tay, việc xác định điểm bắt
đầu và kết thúc chuỗi cử chỉ tương ứng với một ứng viên của một cử chỉ nào đó, là
việc làm cần thiết trước khi đưa vào biểu diễn và nhận dạng cử chỉ. Các phương pháp
phân đoạn hiện tại thường chia thành hai loại: Sử dụng các mô hình và sử dụng các
tín hiệu đặc trưng. Hướng tiếp cận sử dụng các mô hình thường gặp phải một số giới
hạn chế sau: Các hệ thống yêu cầu một ngưỡng các tham số mô hình trong quá trình
huấn luyện và khó thay đổi hệ thống khi thêm hoặc bớt cử chỉ. Hơn nữa, cần thiết
phải định nghĩa các cử chỉ có nghĩa và tập cử chỉ thông thường, trong khi có rất nhiều
các cử chỉ thông thường. Ngoài ra, khi sử dụng mô hình thường có thời gian trễ lớn và
điều đó thực sự thách thức khi triển khai các hệ thống thực.
Hướng tiếp cận dựa trên các dạng tín hiệu đặc trưng của các cử chỉ tay thường là:
Sự chuyển động, vận tốc, gia tốc của bàn tay,... Hướng tiếp cận này thường đạt được
tốc độ đáp ứng nhanh với giải thuật đơn giản. Tuy nhiên, các cử chỉ tay phải thiết kế
sao cho đảm bảo được đặc trưng khác biệt và/hoặc sử dụng thêm các thiết bị phụ trợ
để đo chính xác sự thay đổi của cử chỉ tay.
1.4
Phương pháp nhận dạng cử chỉ động của bàn tay
Các phương pháp nhận dạng cử chỉ động hiện nay đang gặp một số giới hạn như:
Các mô hình cần phải cài đặt, thiết lập lại tham số khi cần thêm hoặc bớt cử chỉ. Giải
pháp đạt được độ chính xác thì yêu cầu độ phức tạp tính toán và thời gian đáp ứng
cao. Các mô hình nhận dạng như HMM hay CRF, CNN thường yêu cầu số lượng dữ
liệu huấn luyện lớn. Đặc biệt, phương pháp sử dụng mạng nơ ron yêu cầu cấu hình
máy tính cao hoặc máy tính phải có GPU.
1.5
tay mới có tính chu kỳ.
2.1
Các CSDL cử chỉ động của bàn tay đã có
Các bộ CSDL cử chỉ động của bàn tay đã được đề xuất tồn tại một số giới hạn
nhất định như: Phục vụ cho một ứng dụng chuyên biệt, pha trộn lẫn giữa các cử chỉ
tĩnh và động, số lượng các cử chỉ hạn chế chỉ ở lệnh bật/tắt thiết bị, hoặc các CSDL
không được công bố cho cộng đồng nghiên cứu.
2.2
2.2.1
Thiết kế CSDL cử chỉ động có tính chu kỳ
Các lệnh điều khiển các thiết bị điện tử gia dụng cơ bản
Bảng 2.1 Các lệnh chính của các thiết bị điện tử gia dụng
Lệnh
Thiết bị
Tivi
Máy quay
Đèn
Điều hòa
Quạt
Lệnh 1/Bật-Tắt
Lệnh 2/Tăng
(-) Tiếng
Quay phải
(-) Thô
Chế độ
Đèn ngủ
Mỗi hộ gia đình thường có nhiều thiết bị điện tử gia dụng khác nhau như: Đèn,
quạt, tivi, điều hòa, cửa, loa đài, tivi,... Để có một hệ thống điều khiển sử dụng cử chỉ
tay một cách đồng bộ, rất cần thiết phải có một bộ CSDL cử chỉ tay có khả năng dùng
chung cho các thiết bị này. Để định nghĩa một bộ CSDL cử chỉ tay phục vụ cho điều
khiển, phải xác định các lệnh gốc của thiết bị cần điều khiển, ý nghĩa lệnh và cách
5
thực hiện gợi nhớ đưa ra từ nhà sản xuất. Sau đó, Các cử chỉ tay thường được định
nghĩa sao cho có sự tương ứng với ý nghĩa của lệnh, đồng thời có tính gợi nhớ để dễ
sử dụng thường xuyên, lâu dài. Cuối cùng, gán các cử chỉ tay với các lệnh gốc. Trong
nghiên cứu này, năm lệnh được định nghĩa và mô tả như trong Bảng. 2.1.
2.2.2
Định nghĩa CSDL
Năm lệnh cơ bản thường được sử dụng gồm: bật/tắt, tăng(kênh), giảm(kênh),
tăng(tiếng), giảm(tiếng). Mỗi lệnh thực hiện có ba pha chính là pha chuẩn bị, pha
thực thi và pha kết thúc. Trong pha thực thi, bàn tay không những thay đổi hình
trạng mà còn dịch chuyển theo ba trạng thái gồm: khởi động, trung gian/chuyển động
và kết thúc. Sự thay đổi hình trạng của bàn tay có tính chu kỳ từ lúc đóng tay sau đó
mở tay và đóng tay lại như mô tả trong Hình. 2.1.
Middle
Stop
Middle
Decrease
Stop
Next
Back
Hình 2.1 Sự thay đổi hình trạng tay và quỹ đạo của các cử chỉ tay định nghĩa
2.2.3
Đặc điểm của CSDL
x
x (t ) = x (t + T )
x(t)
x(t+T)
time
t
Stop
Move
t+T
nhau là không giống nhau do tốc độ thực hiện của mỗi người, và/hoặc hướng
chuyển động của bàn tay trong mỗi lệnh không giống nhau.
- Các cử chỉ trong cùng một lớp có thể không đồng bộ về pha với nhau. Trong mỗi
lớp, các trạng thái của một loại cử chỉ có thể không đồng bộ.
2.3
Thu thập CSDL
Từ năm cử chỉ đã định nghĩa, bốn bộ CSDL đã được thu thập tại các môi trường,
ngữ cảnh khác nhau phông nền gồm MICA1, MICA2, MICA3, MICA4. Đặc điểm của
các bộ CSDL thể hiện chi tiết trong Bảng 2.2 sau đây:
Bảng 2.2 Đặc điểm của các CSDL
CSDL
Đặc điểm
Số lượng người
Môi trường
Điều kiện nền
Nhiễu
Số vị trí
Khoảng cách (m)
2.4
MICA1
MICA2
MICA3
Ít
13
1.5->3
Thảo luận và kết luận
Sau khi khảo sát các tập CSDL đã được công bố cũng như xuất phát từ yêu cầu
của bài toán điều khiển thiết bị điện gia dụng, một CSDL mới đã được định nghĩa.
CSDL bao gồm năm lệnh, tương ứng với các lệnh cơ bản nhất để điều khiển hầu hết
các thiết bị điện gia dụng. Tập CSDL đề xuất bao gồm các chuỗi cử chỉ tay có tính
chất chu kỳ đóng, dễ nhớ, và dễ thực hiện. Bốn bộ CSDL đã được thu thập tại các môi
trường khác nhau, với các điều kiện phông nền khác nhau, đa dạng độ tuổi và giới tính
của người tham gia thu thập. Các bộ CSDL được chia sẻ cho cộng đồng nghiên cứu.
CHƯƠNG 3
TRÍCH CHỌN BÀN TAY VÀ PHÂN ĐOẠN CỬ CHỈ
ĐỘNG VỚI GIẢN ĐỒ HỌC NGƯỜI DÙNG
3.1
Mở đầu
Tương tác người máy thông qua cử chỉ bàn tay được xem như một trong những
cách thức tương tác tự nhiên và thân thiện. Tuy nhiên, cách thức điều khiển này phải
7
đối mặt với khá nhiều thách thức như sự phức tạp và luôn biến đổi của cấu trúc bàn
tay, điều kiện chiếu sáng khác nhau, điều kiện phông nền phức tạp. Vì vậy, các thuật
Detecting body
area
Hand detected and
Segmented
Detecting hand
candidates
Depth
image
Pruning hand
Learning parameters
(d±∆) of a distance to
hand
Learning parameters
(µ,δ) ,η of background
model
Learning
parameters (µ,δ)
of skin model
(b) The proposed user-guide scheme
Hình 3.1 Minh họa hệ thống đề xuất phát hiện và trích chọn bàn tay.
- Tiền xử lý: Do ảnh I và D thu thập từ cảm biến Kinect không có cùng tọa độ.
Sử dụng mô hình GMM [6] để quan sát sự ổn định của mỗi điểm ảnh p trên
một chuỗi n ảnh độ sâu: sp = [D1,p , D2,p , ..., Dn,p ]. Tham số quan sát là độ lệch chuẩn
σp = std(sp ) của điểm ảnh. Trong đó, điểm ảnh p của mô hình nền được biểu diễn bởi
BGp = (µp , ηp , σp ), được tính toán như sau:
❼ Mô hình nhiễu ηp :
0
255
ηp =
if σp < τ
otherwise
(3.4)
❼ Giá trị trung bình µp :
n
t=1
µp =
(a) RGB image
Dt,p
if σp < τ
Dt,p |Dt,p
Dhand = Dt,t−1 ∩ Dt−2,t−1
3.2.3.3
(3.6)
Học tham số màu da vùng bàn tay
Sự ổn định của phân bố màu da xác định dựa trên tương quan chéo của hai biểu
đồ màu da bàn tay của các khung hình liên tiếp nhau t , với ∆t = | t − t−1 |. Hình
3.4(d) cho thấy tích lũy sai số N1 N
t=1 ∆t từ khung hình 1 đến N. Giá trị này tăng dần
tương ứng với sự sai khác khi vùng màu da còn biến động do tay chưa đặt đúng vị trí.
Cho đến một khi sai số dao động quanh một giá trị nhất định tương ứng của màu da
của người thì việc học có thể dừng lại.
9
(a)
(b)
-
(c)
-
=
(d)
40
(d) Accumulation of ∆ along frames
Hình 3.4 Huấn luyện mô hình màu da
3.2.4
Phát hiện và tinh chỉnh kết quả vùng bàn tay dựa trên giản đồ học
Hi
ROIi
H*
(a) A candidate of
hand
(b) Mahalanobis
distance
(c) Hand detection
Hình 3.5 Kết quả của trích chọn vùng bàn tay. (a) Ứng viên vùng bàn tay; (b) Khoảng
cách Mahalanobis; (c) Kết quả tinh chỉnh.
Từ vùng ứng viên của bàn tay Hi được mở rộng với H ∗ = Hi × δ (Hình chữ nhật
màu xanh ở Hình 3.5(a)). Sau đó, khoảng cách Mahalanobis giữa H ∗ và mô hình màu
da được tính toán để trích chọn vùng bàn tay như hình 3.5(b). Vùng bàn tay được làm
đầy với phần màu da bị thiếu và với vùng ứng viên của bàn tay không trùng với màu
da sẽ được loại bỏ. Sau khi làm mượt thì kết quả thu được là H ∗∗ ) như minh họa trong
hình 3.5(c).
3.3
fC
0.6
0.4
ܵ
ݕ
ܵାଵ
ݕ
ܶ݅݉݁ሺܶାଵ ሻݐ݁݉ܽݎ݂݂ାଵ
ܶ݅݉݁ሺܶ ሻݐ݁݉ܽݎ݂݂
(a) Hand movements in time
0.2
0
0
10
20
30
40
50
60
150
200
250
300
350
400
1.0
0.8
0.6
0.4
0.2
Ground Truth
0
0
20
Ground Truth
40
Ground Truth
Ti+1 − Ti
(3.8)
Hàm fC (t) kết hợp hai tín hiệu fC (t) = (fS (t), fV (t)) như sau:
fC (t) = M ax(||fS (t)||, ||fV (t)||)
11
(3.9)
Sau đó, hàm fC (t) được sử dụng để phát hiện điểm bắt đầu và kết thúc của cử
chỉ động của bàn tay như minh họa trong hình 3.7.
3.4
Các kết quả thử nghiệm
Mười người được mời tham gia đánh giá thử nghiệm hệ thống phát hiện và trích
chọn vùng bàn tay. Mỗi người đều được thực hiện với kịch bản có sẵn như nhau gồm:
học các tham số, thực hiện thử nghiệm. Các kết quả về thời gian học, thời gian đáp
ứng, độ chính xác của hệ thống được ghi lại để phân tích và đánh giá.
3.4.1
Yêu cầu thời gian học đối với người dùng
3.4.2
Thời gian đáp ứng để trích chọn và nhận dạng vùng bàn tay
9
10
121
157
144
147
149
141
142
125
135
58.2
63.1
64.8
61.3
3.4.4
86.7
87.6
89.5
88.9 90.4 84.8
87.98 ± 2.58 %
Hiệu quả của giải pháp phân đoạn cử chỉ động bàn tay
False alarm rate
Area
False alarm rate
Combination
1
1
0.8
0.8
0.6
0.85
0.9
0.95
1
True positive rate
True positive rate
(a) Spotting results of MICA1 dataset
(b) Spotting results of MICA2 dataset
Hình 3.8 Kết quả phân đoạn chuỗi cử chỉ động trên CSDL MICA1 và MICA2
12
3.5
Thảo luận và kết luận
Chương này đã trình bày các phương pháp cho phép phát hiện vùng bàn tay và
phân đoạn cử chỉ động từ ảnh RGB-D. Phương pháp phân vùng dữ trên việc học trước
một số tham số của môi trường. Làm cho hệ thống khi hoạt động sẽ đáp ứng nhanh
hơn và bền vững để phát hiện, trích chọn vùng bàn tay. Phương pháp phân đoạn dựa
trên việc phân tích sự thay đổi của hàm tín hiệu vận tốc và diện tích của hình trạng
ISOMAP
PCA
Representation
RMSE
SpatialTemporal
Space
Phase
Synchrolization
Dynamic Hand Gesture Representation
3D-CNN
Representation
RBF SVM
Linear SVM
Recognition schemes
Recognition
K_NN
Recognition
Gesture label
K
xji
K
i=1
,
K
yij
)
(4.2)
Quỹ đạo trung bình biểu diễn hướng dịch chuyển của cử chỉ tay. Đây chính là
G
G
đặc trưng thời gian T rN
trích chọn từ chuỗi các khung hình liên tiếp G (T rN
=
[p1 , p2 , ..., pK ]) như (4.3):
G
T rN
= {(x1 , y1 ), (x2 , y2 ), ..., (xN , yN )}
(4.3)
T rN
i,j ]
(4.5)
G∗
T rN
= [p1j − (x, y), p2j − (x, y), ..., pN
j − (x, y)]
(4.6)
4.2.1.2
Trích chọn đặc trưng không gian sử dụng kỹ thuật suy giảm tuyến tính
4.2.1.3
Trích chọn đặc trưng không gian sử dụng kỹ thuật đa tạp
Kỹ thuật ISOMAP được áp dụng để suy giảm số chiều phi tuyển. Mục đích nhằm
khai thác các cấu trúc phi tuyến tiềm ẩn của cấu trúc lớp dữ liệu. Hình. 4.3. Thực
nghiệm cho thấy, với dữ liệu cử chỉ động bàn tay như định nghĩa, chỉ cần ba chiều là
14
(0,0)
x
1
0.14
On_off
0.12
Up
Down
0.1
Left
Right
0.5
Residual variance
0
-0.5
0.08
0.06
-1
0.04
4
x 10
0
1
2
3
4
5
6
7
Isomap dimensionality
8
9
10
b. Residual presentations
Hình 4.3 a) Biểu diễn 05 cử chỉ tay trong không gian đa tạp 3 chiều.
4.2.2
4.2.2.1
Y1
0
-20
Y1
0
-50
150
0
-50
150
-150
100
100
-100
50
50
-50
150
0
Y1
0
-20
-150
-50
150
x
100
-50
100
50
50
0
x
0
y
100
50
0
-50
50
-50
-100
50
-150
-100
0
x
0
-50
0
-50
150
-100
150
10
12
9
1
220
11
19
813
14
19
150 19
911
11
211
13
14
19
13
12 111
112
10
911
10
8
10
18
10
934 13
12
13
19
10
10
3119820
10
11
10
12
15
16
11
13
1
9
2019
220 811
64912
8
9
2
8
3
10
13
10
11
14
2
18
10
911
712
12
711
18
13
20
218
1
11
16
20
18
12
318
12
911
1
7
2
13
710
11
20
1820
814
1816
20
14
8
8
7
18
11
27
1
11
13
18
517
15
4
2
11
10
15
15
19
12
20
12
44
18
13
17
412
11
6
2
018
13
978
118
910
11
3
12
10
13
12
12
20
5
2
6
9
10
11
13
6
12
812
19
13
1
1
37
47
91
20
2
13
10
11
19
17
311
19
27
712
113
8
1
19
20
20
14
20
13
12
6
10
1
8
16
1
20
10
1
15
13
13
9
10
10
14
5
114
813
6
16
814
619
20
9
15
15
13
514
8915
714
3916
2320
514
18
119
63
49
18
715
2
4
15
812
7
620
7
20
18
19
17
88
7
6
14
19
16
15
14
8910
16
16
19
15
9
20
14
5
18
2
28
16
18
14
17
6
12
2
14
17
19
217
3
13
20
5
7
16
14
67
12
17
215
0331521 1
13
17
17
6
8
3
20
16
13
20
15
7
12
8
7
9
13
5
5
4
216
11
3
20
3
7
5
34
9
3
9
17
16
10
115
19
16
7
16
13
10
3
417
15
20
18
118
5
7
12
14
6
15
17
10
8
14
17
2
17
15
6
17
15
17
6
1
16
4
6
7
6
5
7
19
17
16
6
2
16
4
5
4
16
17
14
1
6
14
6
4
17
12
16
3
5
18
1
1
14
10
16
17
20
2
13
13
5
4
2
1
15
15
16
1
2
3
16
20
19
15
18
19
18
17
5
17
5
6
3
16
16
9
15
15
719
18
19
417
17
13
19
7
20
617
16
6
6
3
416
12
3
16
13
816
12
16
15
9
97
14
14
20
6
6
1
12
15
3
5
7
15
5
16
6
4
17
3
18
17
15
20
4
16
16
19
16
6
619
17
2
3
2
417
18
1
5
4
18
11
219
15
16
13
7
6
18
14
14
5
7
11
5
5
17
16
315
17
16
4
16
41
20
17
64
16
7
16
2
3
315
5
18
13
66
16
18
5
5
7
4
13
4
8
4
16
12
16
1
18
420
17
13
7
20
8
3
1
6
13
1
14
4
4
5
15
17
16
17
18
20
14
6
11
17
16
04
4
16
19
15
18
217
3
415
7
17
12
18
16
1
618
2
10
8
19
617
915
14
6
15
0
316
2
3
13
2
18
17
118
219
17
4
18
19
16
6
4
20
218
119
1
18
19
15
7
6
7
7
5
7
6
20
18
15
19
3
12
2
16
3
8
20
2
18
8
1
5
20
16
3
1
818
123519
19
17
16
1
13
1
16
15
7
18
7
5
16
16
2
14
5
15
89
53
14
17
4
13
12
63
3
1
16
18
219
19
19
20
15
15
14
2
89
17
17
2
14
75
6
9
12
8
13
82
13
214
16
3
19
4
18
20
19
18
1
218
17
14
16
17
18
1
019
20
913
813
19
6
17
13
13
13
526
8
14
714
4
19
5
6
17
720
17
7
1
19
7
6
05
9
118
19
19
18
13
18
5
6
3
14
17
12
20
213
20
19
20
16
5
2
55
10
10
1
6
1
11
13
10
2
20
20
13
20
13
8
712
17
13
11
7
6
13
1
2
1
14
10
18
6
110
38
14
6
8
12
10
7
1
2
42
17
92
12
1
20
10
57
9
13
12
18
810
8
1
20
12
4
8
16
6
613
1
118
2
19
219
19
2219
20
6
12
12
15
715
719
12
2
3
1
1 11
12
85
2
7
12
12
14
13
9
1
14
7
0210
10
9
10
20
988
6
12
10
8
11
14
910
20
111
92
10
10
18
2
9718
8
13
9
8
83
3319
11
12
11
18
10
1
12
9
10
65 5
11
810
12
911
14
13
12
810
13
11
12
9
12
10
14
10
910
6
12
8811
13
11
10
9
10
110
9810
117 14
12
20
8 10
8 19 12
912
11
10
12
y
b. 37 Increase gestures
-150
150
100
-50
-50
0
100
a. 40 Turn On_off gestures
0
x
-150
-100
50
y
-150
... YN,1
... YN,2
... YN,3
(4.8)
Phân tích pha của các cử chỉ có tính chu kỳ
Cử chỉ động có N cử chỉ tương ứng với N hình trạng trong không gian đa tạp nằm
trên một đường cong đóng, mỗi hình trạng được coi như pha của tín hiệu cử chỉ động
như trong Hình. 4.5.
(P10,s10)
Y1
si >
(P9,s9)
(P11,s11)
10
60
(P12,s12)
40
-20
(P3,s3)
(P4,s4)
si =
The most
different frames
-40
-150
2π T
N
b) Quasi closed-form gesture c) Quasi closed-form gesture
7
(P5,s5)
2
si
0
x
50
100
150
d) Ideal closed-form gesture
a. Closed-form gesture in new space
Hình 4.5 Biểu diễn đa tạp của cử chỉ tay động “Tiếp theo" trong không gian đề xuất
4.2.3.3
Đồng bộ pha với phương pháp nội suy
Một giải pháp nội suy được triển khai để đồng bộ các chuỗi cử chỉ động của bàn
tay nhằm đưa các chuỗi về cùng một kích thước trong không gian mới. Giải pháp đề
16
The most
similar frames
si =
(a) Quasi close-form gesture
xuất được thực hiện với hai trường hợp: (1) Nội suy giữa cặp hai cử chỉ liên tiếp khác
nhau nhất, (2) loại bỏ bớt một cử chỉ giữa hai cử chỉ tương tự nhau nhất như minh
họa trong Hình. 4.6(a). Gọi M là kích thước của chuỗi của chỉ tay mong muốn, từ cử
chỉ tay GT S = {P1 , P2 , ..., PN } tại (t1 , t2 , ... , tN ), véc tơ khoảng cách GT S được tính
toán bởi Dinter = {di ; (i = 1, ..., N − 1)}. Các khoảng cách này được tính bằng khoảng
cách Ơ cờ lít di = ||Pi − Pi+1 ||2 giữa hai cử chỉ tay liên tiếp Pi và Pi+1 .
Khi cử chỉ động có N cử chỉ, kích thước mong muốn là M và N < M . Khoảng
cách lớn nhất được xác định từ véc tơ Dinter (dmax = max(Dinter )), minh họa trong
Hình. 4.6(c). Điểm xa nhau nhất được nội suy với điểm P ∗ (4.9) được chèn vào giữa.
Quá trình nội suy được lặp lại cho đến khi kích thước của chuỗi cử chỉ mới bằng M :
P∗ = [
xi+1 − xi yi+1 − yi Yi+1,1 − Yi,1 Yi+1,2 − Yi,2 Yi+1,3 − Yi,3 T
,
,
,
,
]
2
2
2
2
2
(4.9)
Khi N > M , véc tơ khoảng cách nhỏ nhất được tính toán giữa hai cử chỉ tay gần
nhau nhất Dinter (dmin = min(Dinter )). Phép loại trừ một điểm từ hai điểm gần nhau
nhất được thực hiện như (4.10). Quá trình này được lặp lại cho đến khi chuỗi cử chỉ
tay mới có kích thước bằng M :
Trong phần này, các đánh giá được thực hiện bao gồm: Độ chính xác của hệ thống
đề xuất khi điều chỉnh hệ số nội suy của chuỗi cử chỉ M , điều chỉnh tham số của bộ
17
phân lớp SVM, và độ chính xác nhận dạng sử dụng giá trị tối ưu của hệ số M , so sánh
đánh giá độ chính xác nhận dạng với các đặc trưng riêng lẻ và kết hợp, so sánh hiệu
năng của giải pháp đề xuất trên các bộ CSDL khác nhau.
Hiệu quả của hệ thống khi điều chỉnh hệ số nội suy
100
Recall
(%)
MICA1
96
94
92
90
88
86
84
82
80
98
96
94
75
0
70
8 10 18 30 40 60 80 100
Temporal resolution value
8
10 18 30 40 60 80 100
Temporal resolution value
8
9
10
15
18
25
30
35
40
50
60
70
80
90
100
80
80
60
60
40
40
20
20
0
0
MICA 1
MICA 2
Dataset
MICA 3
MICA 1
MICA 4
MICA 2
20
0
1
2
3
4
5
6
7
8
9
10
11
12
Positions (differences in distance and direction to Kinect)
13
Hình 4.9 So sánh hiệu quả của một số giải pháp nhận dạng khác nhau
4.3.4
Đánh giá hiệu quả trên các bộ CSDL khác nhau
18
Bảng 4.1 Hiệu quả của giải pháp đề xuất trên ba CSDL khác nhau
CSDL
Mở đầu
Chương này trình bày quá trình triển khai một hệ thống điều khiển các thiết bị
điện gia dụng sử dụng cử chỉ tay đã định nghĩa. Hệ thống điều khiển các hoạt động
thông thường của thiết bị điện gia dụng như bật/tắt, tăng/giảm cường độ sáng của
đèn cũng như các hoạt động của đèn. Hệ thống cho phép người dùng tương tác một
cách tự nhiên và thuận tiện mà không yêu cầu giao diện người dùng.
5.2
5.2.1
Triển khai hệ thống điều khiển sử dụng cử chỉ tay
Ánh xạ các cử chỉ tay với tập lệnh
Để ánh xạ giữa tập lệnh đã định nghĩa với các chế độ của thiết bị, sáu trạng thái
hoạt động của đèn tương ứng với sáu mức sáng (0 % - Đèn tắt, 20%, 40%, 60%, 80%,
100% cường độ sáng) được thực hiện. Tương tự như vậy, với sáu chế độ hoạt động của
quạt như Bật/Tắt, thay đổi ba tốc độ quay của quạt, đèn ngủ của quạt, và chuyển
hướng. Các lệnh được thực hiện thông qua năm cử chỉ tay đã định nghĩa (G={Bật/Tắt,
Tăng, Giảm, Tiếp theo, Quay lại}).
19
5.2.2
Các chế độ hoạt động của hệ thống điều khiển sử dụng cử chỉ tay
Giản đồ biểu diễn các chuyển trạng thái được mô tả như trong Hình. 5.1.
Decrease
/Speed 3
(60%)
Back
Next
Back
Level 4
/Speed 4
(80%)
Next
Back
Level 5
/Speed 5
(100%)
Turn on_off
Turn on_off
Hình 5.1 Giản đồ trạng thái của hệ thống điều khiển đèn/quạt.
5.2.3
Triển khai hệ thống điều khiển
Zig-bee
HUE
Philip HUE Lamp
khác nhau trong tầm nhìn thấy ở phía trước của cảm biến Kinect được đánh dấu.
5.3.1
Thiết lập ngữ cảnh
5.3.2
Cài đặt môi trường
5.3.3
Xây dựng kịch bản
5.3.4
Các đánh giá thử nghiệm
5.3.4.1
Đánh giá chi phí thời gian của toàn bộ hệ thống trong môi trường thực
Tổng thời gian kể từ bước xử lý dữ liệu đầu vào cho đến khi ra lệnh quyết định
chỉ khoảng thời gian là 969.292ms. Thời gian kể từ khi người dùng kết thúc lệnh, sau
20
Starting a gesture
Ending a gesture
ms
Recognition
0.672േ0.013
ms
Hình 5.3 Chi phí thời gian của toàn bộ hệ thống tương tác bằng cử chỉ tay.
khoảng thời gian 113.662 ms thì hệ thống sẽ phát lệnh điều khiển. Thời gian này là
khá ngắn và phù hợp để triển khai các ứng dụng thực tế.
5.3.4.2
Đánh giá hiệu quả của hệ thống phát hiện và nhận dạng
Độ triệu hồi, độ chính xác và độ đo F1 của toàn hệ thống được tính toán. Kết quả
được mô tả như trong Bảng. 5.1 sau đây:
Bảng 5.1 Độ chính xác (%) của hệ thống thực hiện với 05 lệnh điều khiển
Độ đo
Cử chỉ
Bật/Tắt
Tăng
Giảm
Tiếp theo
Quay lại
Trung bình(%)
5.3.5
Độ chính xác(%)
16.66
3
4
Yes
5
91.67
(a) % Users agreements (Yes/no)
on using hand to control appliances
8.33
16.66
8.33
9
(c) Overall users’
satisfactions
10
5
6
41.66
25
16.66
(e) Assessments on
responding time
(d) Users’ feeling on
the interaction way using hand
Hình 5.4 Đánh giá của người dùng đối với hệ thống.
21
5
6
7
8
9
More satisfied
8.33 16.66
5.4
Thảo luận và kết luận
Chương này đã trình bày cách thức triển khai và đánh giá một hệ thống điều
khiển 02 thiết bị điện gia dụng (đèn, quạt) sử dụng cử chỉ động của bàn tay. Kết quả
cho thấy giải pháp đề xuất từ bộ CSDL định nghĩa đến giải pháp phát hiện, nhận dạng
không gian được biểu diễn trong một không gian có số chiều thấp sử dụng
kỹ thuật đa tạp. Hơn nữa, LATS cũng đã đề xuất một phương pháp nội suy
để giải quyết các vấn đề liên quan đến sự biến động về pha của các cử chỉ
22
do sự sai khác về vận tốc thực hiện cử chỉ, độ dài của cử chỉ và tốc độ lấy
mẫu của cảm biến. Cuối cùng giải thuật học máy SVM được sử dụng để
thực hiện phân lớp các cử chỉ.
❼ Triển khai, cài đặt, đánh giá hệ thống điều khiển đèn và quạt trong môi trường
nhà thông minh tại Viện MICA và hội chợ triển lãm KHCN của trường ĐHBK
Hà Nội với nhiều người dùng khác nhau.
Bên cạnh những đóng góp trên, LATS vẫn còn một số hạn chế sau:
❼ Hiện tại, tập cử chỉ gồm năm cử chỉ có tính chu kỳ để điều khiển một số chức
năng chính của hầu hết các thiết bị trong nhà. Tuy nhiên, tập cử chỉ còn hạn chế
về mặt số lượng.
❼ Thông tin độ sâu đã được sử dụng để tách biệt vùng bàn tay khỏi người và nền.
Do độ phân giải trong cảm biến độ sâu của Kinect còn hạn chế, không tin cậy
ở những khoảng cách xa (>3m), đặc biệt độ sâu không đo được ở khoảng cách
gần (0.8m) hoặc quá xa (4m). Vì vậy, phương pháp đề xuất không hiệu quả khi
người dùng đứng quá gần hoặc quá xa cảm biến Kinect.
❼ Việc biểu diễn cử chỉ động của bàn tay dựa trên thông tin màu mà chưa khai
thác thông tin độ sâu thu được từ cảm biến Kinect.
❼ Mặc dù phương pháp biểu diễn cử chỉ được chứng minh bằng thực nghiệm là bền
vững so với một số phương pháp đã có, hiệu quả của phương pháp đề xuất vẫn