Tóm tắt luận văn thạc sỹ ngành khoa học máy tính nghiên cứu kỹ thuật nhận dạng bàn tay người - Pdf 24


HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

LÊ VIỆT DŨNG

NGHIÊN CỨU KỸ THUẬT NHẬN DẠNG BÀN TAY NGƯỜI
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học:
PGS. TS. Ngô Quốc Tạo

giao tiếp chủ yếu bởi “nghe” và “nhìn”, do đó một giao diện
người – máy sẽ trực quan hơn nếu con người có thể điều khiển
máy tính bằng giọng nói hay cử chỉ giống như khi tương tác
giữa người với người trong thế giới thực mà không cần thông
qua các thiết bị điều khiển khác như chuột hay bàn phím. Một
ưu điểm khác là người dùng có thể giao tiếp từ xa mà không
cần phải có tiếp xúc vật lý với máy tính. So với các hệ thống
điều khiển bằng lệnh âm thanh, một hệ thống thị giác sẽ thích
hợp hơn trong môi trường ồn ào hoặc trong trường hợp âm
thanh bị nhiễu.
Nhận dạng các cử động của tay người là cách tự nhiên
khi tương tác người – máy và ngày nay nhiều nhà nghiên cứu
trong các học viện và ngành công ghiệp đang quan tâm đến
2
hướng này. Nó cho phép con người tương tác với máy rất dễ
dàng và thuận tiện mà không cần phải mang thêm bất kỳ thiết
bị ngoại vi nào. Với mục đích nghiên cứu kỹ thuật nhận dạng
cử chỉ bàn tay người, luận văn sẽ tập trung trình bày một số nội
dung chính như sau.
Chương 1: Tìm hiểu tổng quan về bài toán nhận
dạng hình ảnh cử chỉ bàn tay người và các ứng dụng
trong thực tế.
Chương 2: Trình bày về một số kỹ thuật tiền xử lý
ảnh bao gồm phân đoạn ảnh và kỹ thuật lọc hình thái để
phục vụ cho trích chọn đặc trưng. Kỹ thuật phân đoạn sẽ
chuyển đổi ảnh về ảnh nhị phân chỉ chứa bàn tay hoặc
nền. Kỹ thuật lọc được sử dụng để loại bỏ nhiễu từ ảnh
để có thể thu được đường bao mịn màng.
Chương 3: Trình bày về một số kỹ thuật trích chọn
đặc trưng để phục vụ cho bài toán nhận dạng hình ảnh cử

tự tay nhấn nút trên bộ điều khiển. Để làm được điều này, bộ
điều khiển của các thiết bị phải được gắn một thiết bị cảm nhận
(camera/webcam), thiết bị cảm nhận này sẽ thu nhận hình ảnh
của bàn tay, nhận dạng cử chỉ để phát lệnh điều khiển tương
ứng. Ngoài ra, nhận dạng cử chỉ còn có rất nhiều ứng dụng
khác: cử chỉ bàn tay được sử dụng để giả lập các thao tác tương
tác với đối tượng trong thế giới ảo; trong tương tác giữa người
và robot, cử chỉ bàn tay chính là ngôn ngữ để con người và
robot có thể giao tiếp với nhau.
Để nhận dạng cử chỉ, bước đầu tiên trong các hệ thống
nhận dạng là phát hiện ra vị trí bàn bay bằng một thiết bị cảm
nhận để thu thập các quan sát cần cho việc phân loại hay miêu
tả; sau đó tiến hành xử lý hình ảnh, trích chọn đặc trưng
(feature extraction) để tính toán các thông tin dưới dạng số hay
dạng biểu tượng (symbolic) từ các dữ liệu quan sát và thực hiện
công việc phân loại dựa vào các đặc tính đã được trích chọn để
nhận dạng cử chỉ. Đó chính là nhiệm vụ của bài toán nhận dạng
cử động của bàn tay. Các cử động của bàn tay được phát hiện
dựa trên tập dữ liệu về bàn tay được thu thập từ trước. Hai
5
hướng tiếp cận chính để thu nhận thông tin về bàn tay người có
thể sử dụng là:
 Dùng găng tay chuyên dụng với bộ cảm biến gắn
liền đo vị trí của các khớp ngón tay.
 Phương pháp quang học.
1.2. Cử chỉ bàn tay
Thật khó có thể giải quyết với một định nghĩa cụ thể
nào của cử chỉ do có nhiều ứng dụng đề xuất và mỗi ứng dụng
chỉ có thể chỉ xác định trên một miền cụ thể của cử chỉ.
Bobick và Wilson đã định nghĩa cử chỉ như những

thuyết đầu tiên của ngôn ngữ ký hiệu xuất hiện trong lịch sử.
Nó đã bắt đầu trước khi có sự xuất hiện của ngôn ngữ nói.
7
1.4. Những thách thức trong nhận dạng cử chỉ bàn tay
1.4.1 Tốc độ nhận dạng
Để nhận dạng cử chỉ bàn tay có thể tương tác được với
người dùng trong thực tế thì hệ thống này phải có thời gian
nhận dạng thời gian thực, tức là tốc độ xử lý phải nhanh.
1.4.2 Độ chính xác
Hiện nay, có nhiều hướng nghiên cứu về nhận dạng cử
động của bàn tay như sử dụng các phương pháp: Mô hình
Markov ẩn (Hidden Markov Models); Mô hình phân bố điểm
xấp xỉ tuyến tính thành phi tuyến (Linear approximation to
non-linear point distribution models); mô hình đối sánh/máy
trạng thái hữu hạn (Finite state machine/model matching); Đố
sánh mẫu nhanh (Fast template matching).

CHƯƠNG 2: MỘT SỐ KỸ THUẬT TIỀN XỬ LÝ
2.1. Giới thiệu
Tiền xử lý là nhiệm vụ quan trọng trong hệ thống nhận
dạng cử chỉ bàn tay tay. Tiền xử lý được áp dụng cho hình ảnh
trước khi chúng ta có thể trích chọn đặc trưng từ hình ảnh bàn
tay. Tiền xử lý bao gồm hai bước
8
 Phân đoạn
 Lọc hình thái
2.2. Phân đoạn ảnh dựa vào màu da
Phân đoạn ảnh là một thao tác ở mức thấp trong toàn bộ
quá trình xử lý ảnh. Quá trình này thực hiện việc phân vùng
ảnh thành các vùng rời rạc và đồng nhất với nhau hay nói cách

Quy trình phát hiện da gồm 2 giai đoạn: Huấn luyện và
phát hiện. Huấn luyện để nhận dạng được màu da dựa trên 3
bước cơ bản sau:
 Thu thập dữ liệu về da từ nhiều ảnh khác nhau của
nhiều người khác nhau và ảnh chụp trong các điều
kiện khác nhau.
 Lựa chọn một không gian màu thích hợp.
 Học các thông số về phân loại da.
10
Khi có bộ huấn luyện phát hiện da, tiến hành nhận dạng
các điểm ảnh có màu da từ ảnh:
 Chuyển đổi ảnh sang không gian màu được sử dụng
trong giai đoạn huấn luyện.
 Phân loại các điểm ảnh màu da hay không phải màu
da.
 Hoàn tất xử lý các đặc trưng cần sử dụng hình thái
học để áp đặt không gian thuần nhất trên các vùng
được phát hiện.
2.2.1 Phân tách vùng màu da
Thuật toán này dựa trên việc xây dựng mô hình phân
bố màu da có tham số. Ví dụ từ ảnh gốc (RGB) được chuyển
đổi sang không gian màu YC
r
C
b
. Một tập hợp các mẫu màu da
được lấy ra từ các ảnh màu nhằm xác định phân bố màu da
trong không gian màu YC
r
C



11
Trong đó: 









: là các vectơ mẫu màu da trích
chọn.
n : tổng số các mẫu màu da.


: vectơ trung bình của phân bố.




ma trận hiệp biến của phân bố.

Từ đó, để xác định một điểm ảnh có là màu da hay
không, ta tính toán hàm mật độ xác suất của điểm ảnh đó trong
phân bố Gaussian.








   



  






Kết quả quá trình phân lớp phân hoạch tập các điểm
ảnh thành 2 lớp: lớp các điểm ảnh có màu da và lớp các điểm
ảnh không phải màu da.
12
2.2.2 Phân loại dựa vào ngưỡng trên mỗi kênh màu
Với ảnh được chụp dưới điều kiện ánh sáng được kiểm
soát, màu da con người phân bố thành một vùng nhỏ trong
không gian màu. Để phát hiện điểm ảnh có màu da, ta cần định
nghĩa ngưỡng cho các thành phần của không gian màu. Mỗi
thành phần có thể có một hay nhiều giá trị ngưỡng, các điểm
ảnh có giá trị thuộc phạm vi xác định trước của tất cả các thành
phần được coi là các điểm ảnh có màu da.
Karin Sobottka và Loannis Pitas [15] sử dụng các
ngưỡng cố định trong không gian màu HS. Các điểm ảnh có


CHƯƠNG 3: NHẬN DẠNG HÌNH ẢNH CỬ CHỈ BÀN
TAY
3.1. Kỹ thuật trích chọn đặc trưng
3.1.1 Kỹ thuật phát hiện biên
Biên là một trong những đặc trưng quan trọng của ảnh,
nó được dùng để mô tả hình dạng của đối tượng khá hiệu quả.
14
Để biểu diễn hình dạng đối tượng dựa trên đường biên, trước
hết cần xác định biên của đối tượng và biểu diễn nó theo một
phương pháp nào đó.
3.1.1.1 Kỹ thuật phát hiện biên Gradient
Đây là phương pháp dò biên cục bộ dựa vào cực đại
của đạo hàm. Theo định nghĩa, Gradient là một vectơ 
có các thành phần biểu thị tốc độ thay đổi mức xám của điểm
ảnh theo hai hướng  và  (ảnh hai chiều

3.1.1.2 Kỹ thuật phát hiện biên Laplace
Để khắc phục hạn chế và nhược điểm của phương pháp
Gradient. Khi mức xám thay đổi chậm, miền chuyển tiếp trải
rộng, phương pháp cho hiệu quả hơn đó là phương pháp sử
dụng đạo hàm bậc hai Laplace.
Phương pháp Laplace tạo đường biên mảnh (độ rộng 1
pixel). Tuy nhiên, nhược điểm của kỹ thuật này là rất nhạy với
nhiễu nên đường biên thu được thường kém ổn định.
3.1.1.3 Kỹ thuật phát hiện biên Canny
Trong xử lý hình ảnh tìm thấy cạnh biên là vấn đề cơ
bản vì cạnh biên xác định ranh giới của các đối tượng khác
15
nhau. Thuật toán dò tìm cạnh biên Canny được biết như dò tìm

đóng kín, sử dụng các thuật toán đơn giản hóa như Douglas
Peucker, Band Width, Angle v.v ta sẽ thu được một polyline
hay nói khác đi là thu được một đa giác xác định đối tượng.
Vấn đề là ta cần phải xác định xem đối tượng có phải là đối
tượng cần tách hay không? Như ta đã biết một đa giác có thể có
hình dạng tựa như một hình cơ sở, có thể có nhiều cách tiếp
cận xấp xỉ khác nhau. Cách xấp xỉ dựa trên các đặc trưng cơ
bản sau:
 Đặc trưng toàn cục: Các mômen thống kê, số đo
hình học như chu vi, diện tích, tập tối ưu các hình
chữ nhật phủ hay nội tiếp đa giác v.v…
17
 Đặc trưng địa phương: Các số đo đặc trưng của
đường cong như góc, điểm lồi, lõm, uốn, cực trị
v.v…
Việc xấp xỉ tỏ ra rất có hiệu quả đối với một số hình
phẳng đặc biệt như tam giác, đường tròn, hình chữ nhật, hình
vuông, hình ellipse và một đa giác mẫu.
3.1.2.1 Xấp xỉ đa giác theo bất biến aphin
Mô hình chuẩn tắc về bất biến aphin cho phép chúng ta
có thể chuyển bài toán xấp xỉ đối tượng bởi bất biến aphin về
bài toán xấp xỉ mẫu trên các dạng chuẩn tắc. Như vậy có thể
đưa việc đối sánh các đối tượng với mẫu bởi các bất biến đồng
dạng, chẳng hạn việc xấp xỉ bởi tam giác, hình bình hành,
ellipse tương đương với xấp xỉ tam giác đều, hình vuông, hình
tròn v.v

3.1.3 Trích chọn đặc trưng dựa vào chuỗi đường bao cục
bộ
Sau khi phát hiện cạnh biên chúng ta có ranh giới bàn

Nguồn gốc của SVM dựa trên sự chắc chắn về lỗi chính xác, có
thể phân loại ngẫu nhiên các mẫu đối tượng được chọn mà lỗi
được giữ sao cho nhỏ nhất. Vì vậy, giải thuật SVM giúp giảm
thiểu biên trên các lỗi chính xác và làm cho hệ thống tin cậy
hơn.
Ý tưởng chính của SVM là chuyển tập mẫu từ không
gian biểu diễn Rn của chúng sang một không gian Rd có số
chiều lớn hơn. Trong không gian Rd, tìm một siêu phẳng tối ưu
để phân hoạch tập mẫu này dựa trên phân lớp của chúng, cũng
có nghĩa là tìm ra miền phân bố của từng lớp trong không gian
Rn để từ đó xác định được phân lớp của một mẫu cần nhận
dạng. Chất lượng của siêu phẳng này phụ thuộc vào các đặc
trưng của ảnh.

Vì vậy, ta tìm được một tập các thông số tốt, sau đó sẽ
sử dụng để tạo các mẫu và sử dụng mô hình cuối cùng cho dự
báo (trên dữ liệu thử nghiệm chưa rõ). SVM chủ yếu là một
phương pháp phân lớp thực hiện nhiệm vụ phân loại bằng cách
20
xây dựng siêu phẳng trong một không gian đa chiều. SVM hỗ
trợ cả hai nhiệm vụ hồi quy và phân loại. Dựa trên một số kết
hợp có các trọng số của một tập con nhỏ các vectơ huấn luyện,
các vectơ này được gọi là vectơ hỗ trợ (support vector). Ước
lượng siêu phẳng trong SVM thì tương đương giải một bài toán
tuyến tính bậc hai. Chất lượng của siêu phẳng này được quyết
định bởi khoảng cách (biên) của điểm dữ liệu gần nhất của mỗi
lớp đến mặt phẳng này. Khoảng cách biên càng lớn thì mặt
phẳng quyết định càng tốt đồng thời việc phân loại càng chính
xác. Mục đích thuật toán SVM tìm ra được khoảng cách biên
lớn nhất để tạo kết quả phân lớp tốt.

4.3. Thực nghiệm tiền xử lý
Ở phần này đầu tiên chúng tôi sẽ chuyển đổi ảnh RGB
qua ảnh với hệ màu khác là hệ màu HSL, HSL là một không
gian màu dựa trên 3 số liệu: Vùng màu (H), Độ bão hòa (S),
và Độ sáng (L).

Bước tiếp theo phân ngưỡng ảnh nhằm tăng độ tương
phản giữa màu bàn tay và màu nền, ảnh bàn tay được chuyển
thành ảnh nhị phân trong đó mỗi điểm ảnh chỉ được biểu diễn
một trong hai giá trị 0 (màu đen) hoặc 1 (màu trắng).
Sau khi xác định vùng bày tay, chúng tôi tiếp tục xử lý
ảnh và xóa nhiễu, tách các thành phần liên thông trong nhận
dạng bàn tay ra khỏi môi trường xung quanh thành từng ảnh
riêng biệt trước đi đưa vào nhận dạng.
Phép Erosion thì làm cho đối tượng ảnh trở nên nhỏ
hơn, ít điểm ảnh hơn. Phép bà o mòn thay những điểm đen
thành điểm trắng khi mà lân cận của nó có ít nhất một điểm
trắng.
Phép Dilation thì mở rộng thêm điểm ảnh vào đối tượng
ảnh, làm cho ảnh trở nên lớn hơn.
4.4. Thực nghiệm trích chọn đặc trưng
Để tiến hành nhận dạng cử chỉ của bàn tay, chúng tôi
tiến hành trích chọn đặc trưng đường bao thu được ở phần phát


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status