Nhận dạng cử chỉ bàn tay dùng mạng nơ ron - Pdf 30

BỘ GIÁO DỤC & ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM
KHOA ĐIỆN – ĐIỆN TỬ
BỘ MÔN ĐIỆN TỬ VIỄN THÔNG

ĐỒ ÁN TỐT NGHIỆP
NGÀNH: ĐIỆN TỬ VIỄN THÔNG
Đề tài:
NHẬN DẠNG CỬ CHỈ BÀNG TAY DÙNG
MẠNG NƠ-RON
SVTH : NGUYỄN VĂN ĐOÀN- 09917406
NGUYỄN VĂN ĐÔNG- 09773885
TP. HỒ CHÍ MINH – 06/2014
CHƯƠNG 1 GIỚI THIỆU
1.1 Giới thiệu đề tài
Ngày nay dưới sự phát triển rộng rãi của các ứng dụng công nghệ thông tin
vào trong cuộc sống, việc tương tác giữa con người và thiết bị ngày càng trở nên
quan trọng. Trước đây, bàn phím và chuột là các giao diện chính để giao tiếp giữa
người và máy tính. Trong các lĩnh vực khác cần tới các thông tin 3D, chẳng hạn như
trò chơi máy tính, robot và lĩnh vực thiết kế… các thiết bị cơ khí khác như bóng lăn,
cần điều khiển hay các găng tay dữ liệu đã được sử dụng. Tuy nhiên, con người giao
tiếp chủ yếu bởi “nghe” và “nhìn”, do đó một giao diện người – máy sẽ trực quan
hơn nếu con người có thể điều khiển máy tính bằng giọng nói hay cử chỉ giống như
khi tương tác giữa người với người trong thế giới thực mà không cần thông qua các
thiết bị điều khiển khác như chuột hay bàn phím. Một ưu điểm khác là người dùng
có thể giao tiếp từ xa mà không cần phải có tiếp xúc vật lý với máy tính. So với các
hệ thống điều khiển bằng lệnh âm thanh, một hệ thống thị giác sẽ thích hợp hơn
trong môi trường ồn ào hoặc trong trường hợp âm thanh bị nhiễu.
Phát hiện vùng màu da là một công cụ rất hữu ích trong việc nhận dạng ảnh.
Nó cho phép nhiều khu vực của một ảnh được loại bỏ một cách nhanh chóng và hiệu
quả, mà không lãng phí thời gian để làm tương quan tốn kém hoặc các hình thức

2.1 Những vấn đề cơ bản trong xử lý ảnh
2.1.1 Điểm ảnh
Gốc của ảnh (ảnh tự nhiên) là ảnh liên tục về không gian và độ sáng. Để xử
lý bằng máy tính (số), ảnh cần phải được số hoá. Số hoá ảnh là sự biến đổi gần đúng
một ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí (không gian) và
độ sáng (mức xám). Khoảng cách giữa các điểm ảnh đó được thiết lập sao cho mắt
người không phân biệt được ranh giới giữa chúng. Mỗi một điểm như vậy gọi là
điểm ảnh (PEL: Picture Element) hay gọi tắt là Pixel. Trong khuôn khổ ảnh hai
chiều, mỗi pixel ứng với cặp tọa độ (x, y).
Định nghĩa: Điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với
độ xám hoặc màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó được
chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám
(hoặc màu) của ảnh số gần như ảnh thật. Mỗi phần tử trong ma trận được gọi là một
phần tử ảnh.
Một file ảnh là tập hợp nhiều điểm ảnh được minh họa hình 2.1.
4
Hình 2.1 Mảng hai chiều của một file ảnh
Vậy ảnh được xem như một ma trận tọa độ ảnh. Do đó hàm f(x,y) còn có thể
biểu diễn dưới dạng ma trận như sau:
f(x,y)= (2.1)
Hay
A = (2.2)
Trong đó, a
i,j
= f(x=i,y=j)=f(i,j) , với M là số hàng, N là số cột.
2.1.2 Khái niệm ảnh số.
Ảnh trong thực tế liên tục về không gian và độ sáng, để có thể xử lý ảnh ta
cần biến đổi tín hiệu tương tự thành tín hiệu rời rạc thông qua quá trình lấy mẫu ( rời
rạc về không gian), và lượng hóa thành phần tạo thành tập hợp phần tử ảnh gọi là
quá trình số hóa.

2.1.3 Các định dạng ảnh cơ bản
Ảnh thu được sau quá trình số hóa thường được lưu lại cho các quá trình xử
lý tiếp theo hay gửi đi. Trong quá trình phát triển của kỹ thuật xử lý ảnh, tồn tại
nhiều định dạng ảnh khác nhau từ ảnh đen trắng ( với định dạng IMG) ảnh đa cấp
xám đến ảnh màu (BMP, GIF, JPEG…). Tuy các định dạng này khác nhau xong
chúng đều tuân theo một cấu trúc chung nhất. Nhìn chung tệp ảnh bất kỳ thường bao
gồm 3 phần :
- Mào đầu tệp ( header)
- Dữ liệu nén ( Data Compression)
- Bảng màu ( Palette Color)
a. Mào đầu tệp: là thành phần chứa các thông tin về kiểu ảnh, kích thước, độ
phân giải, số bit dùng trong 1 pixel, cách mã hóa, vị trí bảng màu…
b. Dữ liệu nén: Số liệu ảnh được mã hóa bởi kiểu mã hóa chỉ ra trong phần
Header
c. Bảng màu: Bản màu không nhất thiết phải có ví dụ khi ảnh là đen trắng.
Nếu có bảng màu cho biết số màu dùng trong ảnh và bảng màu được sử dụng để
hiển thị màu của ảnh.
2.1.4 Độ phân giải của ảnh
Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn định trên một
ảnh số được hiển thị. Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được
chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh. Việc lựa chọn khoảng
7
cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân
bố theo trục x và y trong không gian hai chiều.
2.1.5 Mức xám của ảnh
Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng giá trị số tại
điểm đó.
Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256 là
mức phổ dụng. Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức
xám: Mức xám dùng 1 byte biểu diễn: 2^8=256 mức, tức là từ 0 đến 255).

màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị màu là 2
8*3
=
2
24
=16,7 triệu màu.
Hình 2.4 Mô hình màu RGB
Hình 2.5 Minh họa ảnh màu sau khi mã hóa
2.1.8 Chỉnh mức xám
10
Nhằm khắc phục tính không đồng đều của hệ thống gây ra. Thông thường có
2 hướng tiếp cận:
- Giảm số mức xám: Thực hiện bằng cách nhóm các mức xám gần nhau
thành một bó. Trường hợp chỉ có 2 mức xám thì chính là chuyển về ảnh đen trắng.
Ứng dụng: in ảnh màu ra máy in đen trắng.
- Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng kỹ
thuật nội suy. Kỹ thuật này nhằm tăng cường độ mịn cho ảnh.
2.1.9 Nhận dạng ảnh
Nhận dạng tự động (automatic recognition), mô tảđối tượng, phân loại và
phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy, được ứng dụng
trong nhiều ngành khoa học khác nhau. Mẫu ở đây có thể là ảnh của vân tay, ảnh
của một vật nào đó được chọn, một chữ viết khuôn mặt người ….
Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn
chủ yếu sau đây:
1. Thu nhận dữ liệu và tiền xử lý.
2. Biểu diễn dữ liệu.
3. Nhận dạng, ra quyết định.
2.2 Các kỹ thuật xử lý ảnh số.
2.2.1 Mục đích của việc xử lý ảnh số.
Mục đích đặt ra cho việc xử lý ảnh bao gồm hai mục đích:

Phân tích ảnh liên quan đến việc xác định các độ đo định lượng của một ảnh
để đưa ra một mô tả đầy đủ về ảnh. Nhằm mục đích xác định biên của ảnh. Có nhiều
kỹ thuật khác nhau như lọc vi phân hay dò theo quy hoạch động. Người ta cũng
dùng các kỹ thuật để phân vùng ảnh. Từ ảnh thu được, người ta tiến hành kỹ thuật
tách hay hợp dựa theo các tiêu chuẩn đánh giá như: màu sắc, cường độ… Phương
pháp được biết đến như nhị phân hóa đường biên. Cuối cùng, phải kể đến các kỹ
thuật phân lớp dựa theo cấu trúc.
2.2.5 Kỹ thuật nhận dạng ảnh
Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người ta
muốn đặc tả nó. Quá trình nhận dạng thường đi sau quá trình trích chọn các đặc tính
chủ yếu của đối tượng. Có hai kiểu mô tả đối tượng :
 Mô tả tham số ( nhận dạng theo tham số).
 Mô tả theo cấu trúc ( nhận dạng theo cấu trúc).
Người ta đã áp dụng kỹ thuật nhận dạng khá thành công với nhiều đối tượng
khác nhau như : nhận dạng ảnh vân tay, nhận dạng chữ (chữ cái, chữ số, chữ có
dấu).
2.3 Các phương pháp xử lý ảnh số
2.3.1 Chuyển ảnh màu RGB thành ảnh mức xám ( Gray level)
Ảnh gốc thường là ảnh màu 24 bit màu nên khó nhận dạng ta cần phải
chuyển về ảnh xám dữ liệu 8 bit để dễ nhận dạng hơn. Nghĩa là mỗi pixel được biểu
diễn 256 cấp độ xám theo công thức:
X= 0,2125*R + 0,7145*G + 0,0721*B (2.3)
Quá trình chuyển đổi mức xám tuy có làm mất đi một số thông tin nhưng
cũng có thể chấp nhận được.
2.3.2 Phương pháp lọc nhiễu ảnh
13
Nhiễu có thể coi như sự đột biến của một điểm ảnh so với các điểm lân cận.
Lọc nhiễu ảnh nhằm mục đích loại bỏ các đột biến của ảnh, ở đây ta sử dụng
phương pháp lọc số dựa trên tính dư thừa thông tin không gian, các pixel lân cận có
thể có cùng hoặc gần cùng một số đặc tính. Trong kỹ thuật này, người ta sử dụng

ngượclại thì vị trí trung vị là JxK / 2.
Phương pháp medium filter (lọc trung vị) dùng để lọc nhiễu trước khi qua
bước xử lý tiếp theo, như là phát hiện biên. Median filter là một kỹ thuật lọc số
tuyến tính.
Median filter là một bước phổ biến trong xử lý ảnh .
Trung vị được viết với công thức :
v(m,n) = trung vị (y(m-k),n-1) (2.5)
Kỹ thuật này đòi hỏi giá trị các điểm ảnh trong của sổ phải sắp xếp theo thứ
tự tăng hay giảm dần so với giá trị trung bình. Kích thước của của sổ thường được
chọn sao cho điểm ảnh trong của sổ là lẻ. Các cửa sổ hay dùng là của sổ có kích
thước 3x3, hay 5x5, hay 7x7
2.3.3 Phân vùng ảnh
Phân vùng ảnh là bước then chốt trong xử lý ảnh. Giai đoạn này nhằm phân
tích ảnh thành những thành phần có cùng tính chất nào đó dựa theo biên hay các
vùng liên thông có thể là cùng mức xám, cùng màu, hay cùng độ nhám, …
Nếu phân vùng dựa trên các vùng liên thông ta gọi là kỹ thuật phân vùng dựa
theo miền đồng nhất. Nếu ta phân vùng dựa vào biên gọi là kỹ thuật phân vùng biên.
15
Ngoài ra còn có các kỹ thuật khác như phân vùng dựa vào biên độ, phân vùng theo
kết cấu.
2.3.4 Phương pháp phân vùng ảnh
Để phân tích các đối tượng trong ảnh, chúng ta cần phải phân biệt được các
đối tượng cần quan tâm với phần còn lại của ảnh. Những đối tượng này có thể tìm
được nhờ các kỹ thuật phân đoạn ảnh, theo nghĩa tách phần tiền ảnh ra hậu ảnh.
Chúng ta cần phải hiểu được là:
 Không có kỹ thuật phân đoạn nào là vạn năng, theo nghĩa có thể áp dụng
cho mọi loại ảnh.
 Không có kỹ thuật phân đoạn nào là hoàn hảo.
Có thể hiểu phân vùng là tiến trình chia ảnh thành nhiều vùng, mỗi vùng chứa
một đối tượng hay nhóm đối tượng cùng kiểu. Chẳng hạn, một đối tượng có thể là

cặp điểm biên (một thuộc ℑ, một thuộc ℑ), các cặp điểm này tạo nên tập nền vùng,
kí hiệu là NV và phân tích toán tử dò biên thành 2 bước:
 Xác định cặp điểm nền vùng tiếp theo.
 Lựa chọn điểm biên
Trong đó bước thứ nhất thực hiện chức năng của một ánh xạ trên tập NV lên
NV và bước thứ hai thực hiện chức năng chọn điểm biên.
2.4 Các loại không gian màu
17
Như ta đã biết thì khi cho ánh sáng trắng đi qua lăng kính ta sẽ thu được một
dãy phổ màu bao gồm 6 màu rộng: tím , lam , lục , vàng , cam , đỏ. Nếu nhìn kỹ thì
sẽ không có ranh giới rõ ràng giữa các màu mà màu này sẽ từ chuyển sang màu
kia.Mắt chúng ta nhìn thấy được là do ánh sáng phản xạ từ vật thể.
Tất cả các màu được tạo ra từ 3 màu cơ bản (màu sơ cấp) là: đỏ (R),lam (B)
và lục (G).Các màu cơ bản trộn lại với nhau theo một tỉ lệ nhất định để tạo ra các
màu thứ cấp.
Lược đồ xám của ảnh: Một phương pháp thường dùng trong xử lí ảnh số là
xem xét cường độ sáng của ảnh f(x,y) như là biến ngẫu nhiên có hàm phân bố xác
suất là p
k
(f). Hàm phân bố xác suất của ảnh mang thông tin toàn cục về nội dung
chứa trong ảnh. Tuy nhiên hàm phân bố xác suất tổng quát thường không đáp ứng
được do đó thường dùng hàm phân bố xác suất thực nghiệm xác định từ ảnh để thay
thế gọi là hàm histogram. Histogram của ảnh số với mức xám có tầm trong khoảng
[0, L-1] là hàm:
(2.6)
Với là mức xám thứ k
là số pixel trong ảnh có mức xám thứ k
tổng số pixel trong ảnh
: 0,1,2,…., L-1
Lược đồ xám bao gồm trục hoành biểu diễn mức xám và trục tung biểu diễn

Ưu điểm của phương pháp này là tính đơn giản, điều này cho phép phân lớp
một cách nhanh chóng và dễ dàng. Tuy nhiên kết quả đạt được khi phân lớp là
không cao trong trường hợp tổng quát. Vì vậy khó khăn chính của phương pháp này
nếu muốn có được hệ số nhận dạng cao đó là phải tìm ra được một không gian màu
thích hợp cũng như các quy tắc tốt nhất để nhận biết màu da trong không gian màu
này.
2.4.2 Không gian màu YCrCb
YCrCb được định nghĩa nhằm phục vụ các mục đích xử lý video số. Nó có
quan hệ với một số không gian màu như YIQ, YUV. Trong khi YCrCb là hệ thống
màu số thì các không gian YIQ và YUV là hệ thống tương tự phục vụ cho các chuẩn
PAL và NTSC. Các không gian màu này sẽ chia RGB ra các thành phần chói, và
thành phần màu nhằm sử dụng cho các ứng dụng nén ảnh. Do đó chúng thường
được sử dụng trong các hệ thống truyền hình.
20
Hình 2.8 Không gian màu YcrCb
YcrCb là không gian màu được sử dụng nhiều trong vấn đề nén ảnh màu sắc
được biểu diễn bởi luma(đó là giá trị độ sáng tính từ không gian RGB).Gồm ba
thành phần, một thành phần là tổng các trọng số từ RGB, hai thành phần màu Red
và Blue trong không gian màu RGB. Công thức để chuyển đổi như sau:
Y = 0.299R +0.587G + 0.114B (2.8)
(2.9)
)10.2(
2072.18
9337.111
9660.24
7509.93
1592.74
5530.128
81.95.111
7745.37








=










B
G
R
Cb
Cr
Y
Việc chuyển đổi đơn giản, tính phân chia rõ ràng của độ sáng và các thành
phần màu là những đặc tính giúp cho không gian này được ứng dụng vào phân tích
màu da.
21
Điều kiện để phân tách màu da


được gán với màu đỏ). Độ bão hòa màu được thể hiện như là khoảng cách từ tâm
các đường tròn. Độ bão hòa lớn nhất nằm ở biên của hình nón. Độ sáng được mô tả
bởi vị trí theo chiều dọc hình nón. Ở vị trí đỉnh của hình nón, sẽ không có bất kì độ
sáng nào. Và ở đáy của nón, độ sáng sẽ lớn nhất.
22
Hình 2.9 Không gian màu HSV
Có rất nhiều ứng dụng sử dụng mô hình HSV. Các hệ thống nhận diện sử
dụng HSV để phát hiện màu vật thể. Các thuật toán xử lý ảnh như biến đổi độ sáng,
xử lý lược đồ xám…sử dụng thành phần độ sáng của ảnh.
Cũng giống như không gian YcbCr, không gian HSV cũng có nhiều thuận lợi
hơn RGB trong việc phát hiện bàn tay dựa trên màu da. Bằng việc trích xuất thành
phần sắc màu, hệ thống có thể dễ dàng nhận biết được các vùng không da để loại bỏ
theo luật 19<H<240 (vùng không phải da). Tuy nhiên, việc xử lý màu da, ảnh thu
nhận được phải chỉ vùng da duy nhất là bàn tay hoặc phải áp dụng thêm một số thuật
toán như xác định kích thước, hình dạng…để loại bỏ các vùng da không thuộc bàn
tay như tay, chân…
Ưu điểm và nhược điểm phát hiện màu da dựa trên không gian màu
- Ưu điểm:
Phương pháp dễ thực hiện.
Độ chính xác tương đối lớn khi màu đối tượng khác biệt với màu của nền.
Tốc độ thực hiện cao vì số công việc xử lý ít.
- Nhược điểm:
Phương pháp sẽ mất đi độ chính xác khi màu da đối tượng trùng màu nền.
23
Phương pháp chỉ dựa trên cảm nhận chung của con người về các ngưỡng,
chưa có một lý thuyết, giải thuật cụ thể thống nhất để cho kết quả tổng quát và chính
xác nhất.
24
CHƯƠNG 3 PHÁT HIỆN BÀN TAY DỰA TRÊN
MÀU DA VÀ NHẬN DẠNG CỬ CHỈ DÙNG

hiện bàn tay ở các hệ thống: phương pháp phát hiện bàn tay dựa trên đặc trưng màu
da.
25


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status