Nghiên cứu và cải tiến kỹ thuật nhận dạng ngôn ngữ cử chỉ sử dụng kinect - Pdf 39

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

TÓM TẮT BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ
CẤP ĐẠI HỌC ĐÀ NẴNG

NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT
NHẬN DẠNG NGÔN NGỮ CỬ CHỈ SỬ DỤNG KINECT

Mã số: D2015-02-118

Chủ nhiệm đề tài: ThS. VÕ ĐỨC HOÀNG

Đà Nẵng, 3/2016

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

TÓM TẮT BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ
CẤP ĐẠI HỌC ĐÀ NẴNG

NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT
NHẬN DẠNG NGÔN NGỮ CỬ CHỈ SỬ DỤNG KINECT

Mã số: D2015-02-118

Xác nhận của cơ quan chủ trì đề tài
(ký, họ và tên, đóng dấu)

thực hiện bằng cách sử dụng hàng loạt các cảm biến
được tích hợp trên một găng tay để phát hiện các
chuyển động khi thao tác cử chỉ.



Dựa trên tầm nhìn máy tính: máy tính được gắn máy
máy với chức năng là đầu vào của dữ liệu (ảnh, phim).
Các tập tin được lưu trữ và xử lý phương phương pháp
xử lý hình ảnh và xuất các thông tin, ý nghĩa về ký
hiệu của ngôn ngữ ra thiết bị bên ngoài.

2
Trong hơn thập kỷ qua, nhiều công trình nghiên cứu đã hướng
tới phát triển một hệ thống nhận dạng với nhiều ngôn ngữ ký hiệu
khác nhau và là thách thức lớn cho nhiều lĩnh vực nghiên cứu như:
phương pháp lấy cử chỉ tay, phân loại học máy, giao tiếp của người
và máy, xử lý ngôn ngữ tự nhiên... Hầu hết đa số các hệ thống nhận
dạng đều giải quyết các cử chỉ một cách riêng biệt và tỉ lệ nhận dạng
thành công thấp, chịu sử ảnh hưởng của môi trường thực hiện. Yêu
cầu cấp thiết hiện nay là một hệ thống nhận dạng ngôn ngữ ký hiệu
liên tục, phải dịch một chuỗi cử chỉ thành một cụm từ hoặc một câu
văn bản có ý nghĩa.
Kỹ thuật nhận dạng Ngôn ngữ ký hiệu đang còn ở phạm vi hẹp
đối với câu, cụm từ và tỉ lệ nhận dạng còn thấp. Thông thường yếu tố
quyết định tỉ lệ nhận dạng tốt phụ thuộc vào quá trình thu nhận ảnh
và tiền xử lý để trích xuất đặc trưng. Các nghiên cứu trước thường sử
dụng các máy ảnh có độ phân giải cao để thu nhận ảnh, tuy nhiên đến
cuối năm 2010 khi Microsoft phát hành thiết bị Kinect đã làm thay

Ứng dụng nhận dạng ngôn ngữ ký hiệu trong giao tiếp
ở người khiếm thính.

3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu


Nghiên cứu về nhận dạng ngôn ngữ cử chỉ.



Nghiên cứu về thiết bị Kinect và SDK của thiết bị để
phát triển.



Nghiên cứu và xây dựng bộ dữ liệu cho nhận dạng
ngôn ngữ cử chỉ tiếng Việt.

Phạm vi nghiên cứu


Nghiên cứu về ngôn ngữ ký hiệu tiếng Việt.



Nghiên cứu về các phương pháp thu nhận dữ liệu và
xử lý ảnh.



Phát triển ứng dụng và cải tiến thuật toán nhận dạng
bằng Kinect.



Khảo sát các mô hình, thuật toán nhận dạng cử chỉ.

5. Nội dung dung


Nghiên cứu tổng quan về nhận dạng ngôn ngữ cử chỉ.



Khảo sát các phương pháp thu nhận dữ liệu.



Khảo sát và đánh giá các phương phấp nhận dạng đã
được nghiên cứu.



Đề xuất nghiên cứu đối với ngôn ngữ cử chỉ tiếng
Việt.



Đánh giá hiệu quả.

trực quan bằng tay sử dụng hình dạng của bàn tay, hướng và sự di
chuyển của bàn tay, cánh tay hoặc cơ thể, nét mặt và miệng để truyền
đạt ý nghĩa từ thay vì sử dụng âm thanh. Ngôn ngữ ký hiệu là ngôn
ngữ hoàn toàn khác biệt và độc lập với ngôn ngữ nói hay ngôn ngữ
viết. Sự khác biệt cơ bản là hạn chế vốn từ vựng của ngôn ngữ ký
hiệu. Ngôn ngữ ký hiệu có sự khác biệt rất lớn giữa các quốc gia như
Mỹ (ASL), Đức (GSL), Trung Quốc (CSL), Việt Nam (VSL) ..... và
giữa các vùng miền trong một quốc gia Việt Nam như Hà Nội, Hải
Phòng, Cần Thơ, Hồ Chí Minh về từ vựng hay cách biểu diễn cử chỉ.
Ngôn ngữ này được sử dụng phổ biến trong cộng đồng người khiếm
thính bao gồm: thông dịch viên, bàn bè, gia đình của người điếc cũng
như trong cộng đồng người có khuyết tật về nghe. Tuy nhiên, hiện
nay ngôn ngữ này không được phổ biến trong cộng đồng giao tiếp do
đó có một rào cản lớn giữa người khiếm thính và người bình thường.
Sự giao tiếp bằng ngôn ngữ ký hiệu rất đa dạng không chỉ liên
quan đến ký hiệu bàn tay mà còn được định nghĩa là mô hình cụ thể
hay chuyển động của bàn tay, nét mặt hoặc cơ thể. Ngôn ngữ ký hiệu
có thể chia làm hai phần là tư thế tay và cử chỉ tay. Thể hiện tư thế
tay được định nghĩa là một hình dạng cụ thể của bàn tay vào một thời
điểm tức thì, một cử chỉ tay được định nghĩa là hệ quả của tư thế tay
di chuyển trong một miền thời gian.
Trong hơn thập kỷ qua, nhiều công trình nghiên cứu đã hướng
tới phát triển một hệ thống nhận dạng với nhiều ngôn ngữ ký hiệu

7
khác nhau và các nhà nghiên cứu đã kết luận rằng một hệ thống như
vậy là thách thức lớn cho nhiều lĩnh vực nghiên cứu khác nhau như:
phương pháp lấy cử chỉ tay, phân loại học máy, sự giao tiếp của
người và máy, xử lý ngôn ngữ tự nhiên... Hầu hết đa số các hệ thống

chung, chúng ta có thể phân loại thành 3 nhóm cơ bản sau: găng tay
cảm biến, găng tay màu và thị giác máy tính (Hình 1).

Hình 1: Các kỹ thuật thu nhận dữ liệu đầu vào.
Phương pháp thu nhận dữ liệu dựa trên găng tay cảm biến yêu
cầu người dùng phải đeo một thiết bị găng tay cồng kềnh. Găng tay
được trang bị các cảm biến để cảm nhận sự chuyển động của bàn tay
và các ngón tay và truyền các thông tin vào máy tính. Phương pháp
này dễ dàng cung cấp chính xác tọa độ vị trí lòng bàn tay, ngón tay
và hướng, hình dạng bàn tay. Ưu điểm của phương pháp này là độ
chính xác cao và tốc độ xử lý nhanh. Tuy nhiên khi sử dụng phương
pháp này, yêu cầu găng tay của người dùng phải được kết nối trực
tiếp với máy tính nên cản trở sự tương tác của người thực hiện và
khoảng cách giữa người và máy, đặc biệt chi phí của thiết bị khá cao.
Phương pháp thu nhận dữ liệu dựa trên găng tay màu sắc đã
khắc phục được các nhược điểm của găng tay cảm biến và đây là sự
kết hợp giữa phương pháp thu nhận dữ liệu dựa trên găng tay và thị
giác máy tính. Găng tay thường là màu trắng và được đánh dấu bởi
các màu khác nhau giữa các ngón tay và lòng bàn tay. Một máy ảnh
màu có thể nhận biết và theo dõi sự chuyển động, hình dạng, vị trí

9
của lòng bàn tay, ngón tay. Sự tiện lợi của phương pháp này là người
dùng không bị phụ thuộc nhiều vào khoảng cách so với máy tính và
chi phí cho chế tạo găng tay nhỏ. Về bản chất hai phương pháp sử
dụng găng tay là tương tự như nhau, nhưng khi sử dụng găng tay màu
phải trải qua giai đoạn tiền xử lý. Tuy nhiên cách tiếp cận này không
được tự nhiên (do phải sử dụng găng tay) và không được nhiều người
sử dụng (do vấn đề về vệ sinh).

dữ liệu như: ảnh nền, ánh sáng, màu da, vị trí cổ tay, ngón tay.
1.3. Các phương pháp phân loại và nhận dạng ngôn ngữ ký hiệu
Có nhiều phương pháp được sử dụng để phân loại nhận dạng
ngôn ngữ ký hiệu, các phương pháp này dựa trên các thông số sau khi
trích chọn đặc trưng từ các dữ liệu đã xử lý sau khi thu nhận bằng các
phương pháp ở phần 1.2. Các phương pháp như: Mạng nơ ron nhân
tạo (ANN), Mô hình Markov ẩn (HMM), Máy vector hỗ trợ (SVM),
Đường cong theo thời gian động (DTW), mô hình hỗn hợp Gaussian
(GMM)... Hầu hết các phương pháp này đều dựa trên mô hình thống
kê và tự học, có khả năng tự tối ưu hóa các thông số qua quá trình
đào tạo để nâng cao khả năng phân loại và nhận dạng dựa vào các
thông số ẩn.
1.4. Ngôn ngữ ký hiệu tiếng Việt
Lịch sử phát triển của ngôn ngữ ký hiệu nói chung và ngôn
ngữ ký hiệu tiếng Việt nói riêng đã trải qua nhiều giai đoạn thăng
trầm. Từ thế kỉ 16, Geronimo Cardano - nhà vật lý học người Padua,
đã tuyên bố người khiếm thính có thể học tập thông qua giao tiếp
bằng ký hiệu. Đến năm 1620, Juan Pablo de Bonet xuất bản cuốn
sách đầu tiên về ngôn ngữ ký hiệu, đồng thời công bố bảng chữ cái

11
năm 1620 dựa trên nền tảng là ngôn ngữ ký hiệu đã được cộng đồng
người điếc phát triển theo bản năng từ trước.
Ở Việt Nam, ngôn ngữ ký hiệu đã được đưa vào giáo dục và sử
dụng từ rất sớm: từ năm 1866, một linh mục người Pháp là cha
Azemar đã quy tụ khoảng 5 trẻ khiếm thính để dạy ngôn ngữ và đạo
đức. Sau đó, một trong những trẻ này đã sang Pháp để học tập
phương pháp dùng ngôn ngữ ký hiệu điệu bộ. Đến năm 1886, khi anh
về nước, linh mục đã tuyên bố mở trường dạy trẻ khiếm thính tại

xí, thích, hạnh phúc... Những cử chỉ này không thể hiểu được đối với
người bình thường và người khiếm thính nếu không qua các lớp đào
tạo.
Ta có thể phân tích cử chỉ là một chuỗi các hình ảnh tĩnh. Mỗi
hình ảnh chứa thông tin của một dấu hiệu cụ thể bao gồm hình ảnh
bàn tay, vị trí tay và biểu hiện khuôn mặt... Các thông tin này được
trích xuất đặc trưng và lưu trữ để so sánh với các đặc trưng của các
hình ảnh trước và sau trong cử chỉ đó. Dựa trên tổng hợp các đặc
điểm này sẽ đề xuất cách phân tích và nhận dạng cho hợp lý.

13
CHƯƠNG 2
NHẬN DẠNG CỬ CHỈ TĨNH
2.1. Tổng quan
Trong chương này tôi đề xuất một phương pháp tiếp cận, có
thể thực hiện trong thời gian thực để nhận biết các cử chỉ tĩnh của
ngôn ngữ ký hiệu. Thay vì sử dụng dữ liệu RGB như nhiều giải pháp
khác, đầu vào của hệ thống là hình ảnh chiều sâu thu nhận bởi thiết bị
Microsoft Kinect. Để mô tả cử chỉ tay, tôi sử dụng kỹ thuật xếp hạng
ma trận tương đương (rank-order correlation matrix - ROCM). Căn
cứ vào tính chất của bảng chữ cái ngôn ngữ ký hiệu tiếng Việt và
cách thu nhận dữ liệu, có thể sử dụng các cách phân loại và nhận
dạng khác nhau. Trong nghiên cứu này tôi sử dụng cách phân loại
nhiều vec-tơ hỗ trợ học máy (Multiple support vector machines SVMs) kết hợp với kỹ thuật MAX-WINS để nhận dạng. Các thí
nghiệm được thực hiện trên trên ba bộ dữ liệu hình ảnh chiều sâu của
cơ sở dữ liệu ngôn ngữ ký hiệu tiếng Việt (D_VSL) và nhận được
nhiều kết quả khả quan.
Bảng chữ cái ngôn ngữ ký hiệu tiếng Việt bao gồm các ký tự
đơn tương tự như ngôn ngữ ký hiệu Mỹ gồm 23 lớp ký tự (dữ liệu

Tách bàn tay: Sau khi chọn phạm vi thu nhận ảnh thích hợp, ảnh
thu được có thể bị nhiễu nhẹ do phụ thuộc vào môi trường và cảm biến.
Sử dụng bộ lọc hình thái không gian để loại bỏ nhiễu và làm mịn ảnh,
đồng thời sử dụng thuật toán xác định biên và làm mịn đối tượng. Cuối
cùng ta có hình ảnh bàn tay dựa trên khung của nó.
Chuẩn hóa kích thước: Có nhiều phương pháp để thay đổi kích
thước của hình ảnh bàn tay trước giai đoạn trích xuất đặc trưng. Một
điểm bất lợi về hình ảnh thu được từ bàn tay là kích thước thu được với
tỉ lệ chiều đứng và chiều ngang khác nhau (bàn tay thể hiện đứng hay
ngang) do vậy sẽ ảnh hưởng rất lớn đến các bước xử lý tiếp theo. Vì vậy
cần xử lý để đưa hình ảnh bàn tay về một kích thước chuẩn là cần thiết.
2.2.3. Trích xuất đặc trưng
Chia lưới (ma trận) hình ảnh: Trong nghiên cứu này tôi sử dụng
một lưới vuông để chia ảnh chiều sâu bàn tay thành d ô. Sau đó tính toán
giá trị các ô này dựa trên giá trị trung bình của các điểm ảnh thuộc ô đó.
Kết quả thu được là ma trận vuông có các giá trị trung bình tương ứng
từng ô.

16
Thống kê thông tin: Để mô tả giá trị một ô, tương ứng với một
khu vực hình ảnh. Xét một tập hợp n điểm ảnh với các giá trị độ sâu xi
tương ứng, hai thuộc tính được mô tả như hình 5.
Sau khi tính toán cho tất cả các ô kết quả thu được là hai ma trận
vuông cấp d. Ma trận thứ nhất, M_atm bao gồm d2 giá trị trung bình, ma
trận thứ hai M_atsd bao gồm d2 giá trị độ lệch tiêu chuẩn.
Xếp hạng ma trận: Mỗi ma trận vuông cấp 2 được chuyển đổi
thành ma trận xếp hạng tương ứng có cùng kích thước dựa vào giá trị
các phần tử để xếp hạng. Các giá trị của ma trận M_atm được sắp xếp
theo thứ tự tăng dần sau đó đánh giá trị thứ hạng được bắt đầu từ 0 và

Các thử nghiệm được kiểm tra với năm mô hình được mô tả ở
trên, trong đó mỗi mô hình được kiểm tra với những kích cỡ khác nhau
của việc chia ma trận xếp hạng. Các kết quả được thể hiện như Bảng 1.
Bảng 1: Độ chính xác khi thử nghiệm 5 mô hình với 5 cách chia
ma trận

18
Với mô hình 1, SVM phân loại thu được độ chính xác cao nhất là
94.22% tương ứng với ma trận xếp hạng 4 x 4, nhưng đối với mô hình 25 thì độ chính xác cao nhất thuộc về giá trị 3 x 3. Từ kết quả này ta nhận
thấy rằng việc phân chi ma trận ô trên mỗi hình ảnh cử chỉ sẽ tương
thích để thu được kết quả tốt nhất. Không có cách phân chia chung nào
cho kết quả tốt nhất.
Tương tự đối với việc nhận dạng các ký tự số từ 0 đến 9 dữ liệu
bao gồm 2011 mẫu bao gồm 10 cử chỉ tay.
Bảng 2: Độ chính xác khi thử nghiệm 10 cử chỉ số với 5 cách
chia ma trận

Bên cạnh đó, đối với mô hình 1 gồm 23 ký tự đây là mô hình có
số lượng dữ liệu lớn nhất, tôi tập trung phân tích, thực hiện các kỹ thuật
phân loại khác nhau để so sánh và đánh giá hiệu quả. Các kỹ thuật được
lựa chọn để phân loại học máy gồm: k-Nearest Neighbors (k-NN),
decision tree (DT) và Naive Bayes (NB). Việc so sánh khi thử nghiệm
23 ký tự tương ứng với kỹ thuật “Xếp hạng ma trận” với các kích thước
3*3, 4*4, 5*5 và kết quả thể hiện trong hình 13, phương pháp SVM luôn
cho kết quả tốt nhất.
2.4. Kết luận
Trong nghiên cứu cải tiến của phần này, tôi đề xuất một phương
pháp mới để nhận dạng ngôn ngữ ký hiệu tiếng Việt dựa trên hình ảnh
chiều sâu. Một kỹ thuật khai thác tính năng mới dựa trên xếp hạng các ô

1. Vị trí của bàn tay.
2. Hình dạng bàn tay.
3. Hướng của lòng bàn tay.
4. Hướng của chuyển động lòng bàn tay.
5. Biểu hiện của nét mặt.
Nghiên cứu phần này hướng đến xử lý ngôn ngữ ký hiệu liên tục
(động) trong thời gian thực, hay nói cách khác hướng đến nhận dạng từ
vựng của ngôn ngữ ký hiệu tiếng Việt. Không giống như ngôn ngữ ký
hiệu ở dạng tĩnh đã có những mức thành công nhất định, xử lý nhận
dạng từ vựng ngôn ngữ ký hiệu liên tục khá phức tạp. Từ vựng trong
ngôn ngữ ký hiệu Tiếng Việt bao gồm nhiều cử chỉ phức tạp như: hành
động cánh tay, hình dạng bàn tay, các ngón tay, khẩu hình miệng, cảm
xúc khuôn mặt,… Khác với cách biểu diễn ngôn ngữ bằng bảng chữ cái,
các từ ngữ trong từ điển ngôn ngữ ký hiệu tiếng Việt rất đa dạng và
phong phú.
Công cụ sử dụng trong thu nhận dữ liệu đầu vào là Camera
Kinect v2 gồm: camera màu, camera hồng ngoại, và một dãy
microphone gồm 4 microphone. Camera màu có thể ghi lại 30 frame ảnh
RGB với độ phân giải 1920 x 1080 trong 1 giây. Camera màu cũng có
thể lưu ảnh dưới dạng Raw Bayer, YUV và ảnh xám 16 bit.

21
Cảm biến chiều sâu có thể ghi lại 30 frame ảnh với độ phân giải
512 x 424 mỗi giây, góc nhận diện giới hạn được mở rộng 70̊ bề ngang
và 60̊ bề dọc. Khoảng cách giới hạn của camera chiều sâu mặc định từ
0.5 mét đến 4.5 mét và có thể được sử dụng trong chế độ gần từ 0.4 mét
đến 3 mét. Khoảng cách hoạt động tốt nhất của cảm biến là từ 1.2 mét
đến 3.5 mét.
Trong phạm vi nghiên cứu, tính năng theo dõi chuyển động

Hình 7: Sơ đồ hoạt động của hệ thống nhận dạng cử chỉ liên tục

23
3.2.2. Trích xuất đặc trưng
Công việc chính ở giai đoạn này là chuyển thông tin khung xương
ở hệ tọa độ Đề-Các sang hệ tọa độ cầu. Camera Kinect v2 với cảm biến
chiều sâu cho phép làm việc với dữ liệu chiều sâu của đối tượng. Do đó,
ta có thể sử dụng dữ liệu 3D để xử lý ngôn ngữ ký hiệu tiếng Việt.
Thông tin về khung xương đã đề cập ở trên có thể biểu diễn trong hệ tọa
độ Đề-Các với 3 thông số

Tuy nhiên, phương pháp này bộc lộ

nhược điểm là chỉ có thể sử dụng dữ liệu trong trường hợp vị trí và
khoảng cách của đối tượng với camera Kinect là không thay đổi. Do đó,
ta cần phải đổi hệ quy chiếu từ máy quay sang hệ quy chiếu của đối
tượng: lấy tâm người làm gốc tọa độ, các dữ liệu về bàn tay và khuỷu tay
được quy về theo hệ tọa độ này.
Trong toán học, một hệ tọa độ cầu Spherical là một hệ tọa độ cho
không gian 3 chiều mà vị trí một điểm được xác định bởi 3 số: khoảng
cách theo hướng bán kính từ gốc tọa độ , góc nâng từ điểm đó từ một
mặt phẳng cố định , và góc kinh độ của hình chiếu vuông góc của điểm
đó lên mặt phẳng cố định đó

.

Hình 8: Chia vùng chuẩn hóa dữ liệu góc kinh độ

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu và cải tiến kỹ thuật nhận dạng ngôn ngữ cử chỉ sử dụng kinect - Pdf 39

Tài liệu, ebook tham khảo khác

Học thêm