ĐẠI HỌC QUỐC GIA HÀ NỘI
NHẬN DẠNG c ủ CHỈ TRONG VIỆC HỎ TRỢ NGƯỜI
KHUYẾT TẬT GIAÒ t iế p
Mã số: QC.07.20
Chủ nhiệm đề tài: ThS. Nguyễn Thị Nhật Thanh
Đ A I HOC QUỐC GIA HÀ NỘI
TRUNG tam ỈHÒNg TIN THƯ VIỆN
- & L /
Hà Nội - 2008
MỤC LỤC
MỤC L Ụ C 2
DANH SÁCH NHỮNG NGƯỜI THựC HIỆN ĐỀ T À I 3
DANH MỤC HÌNH VẼ VÀ BẢNG BIÉU
4
1. Đặt vấn đề 5
2. Tổng quan về phân đoạn ngôn ngữ dấu hiệu
6
3. Phương pháp phân đoạn đề xuất và thực nghiệm
7
3.1 Phương pháp phân đoạn 7
• Phân đoạn ký tự dựa trên vận tốc chuyển động của tay 7
• Bộ lọc ký tự dựa trên tốc độ ra kí hiệu 8
• Nhận dạng ký tự và tách từ 8
3.2 Thực nghiệm và thảo luận 9
• Thu nhận dừ liệu và tiền xử lý 9
• Phân đoạn với bộ lọc vận tốc và tốc độ ra ký hiệu 10
• Kết quả 12
4. Kết quả nghiên cứu 13
5. Kết luận 14
6. Tài liệu tham khảo 15
hai đoạn không họp lệ được loại bỏ bời bộ lọc dựa trên tốc độ ra ký hiệu
11
Hỉnh 6. Đoạn dữ liệu không hợp lệ vì quá dài, được loại bỏ bởi bộ lọc dựa trên tốc độ
ra ký hiệu 11
Hình 7. Vẩn đề hai cử chỉ liên tiếp cùng thể hiện một chữ cái (từ “CO OI” trong ví dụ
này) được giải quyết bằng bộ lọc dựa trên tốc độ ra ký hiệu 11
Hình 8. Độ chính xác của hai kỹ thuật phân đoạn 13
Hình 9. Độ gợi nhớ của hai kỹ thuật phân đoạn
13
Bảng 1. Phân doạn theo vận tốc tay với các ngưỡng vận tốc khác nhau 12
Bảng 2. Phân đoạn theo vận tốc tay và bộ lọc dựa trên tốc độ ra ký hiệu với các
ngưỡng vận tốc khác nhau 12
4
Đe tài : Nhận dạng cử chỉ trong việc hồ trợ người khuyết tật giao tiếp
Mã số: QC.07.20
Chủ nhiệm đề t à i: ThS. Nguyễn Thị Nhật Thanh
• Mục tiêu
Nghiên cứu các phương pháp và các kỹ thuật hỗ trợ phân đoạn trong nhận dạng cử chỉ
người và ứng dụng vào lĩnh vực nhận dạng ngôn ngữ dấu hiệu Tiếng Việt.
• Phương pháp và nội dung nghiên cứu
Trong đề tài này, chúng tôi tiến hành nghiên cứu về phân đoạn dữ liệu tự động cho
ngôn ngữ dấu hiệu. Phân đoạn dữ liệu nhàm xác định những đoạn dữ liệu có nghĩa
trong dòng dữ liệu thu được theo thời gian. Chất lượng của quá trinh phân đoạn sẽ
quyết định chất lượng của các quá trình nhận dạng và dịch tự động sau này. Dựa trên
những nghiên cứu hiện có, chúng tôi đã đề xuất một phương pháp mới cho phân đoạn
chữ cái trong ngôn ngữ dâu hiệu tiêng Việt. Theo phương pháp này, nhiêu kỹ thuật
được áp dụng tuân tự đê xác định đoạn dừ liệu có nghĩa trong dòng dừ liệu thu được
theo thời gian. Đầu tiên, vận tốc của tay được tính toán. Các đoạn dừ liệu tương ứng
với vị trí tay đang thể hiện chữ cái được lựa chọn. Một bộ lọc dựa trên tốc độ ra ký tự
được áp dụng để loại bỏ những đoạn dữ liệu không chính xác. Cuối cùng, chừ cái được
cho mỗi chữ hoặc từ tương ứng trong ngôn ngữ dấu hiệu) hoặc được thực hiện động
(trên dòng dữ liệu thu được theo thời gian). Nhận dạng động được áp dụng cho các
ứng dụng thời gian thực, cần có sự xử lý thông tin trước khi tiến hành nhận dạng.
Trong nhận dạng động, dừ liệu thu được là một dòng liên tục theo thời gian, tương ứng
với những chuyển động của người thực hiện cử chỉ. Tuy nhiên, chỉ một số cử chỉ mang
thông tin trong khi một sổ khác là dư thừa. Do vậy, một vấn đề đang thu hút được
nhiều sự quan tâm của các nhà nghiên cứu là làm sao để xác định những doạn dừ liệu
có nghĩa trong dòng dữ liệu thu được. Các kỹ thuật phân đoạn tập trung vào giải quyết
vấn đề này. Chất lượng của quá trình phân đoạn sẽ quyết định chất lượng của các quá
trinh nhận dạng và dịch tự động sau này.
Trong đề tài này, chúng tôi đề xuất một phươne pháp mới để phân tách tự động ngôn
ngữ dấu hiệu tiếng Việt. Chúng tôi tập trung vào cách biểu diễn ngôn ngữ dấu hiệu
bằng đánh vần trong đó người sử dụng biểu diễn các chữ cái tuần tự theo cú pháp đã
được qui định để biểu diễn một từ. Do vậy, phương pháp tập trung vào tách các chữ
cái trong dòng dữ liệu liên tục theo thời gian. Theo phương này, một số các kỹ thuật
được áp dụng lần lượt để xác định những đoạn dữ liệu có nghĩa (thể hiện chữ cái)
trong dãy các dòng dữ liệu được ghi lại. Đầu tiên, vận tốc của chuyển động tay được
tính toán nhằm xác định những đoạn tay đứng yên. Tiếp đó, một bộ lọc dựa trên tốc độ
ra ký hiệu được sử dụng để loại bỏ những đoạn dư thừa. Tại mỗi đoạn dữ liệu có nghĩa
được xác định, chữ cái được nhận dạng. Sau đó, các từ tiếng Việt được tách tự động
theo phương pháp khớp từ dài nhất dựa trên từ điển.
Với phương pháp này, các câu tiếng Việt được biểu diễn bàng ngôn ngữ cử chi có thể
đirợc phân tách nhanh và chính xác. Bằng cách kết hợp nhiều kỹ thuật, phương pháp
này hoạt động hiệu quả hơn những phương pháp đã có. vấn đề hai chữ cái liền kề
giống nhau được nêu ra trong [12] cũng được giải quyết. Ngoài ra, việc phân tách từ tự
động cũng được xem xét và giải quyết trorm phuơnR pháp này. Phươns pháp được đề
xuất cung cấp một giải pháp hoàn chỉnh cho việc tách từ dược bièu diễn bãng ngôn
ngữ cử chỉ tiếng Việt theo cách đánh vần. Chúng tôi cũne đã thử nghiệm phương pháp
được đề xuất và thu được kết quả tốt.
5
những điểm mà cử chỉ xảy ra. Một vài nghiên cứu giải quyết vấn đê này băng cách
chèn vào những ký hiệu đánh dấu [16] hoặc giữ yên tay khoảng một phút để nhận dạng
[17]. Hanrling [6] tính toán sức căng của tay (hand tension) và sử dụng nó để phân
đoạn. Tay ở trạng thái thoải mái có ít sức căng hơn khi tay thể hiện cử chỉ biểu diễn
chữ cái. Việc chuyển từ một cử chỉ này sang cử chỉ khác sẽ đi qua một trạng thái tay
thoải mái. Quan sát này được sử dụng để phát hiện biên giữa các chữ cái. Tuy nhiên,
phương pháp này mới chì được thử nghiệm trên một tập dừ liệu nhỏ và dường như chỉ
phù hợp với những hệ thống sử dụng găng tay dữ liệu để thu nhận thông tin. Wu [10]
dựa trên sự khác nhau giữa frame ảnh hiện tại và frame trung bình đê tách các đoạn
chuyển động và đứng yên của tay. H. Birk [12] sử dụng hai kỹ thuật dựa trên chuyển
đông để phân đoạn các dữ liệu theo thời gian. Ngoài ra, vấn đề tách hai kỷ tự liền nhau
giống nhau cũng được xem xét (VD: chữ cái T trong từ "hello”). Đe giải quyết vấn đề
6
này, H. Birk sử dụng kỹ thuật thử ba dựa trên quan sát ràng có một chuyển động nhỏ
giữa chúng. Ba kỹ thuật này được kêt họp với nhau bàng phép toán AND để xác định
kêt quả cuối cùng. R. Erenshteyn [11] nhận dạng các chữ cái theo thời gian thực và sử
dụng hai bộ lọc cho phân tách đoạn. Kỹ thuật đầu tiên sử dụng sự khác nhau giữa các
frame ảnh. Kỷ thuật thữ hai dựa trên những phân tích về độ biến đổi. Trong kỹ thuật
này, điểm kết thúc của một chữ cái là nơi có sự biến đổi lớn nhất của kết quả nhận
dạng và cách nhau một khoảng nhất định nào đó. Việc nhận dạng được thực hiện tại
điểm giữa của đoạn dữ liệu được phát hiện. Độ chính xác của hai bộ lọc là 87.8% và
92.3%. Tuy nhiên, bộ lọc thứ nhất cho nhiều đoạn dư thừa trong khi bộ lọc thứ hai xoá
mất một số đoạn.
Những kỹ thuật hiện tại thường được áp dụng một cách riêng lẻ. Do vậy, độ chính xác
phân đoạn không được cao. Hiện tại, cũng không có một giải pháp toàn diện từ việc
tách chữ đến tách từ tự động phục vụ cho việc nhận dạng ngôn ngữ dấu hiệu nói chung
và ngôn ngữ dấu hiệu tiếng Việt nói riêng theo cách đánh vần. Bởi vậy, trone đề tài
này, chúng tôi đề xuất một phương pháp mới cho việc phân đoạn. Theo phương pháp
này, một số các kỹ thuật được áp dụng tuần tự để xác định các đoạn dữ liệu có nghĩa
trong dòng dữ liệu theo thời gian. Đầu tiên, vận tốc chuyển động cùa tay được tính
tới kỹ thuật này và tạo ra nhiều đoạn dư thừa. May mắn thay, người “nói” bằng ngôn
ngữ dấu hiệu phải giữ tay một khoảng đủ lâu để người “nghe” có thể nhận biết. Bời
vậy, để loại bỏ những đoạn dừ liệu bị phân tách sai, chúng tôi sử dụng bộ lọc dựa trên
tốc độ ra ký tự. Đặc trưng được sử dụng là khoảng thời gian thể hiện cử chỉ. Tại mỗi
đoạn dữ liệu thu được từ kỹ thuật trên, đặc trưng này được tính toán và so sánh với hai
ngưỡng: ngưỡng thấp và ngưỡng cao. Một đoạn dữ liệu được chọn nếu thời gian ra ký
hiệu nam giữa hai ngưỡng (Hình! 1)
1 2
1
o 8
0 6
0 4
0 2
0
1 1 1
r * - * - * * ■— * * * 1 A <^ 1
— -
— Ị f —it i ĩ
a 15 22 29 -S7 FiA 71 1A ị « i ỊỊ 1 ịỴ
113 1 2 0 1 2 7 1J4 14
1 140
posture
Hình 1. Cử chỉ biểu diễn chữ cái có khoảng thời gian thể hiện nằm giữa ngưỡng thấp
và ngưởng cao của bộ lọc dựa trên tốc độ ra ký hiệu
• Nhận dạng ký tự và tách từ
Tại mỗi đoạn dữ liệu hợp lệ, giá trị của ký tự được tính là trung bình của các giá trị có
Với dữ liệu thu được, vận tốc được tính theo công thức 2 tại mỗi frame
v(0 = ^
(2)
trong đó P(i, t) là giá trị của sensor i tại thời frame t, và n là tổng số sensor
Hai frame liền kề được ghép vào một đoạn nếu vận tốc tay tại mỗi frame thấp hơn
ngưỡng. Hầu hết các đoạn dữ liệu chứa cử chỉ đều được phát hiện bàng kỹ thuật này.
Tuy nhiên, số lượng các đoạn dư thừa khá lớn. Lý do là khi tay thể hiện cử chí, nó
không hoàn toàn được giữ nguyên (VD: đoạn thứ ba trong Hình 5), hoặc do sự chuyển
động chậm của một số ngón tay (VD: đoạn thứ tư trong Hình 5) gây ra nhiễu. Chúng
tôi nhận thấy ràng nhiễu thường nhẹ và nhanh hơn các cử chỉ. Ngoài ra, các đoạn dữ
liệu quá dài cũng là những hiện tượng không bình thường. Trong hầu hết các trường
hợp, các đoạn dữ liệu này được tách ra do sai số trong phân đoạn theo vận tốc hơn là
do người sử dụng. Do vậy, chúng cũng là thông tin dư thừa (xem Hình 6). Chúng tôi
tính toán khoảng thời gian giữ yên cử chỉ tại mỗi đoạn dừ liệu có nghĩa. Trong thực
nghiệm này, đoạn dữ liệu được loại bỏ nếu giá trị này nhỏ hơn ngưỡng 150tns hoặc
lớn hơn ngưỡng 1500ms.
Ngoài ra, ngôn ngữ dấu hiệu tiếng Việt cũng phải đối mặt với vấn đề hai chừ cái liền
kề giống nhau. Như đã phân tích trong [12], có một chuyển động nhỏ giữa chúng. Do
vậy, bộ lọc dựa trên tốc độ ra ký tự có thể giải quyết vấn đề này (Hình 7).
10
Hình 5. Năm đoạn dữ liệu được đưa ra dựa trên vận tốc chuyển độc của tay, tronạ đó
hai đoạn không hợp lệ dược loại bò bởi bộ lọc dựa trên tốc độ ra ký hiệu.
-
L v '
«
\
u ỉ
h
\
X 100%
NumberofActualSegments
Kết quả được thể hiện trong bảng 1 và bảng 2. Kỹ thuật phân đoạn đạt kết quả tốt nhất
với hai ngưỡng vận tốc 0.05 và 0.10. Trong thực nghiệm này, nếu lấy ngưỡng nhó hơn
0.02, nhiều đoạn dữ liệu có nghĩa bị bỏ qua. Ngược lại, nếu lấy ngưỡng lớn hơn như
0.15 hoặc 0.20, các đoạn dữ liệu bị ghép lại với nhau. Điều này dẫn đến độ chính xác
và độ gợi nhớ giảm.
Chi sử dụng kỹ thuật phân đoạn dựa trên vận tốc, 60.6% - 96.46% đoạn dữ liệu có
nghĩa được phát hiện. Tuy nhiên, độ chính xác thì tương đối thấp do xuất hiện nhiều
đoạn dư thừa (57.08% - 68.95%). Ket hụp thêm bộ lọc thứ hai, độ gợi nhớ được giữ
nguyên trong khi độ chính xác tăng lên đáng kể (81.08% - 95.27%). Điều này chứng tỏ
rằng việc kết hợp các kỹ thuật đưa lại kết quả cao hơn so với phương pháp chỉ dùng
một kỹ thuật đơn lẻ. Độ gợi nhớ được giữ nguyên chứng tỏ sự hiệu quà trong việc lựa
chon ngưỡng cho bộ lọc dựa trên tốc độ ra ký tự.
Bảng 1. Phân đoạn theo vận tốc tay với các ngưỡng vận tốc khác nhau.
Ngưỡng vận tốc Phân đoan theo vân tốc
Độ chính xác (%)
Độ gợi nhó (%)
0.02 57.08
83.50
0.05 68.95 96.46
0.10
65.81 94.95
0.15
60.87
77.78
0.20
57.14
60.60
Journal o f Science, Natural Sciences and Technology 24, No. 3S (2008), pp. 82-
89.
o 01 báo cáo tổng hợp về kết quả nghiên cứu của đê tài
13
•
Kết quả ứng dụng
01 chương trình phân đoạn và nhận dạng các chữ cái tiếng Việt trong dòng dừ
liệu theo thời gian.
•
Kết quả đào tạo
o 01 khoá luận cử nhân chuyên ngành CNTT:
Trần Xuân Dũng, “Các phương pháp mô tả ngôn ngữ dấu hiệu và ứng dụng xây
dựng từ điển nhập liệu cho ngôn ngữ đấu hiệu Tiếng Việt”, 2007.
5. Kết luận
Trong đề tài này, chúng tôi đã đề xuất ra một phương pháp mới cho phân đoạn chữ cái
tiếng Việt trong ngôn ngữ dấu hiệu. Chúng tôi áp dụng nhiều kỹ thuật tuần tự để xác
định đoạn dữ liệu có nghĩa trong dòng dữ liệu thu được theo thời gian. Đầu tiên, vận
tốc của tay được tính toán. Các đoạn dữ liệu tương ứng với tay đứng yên được lựa
chọn. Một bộ lọc dựa trên tốc độ ra ký tự được áp dụng để loại bỏ những đoạn dữ liệu
không chính xác. Cuối cùng, ký tự được nhận dạng và nhóm lại thành từ dựa trên từ
điển tiếng Việt. Với phương pháp này, chúng tôi đạt được độ chính xác và độ gợi nhớ
cao trong việc phân đoạn. So với những kỹ thuật hiện có, phương pháp này trả lại kết
quả có độ chính xác cao hơn. Những vấn đề đặc biệt như hai chữ cái liền kề giống
nhau cũng được giải quyết. Ngoài ra, việc phân tách từ tự động cũng được xem xét và
giải quyết trong phương pháp này. Phương pháp được đề xuất cung cấp một giái pháp
hoàn chỉnh cho việc tách từ được biểu diễn bằng ngôn ngữ cử chỉ tiếng Việt theo cách
đánh vần không dấu. Phương pháp được đề xuất đã được thử nghiệm và thu được kết
quả tốt.
Vấn đề phân đoạn cho các chữ cái tiếng Việt có dấu chưa được xem xét trong đề tài
này. Ngoài 23 chữ cái thông thường, tiếng Việt còn có những chữ cái có dấu (À, Ă, ô,
[5] Gaolin Fang, Wen Gao, Xilin Chen, Chunli Wang, and Jiyong Ma (2001), “Signer-
independent Continuous Sign Language Recognition Based on SRN/HMM”,
Lecture Notes In Computer Science, vol. 2298, pp. 76-85.
[6] Philip A. Harling, and Alistair D.N. Edwards (1996), “Hand tension as a gesture
segmentation cue”, Proc. of Gesture Workshop on Progress in Gestural
Interaction, pp. 75-88.
[7] Peter Vamplew, and Anthony Adams (1998), “Recognition of sign language
gestures using neural networks”, Australian Journal of Intelligent Information
Processing Systems, pp. 94-102
[8] Sylvie c.w . Ong and Surendra Ranganath (2005), “Automatic Sign Language
Analysis: A Survey and the Future beyond Lexical meaning”, IEEE Transaction on
Pattern Analysis and Machine Intelligence, vol. 27, no. 6, pp. 873-891.
[9] J. Karamer and L. Leifer (1978), “The Talking Glove: An Expressive and
Receptive Verbal Communication Aid for the Deaf, Deaf-Blind, and Nonvocal”,
Pi VC. Third Ann. Conf. Computer Technology>, Special Education, Rehabilitation,
pp. 335-340.
[10] J. Wu and w . Gao (2001), “The Recognition of Funger-Spelling for Chiness
Sign Language”, Proc. Gesture Workshop, pp. 96-100.
[11] R. Erenshteyn, p. Laskov, R. Foulds, L. Messing, and G. Stem (1996),
“Recognition Approach to Gesture Language Understanding”, Proc. Int’I Conf.
Pattern Recognition, vol. 3, pp. 431-435.
15
[12] H. Birk, T.B. Moeslund, and C.B. Madsen (1997), “Real-Time Recognition of
Hand Alphabet Gestures Using Principal Component Analysis”, Proc.
Scandinavian Conf. Image Analysis, pp. 261-268.
[13] N. Chaimanonart, and D. J. Young (2006), “Remote RF powering system for
wireless MEMS strain sensors”, IEEE Sensors Journal, Vol. 6-2, pp. 484 - 489.
[14] Fifth Dimension Technologies (2004), “5DT Data Glove Ultra Series, User’s
Manual”, .
[15] The Duy Bui, and Thang Long Nguyen (2007), “Recognizing postures in
Vol. 24, No. 3S, 2008
CONTENTS
1 . Dominique Estival, Author attribution with email messages 1
2. Ho Tu Bao, Vietnamese language processing: issues and challenges 10
3 . Mathai Joseph, New opportunities in software engineering 17
4 . Cao Tuan Dung, Nguyen Thi Thu Trang, Nguyen Due Dat, Kieu Quang Thien, Do
Dinh Thang, An approach based on web services and ontology for improving the
interoperability in an E-Health system 23
5 . Cao Tuan Dung, Nguyen Thi Thu Trang, Trinh Tuan Dat, Nguyen Tu Hoan, Ngo
Tuan Phong, Method and tool for semantic web query construction and graphical
result presentation 36
6 . Oily Gotel, Vidya K ulkarni, Des Phal, Moniphal Say, Christelle Scharff,
Thanwadee Sunetnanta, Impacting global software development through socialization
activities in virtual world environments 49
7 . Ho Tu Bao, Pham Ngoe Khanh, Ha Thanh Le, Nguyen Thi Phuong Thao, Issues
and first phase development of the English-Vietnamese translation system EVSMT1.0 59
8 . Wojciech Jamroga, A Temporal Logic for Multi-Agent MDP’s 67
9 . Nguyen Quoc Dai, Nguyen Quoc Dat, Pham Bao Son, Bui The Duy, A fast
approach to automatic detection of web page content 75
10 . Nguyen Thi Nhat Thanh, Bui The Duy, A new framework for automated gesture
segmentation in Vietnamese Sign Language 82
11. Pham Van Huong, Tran Minh Tuan, Do Quoc Huy, Le Hong Trang,
Vu Thanh Nhan, N guyen Ngoe Binh, Truong Anh Hoang, Vu Quang Dung, Some
approaches to Nôm optical character recognition 90
12 . c . Rosenthal-Sabroux, Towards a new vision of Information System Engineering 100
13 . Tran Ngoc Bao, Nguyen Dinh Thuc, Tran Dan Thu, An improvement o f Graph
Isomorphism based authentication protocol using modular Matrix cipher 108
14 . Tran Binh Giang, Pham Due Dang, Pham Bao Son, A knowledge engineering
approach for English-Vietnamese weather bulletins machine translation
1 1
deaf community. Different from speech, sign
language uses finger spelling and gestures to
convey information. Automatic sign
language recognition and interpretation
conccntrate on understanding human signs
and translating them into text or speech,
which might help to overcome the difficulties
* Corresponding author. Tel.: +84 4 3754 yuio
E-mail: thanhntn;»!vnu.edu.vn.
in communication between the deft people
and the rest of the world. These systems are
often developed with two main approaches:
vision based approach and device based
approach. Corresponding to the two
approaches, time-serial data is obtained as
the input of systems in two different formats.
Vision based approach uses video cameras to
capture user’s gesture, while device based
approach depends on sensing gloves to get
hand parameters such as joint angles and
hand position.
Sign language is presented by the
sequential gestures in which some gestures
1
N.T.N. Thanh, B.T.Duy / VNU Journal of Science, Natural Sciences and Technology 24, No. 3S (2008) 82-89 83
bring information, while others are
epenthesis. The arisen question is how to
identify and locate valid gestures in the time-
serial data. Segmentation is one solution to
this problem. Segmentation has been
candidates to predefined thresholds. The
meaning motions and transitions are
separated by acceleration in which motions
have the minimum acceleration. This
method was applied for 100 words of
Japanese Sign Language, and got 80.2%
accuracy. Another approach in [14] uses
iime-varying parameters (TVP) as the cues to
detect the correct postures which have the
number of TVPs dropping below a threshold.
Gaolin Fang et al. [31 proposed a more
effective method. Simple Recurrent Network
(SRN) was used to classify gesture into three
output units: the left boundary, the right
boundary, and interior of segments. Using
SRN independently, the accuracy of
segmentation IS 87%. Hence, self organizing
feature maps (SOFM) was added. It was used
as the feature extraction network providing
inputs for SRN. It can determine the left
boundary and right boundary, used as
constraint in the segmentation. With this
method, the segmentation recall reaches to
98.8%.
Beside gestures, finger spelling plays an
important role in sign language. In this
manner, finger postures corresponding to
letters of the alphabet are presented
sequentially and conform to the spelling rules
to make a word. The segmentation for finger
The derivative analysis provides the
foundation for the second filter. In this filter,
the end point of a letter is where there is
greatest variation of recognition results and
meets an additional minimum proximity
heuristic. The recognition is performed at the
midpoints of the segments. The segmentation
accuracies of two filters are 87.8% and
92.3%, respectively. Nevertheless, the first
filter leaves many redundant segments, and
the second deletes extra middle points.
In this paper, we propose a new
framework for automatic gesture
segmentation of Vietnamese Sign Language.
We concentrate on finger spelling
segmentation. In our framework, a number of
techniques are applied sequentially to
identify the valid segment for each letter in
the time serial data. Firstly, hand velocity is
calculated to find the stable candidates where
velocities decrease to a certain threshold.
Then, we apply a filter based on the signing
rate featured by the posturing duration to
remove redundant segments. A represented
value of each valid segment is calculated to
be the input of a letter recognition system.
After that, words are segmented from the
sequence of recognized letters based on
maximal matching to predefined words in a
Vietnamese dictionary. With our framework,
many redundant segments are found together
with valid segments because this technique is
very sensitive with noises. Therefore, in the
next step, we apply a filter based on the
sig n in g rate w h ic h fea tu re s w ith the
posturing duration to remove superfluous
candidates. The letter value and the average
of weighted sum of values in a selected
segment are used for recognition. After that,
words need to be recognized from the
sequence of recognized letters. Word
segmentation is not required if the signer is
forced to place a special sign after each
word. However, that is not a natural way of
signing. In order to separate word
automatically from a sequence of characters,
we use the maximal matching approach with
the presence of a Vietnamese dictionary. This
approach is also used to correct mis-
recognized letters.
2.1. Letter segmentation by hand velocity
This technique is based on the nature of
finger spelling. In this manner, letters are
signed sequentially following the spelling
N.T.N. Thanh, B.T.Duy / VNU Journal of Science, Natural Sciences and Technology 24, No. 3S (2008) 82-89 85
grammar. Each letter is presented by a posture
described by hand shape and palm orientation.
Postures have to be stable to recognize.
Therefore, postures are corresponding to
segments having low hand velocity, while
average of sum of corresponding values in a
selected number of segments (Equation 1):
d(k) - {p(i,k),i = 0 17} (1)
p ơ . o
p(i,k) = — —
N
where d(k) is the represented value of
segment k, p(i, k) is the average value of sensor
i at segment k, P(i, t) is the value of sensor i at
frame t, and N is the number of frames in
segment k.
We applied the classification method
mentioned in [17], 23 letters (A, B, c, D, Đ, E,
G, H, I, K, L, M, N, o, p, Q, R s ’ T, u, V, X,
and Y) of Vietnamese Sign Language alphabet
are recognized with high recognition accuracy.
In this paper, we have not considered
letters with diacritical signs {e.g. Ả, Ả, 0, ơ, E,
Ư) and tones (e.g. level, high rising, low
(falling), dipping rising, high rising glottalized,
and low glottalized) of the Vietnamese
alphabet. Each diacritical sign is presented by
an independent sign and follows a particular
letter to form another. Each tone is formed by a
sign combined with a motion. Therefore, the
segmentation for them is carried out after the
recognition phase and needs additional
techniques.
3. Experiment and discussion
3.1. Data collection and pre-processing
1» w r . . -
1 J
1 4 7 10 13 16 19 22 25 2fl 31 34 37 40 43 46 49 52 S5 56 61 64 67 70 73 76 79 82 65
Figure 2. Raw data.
1 A 7 to 13 16 19 22 25 2B 31 34 37 40 43 46 49 52 55 58 61 M 67 70 73 78 79 B2 B5
Figure 3. Data is smoothed with Gaussian Filter.
3.2. Segmentation with hand velocity and
signing rate filter
With the data collected from the Data
Glove, the hand velocity was calculated by
Equation 3 at every frame:
ỀlPí/.O-PO í-i)!
v(0 = —
77
(3)
N
where P(i, t) is the value of sensor i at
frame t, and N is the number of sensors.
The adjacent frames form a candidate if the
velocities at these frames are lower than a
threshold. Almost of all segments including
postures are detected by this technique.
However, the number of superfluous segments
is rather large. The reason is that unstable
postures, e.g. the third segment in Figure 5, or
slow movement parts of the hand, e.g. the
fourth segment in Figure 5, create invalid
segments (noises). We found that noise is often