Xây dựng và khảo sát độ dài từ khóa trong nhận dạng người nói phụ thuộc vào từ khóa tiếng Việt theo mô hình Markov ẩn - pdf 16

Download miễn phí Xây dựng và khảo sát độ dài từ khóa trong nhận dạng người nói phụ thuộc vào từ khóa tiếng Việt theo mô hình Markov ẩn



Việc trích chọn đặc trưng người nói cómột ý nghĩa hếtsức quan trọng, tácdộng trực tiếptới độ chính xác nhậndạngcủahệ nhậndạng người nói.Với cáchệnhậndạng người nói nói chung, các đặc trưngvề người nói được trích chọn có thể chia ra 2 nhóm. Nhómmột baogồm các loại đặc trưng mang thông tinvề tiếng nói như cáctầnsố formant,tầnsố âmcơbản, haynăng lượng Nhóm haigồm các loại đặc trưng mang thông tinvề đường bao phổ như cáchệsốdự đoán tuyến tính (LPC), cáchệsố cepstrum, cáchệsố cepstrumdựđoán tuyến tính (LPCC) hay cáchệsố ceptrumtầnsốMel (MFCC). Các nghiêncứuvề nhậndạng người nói đều chỉ rarằng, các đặc trưng thuộc nhóm hai hiệu quảhơn sovới nhómmột.



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

Tạp chí BCVT & CNTT kỳ 3 10/2007
- 93 -
Abstract: A text-dependent speaker identification
system for Vietnamese language was proposed. Vietnamese
isolated digits 09 and their concatenations were used for
speaking text. Well-known Hiden Markov Model (HMM)
was conducted for recognition engine. The problem is that
how many word of the Vietnamese text so that the system
is most effective. Studying the identification rate shows
optimum number of words of the text for the system.
I. GIỚI THIỆU
Nhận dạng người nói phụ thuộc từ khóa (text
dependent speaker recognition) là kỹ thuật nhận dạng
người nói có khả năng ứng dụng rất lớn, ví dụ như
đăng nhập vào các hệ thống an ninh bằng mật khẩu
tiếng nói hay truy cập bằng tiếng nói vào các hệ thống
giao dịch ngân hàng trên mạng điện thoại thông qua
mã số cá nhân (số PIN)... Do tận dụng được các thông
tin biết trước là nội dung tiếng nói khi huấn luyện cũng
như khi nhận dạng nên độ chính xác nhận dạng tăng
lên trong khi thời gian huấn luyện và nhận dạng lại
giảm nhiều so với nhân dạng người nói không phụ
thuộc từ khóa (text independent speaker recognition).
Tuy nhiên hạn chế của kỹ thuật này là không có sự
thay đổi trong mật khẩu nên hệ thống dễ bị tấn công
bởi những kẻ giả mạo bằng cách ghi âm lại mật khẩu
và tấn công hệ thống. Để chống lại điều này, nhiều hệ
thống đã thay đổi các cụm từ mật khẩu. Chẳng hạn
trong trường hợp cụm từ là các số, hệ thống sẽ sinh
một cụm từ mật khẩu là một dãy số ngẫu nhiên nào đó
và thông báo nó mỗi khi có người đăng nhập hệ thống.
Các nghiên cứu chỉ ra rằng việc sử dụng các dãy số và
một số các từ cố định trong cụm từ mật khẩu khá hiệu
quả khi chống lại sự giả mạo theo kiểu ghi âm từ khóa
[1]. Trong pha huấn luyện, những người đăng ký sẽ nói
các số và một số các từ cố định. Khi nhận dạng, hệ
thống sẽ thay đổi cụm từ mỗi lần đăng nhập trong tập
các từ được huấn luyện. Mặc dù việc nhận dạng này
vẫn là phụ thuộc từ khóa song nó làm cho sự giả mạo
trở nên khó khăn hơn rất nhiều vì không biết được
chính xác cụm từ mật khẩu tự sinh của hệ thống. Các
hệ thống như vậy được gọi là các hệ nhận dạng người
nói phụ thuộc từ khóa thay đổi (text prompted speaker
recognition).
Trên phương diện ngữ âm, tiếng Việt là một ngôn
ngữ đơn âm tiết do vậy độ dài từ khóa ở đây được xác
định là số âm tiết trong từ khóa. Trong trường hợp
cụm từ khóa là các số tự nhiên từ 0 đến 9, từ khóa (tức
mật khẩu từ sinh của hệ thống) sẽ là một dãy số ngẫu
nhiên nào đó, ví dụ 5372693 là một từ khóa có độ dài
là 7 âm tiết. Vấn đề đặt ra ở đây là độ dài từ khóa tự
sinh của hệ thống bằng bao nhiêu thì hợp lý. Nếu quá
ngắn độ chính xác nhận dạng sẽ khó được đảm bảo,
ngược lại nếu quá dài thời gian nhận dạng sẽ tăng lên
nhưng độ chính xác nhận dạng liệu có tăng như mong
muốn hay chỉ tiêu tốn thêm thời gian nhận dạng. Với
các ngôn ngữ khác vấn đề này cũng đã được đặt ra. Ví
dụ như với tiếng Thái, cũng là một ngôn ngữ đơn âm
tiết và có thanh điệu như tiếng Việt, các tác giả trong
[6] đã sử dụng các đặc trưng là các hệ số LPCC và
mạng nơron perception nhiều lớp (MLP) để phân lớp
người nói các con số bằng tiếng Thái, kết quả cho thấy
khi độ dài từ khóa lớn hơn 4 độ chính xác nhận dạng
hầu như không tăng hay tăng không đáng kể. Bài viết
này trình bày các kết quả khảo sát độ chính xác nhận
Xây dựng và khảo sát độ dài từ khóa trong nhận dạng người
nói phụ thuộc vào từ khóa tiếng Việt theo mô hình Markov ẩn
Developing and Studying the Length of the Text in Vietnamese Text
Dependent Speaker Recognition by HMM
Ngô Minh Dũng, Đặng Văn Chuyết
Tạp chí BCVT & CNTT kỳ 3 10/2007
- 94 -
dạng người nói với các độ dài cụm từ mật khẩu khác
nhau của một hệ thống nhận dạng người nói phụ thuộc
từ khóa thay đổi theo mô hình Markov ẩn (HMM) với
tập từ khóa huấn luyện là các âm tiếng Việt từ số 0 đến
số 9 .
Bài viết gồm 5 phần. Ngoài phần giới thiệu này,
phần 2 sẽ trình bày về lựa chọn vector đặc trưng và mô
hình phân lớp cho người nói khi xây dựng hệ nhận
dạng người nói phụ thuộc từ khóa là các âm tiết tiếng
Việt. Phần 3 trình bày cơ sở dữ liệu tiếng nói để huấn
luyện, kiểm tra hệ thống và lựa chọn phương pháp
nghiên cứu. Phần 4 xây dựng một hệ nhận dạng người
nói phụ thuộc từ khóa thay đổi theo mô hình HMM.
Phần 5 là kết quả khảo sát mô hình được đề xuất theo
độ dài từ khóa và kết luận đánh giá.
II. LỰA CHỌN VECTOR ĐẶC TRƯNG VÀ MÔ
HÌNH PHÂN LỚP NGƯỜI NÓI
Cũng giống như khi xây dựng các hệ nhận dạng tự
động, hai vấn đề luôn được đặt ra khi xây dựng hệ
nhận dạng người nói đó là trích chọn đặc trưng nào và
lựa chọn mô hình phân lớp như thế nào cho nhận dạng
người nói.
1. Trích chọn các đặc trưng người nói
Việc trích chọn đặc trưng người nói có một ý nghĩa
hết sức quan trọng, tác dộng trực tiếp tới độ chính xác
nhận dạng của hệ nhận dạng người nói. Với các hệ
nhận dạng người nói nói chung, các đặc trưng về người
nói được trích chọn có thể chia ra 2 nhóm. Nhóm một
bao gồm các loại đặc trưng mang thông tin về tiếng nói
như các tần số formant, tần số âm cơ bản, hay năng
lượng… Nhóm hai gồm các loại đặc trưng mang thông
tin về đường bao phổ như các hệ số đoán tuyến tính
(LPC), các hệ số cepstrum, các hệ số cepstrum dự
đoán tuyến tính (LPCC) hay các hệ số ceptrum tần số
Mel (MFCC).... Các nghiên cứu về nhận dạng người
nói đều chỉ ra rằng, các đặc trưng thuộc nhóm hai hiệu
quả hơn so với nhóm một. Trong số các loại đặc trưng
mang thông tin về đường bao phổ, họ các hệ số
ceptrum có khả năng phân biệt người nói tốt hơn so
với các đặc trưng khác do các hệ số này khai thác khá
tốt các đặc tính của tuyến âm, một trong các đặc tính
quan trọng nhất phân biệt giọng nói người này với
người khác.
Để xây dựng hệ nhận dạng người nói phụ thuộc từ
khóa cho tiếng Việt chúng tui chọn các hệ số MFCC
làm đặc trưng trích chọn vì so với các đặc trưng khác
việc tính toán MFCC không quá phức tạp. Và một
thực tế là rất nhiều hệ nhận dạng người nói hiện nay
trên thế giới sử dụng các hệ số MFCC làm đặc trưng
trích chọn. Việc lựa chọn số hệ số MFCC dựa trên
những yêu cầu khác nhau về độ chính xác nhận dạng
hay tốc độ tính toán, tùy theo từng tác giả, có thể chọn
bằng 12 như tác giả J.E. Higgins and R.I.Damper
trong [2], bằng 15 như Chai Wutiwiwachai và các
cộng sự trong [3] hay thậm chí là 20 như tác giả Minh
N Do trong [4]. Với hệ thống nhận dạng khảo sát ở
đây chúng tui đã chọn số hệ số MFCC bằng 19 sau khi
đã bỏ đi hệ số đầu tiên. Việc lựa chọn số hệ số MFCC
này dựa trên kết quả khảo sát độ chính xác nhận dạng
người nói của các âm tiết tiếng Việt đã được chúng tui
trình bày trong [12]. Còn việc loại bỏ hệ số MFCC đầu
tiên do hệ số này mang thông tin về thành phần một
chiều, một thông tin không có ý nghĩa phân biệt người ...
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status