Đề tài: “Nhận dạng giọng nói
bằng mạng Neural hồi quy”
BÁO CÁO ĐỒ ÁN TỐT NGHIỆP
Đăt vấn đề (1/2)
Mọi người có thể dễ dàng hiểu được người khác nói gì và
có thể chỉ cần nghe giọng nói là có thể phân biệt được đó
là ai.
Tuy nhiên, trong lĩnh vực thị giác máy tính để có thể làm
được điều này là vô cùng khó khăn.
Hơn một thập kỷ qua với sự phát triển mạnh mẽ của công
nghệ thông tin, công nghệ xử lý tiếng nói như mã hóa,
nhận dạng tiếng nói, chuyển lời nói thành văn bản,
chuyển chữ viết thành lời nói…đã trở thành vấn đề nghiên
cứu trọng điểm được nhiều nhà khoa học quan tâm ở các
lĩnh vực khác nhau như tin học, toán học, điều khiển, điện
tử, sinh học…
2/26
Đăt vấn đề (2/2)
Trong thời gian gần đây, các nhà nghiên cứu đang tập trung
vào công nghệ nhận dạng giọng nói và đã có một số thành công
đối với việc nhận dạng tiếng Anh và một số ngôn ngữ khác, ví
dụ như các phần mềm Via Voice Gold của hãng IBM, Speech
SDK của Microsoft, Dragon Natural Speaking của Dragon
System.
Đối với nước ta, đã có nhiều công trình nghiên cứu về lĩnh
Cài đặt chương trình và đánh giá kết quả
5/26
I. Tổng quan về hệ thống nhận
dạng giọng nói (1/3)
Nhận dạng giọng nói là quá trình thu nhận và xử lý tín
hiệu giọng nói nhằm mục đích nhận biết nội dung văn
bản của nó.
Quá trình phát âm của con người là giống nhau
nhưng tiếng nói của các nước khác nhau thì có
những điểm chung và khác.
Chính điểm khác nhau này là yếu tố quan trọng để có
thể nhận dạng tốt được các loại tiếng nói của các
nước.
6/26
I. Tổng quan về hệ thống nhận
dạng tiếng nói (2/3)
Âm tiếng việt tương đối tách biệt.
Tương đối nhất quán trong cách phát âm và cách viết
Âm tiết là đơn vị phát âm nhỏ nhất.
Âm tiết bao gồm nhiều yếu tố đoạn tính và các yếu tố
siêu đoạn tính.
Đặc điểm riêng của Tiếng việt là đơn âm và mang
thông cao với tần số cắt 140Hz.
21
21
1
9114024.09059465.11
46363718.092724705.046363718.0
)(
−−
−−
+−
+−
=
zz
zz
zH
h
(1.1)
10/26
Trích rút tham số (2/7)
2. Trích rút tham số LP
Tín hiệu được chia thành các khung 240 mẫu (tương
ứng với 30ms) được dùng để phân tích LP.
Hàm cửa sổ hóa dùng cho phân tích LP
11/26
10, ,0)(')(')(
kn
kknsnskr
(1.3)
(1.4)
12/26
239, ,0),()(W)(
lp
'
==
nnSnnS
được sử dụng để tính hệ số tương quan:
Các hệ số tương quan sau đó được chỉnh sửa:
)0(0001.1)0(
'
rr
=
10, ,1),()()(
'
==
kkrkwkr
lag
(1.5)
Trong đó:
10, ,1
2
2
1
exp)(
2
i
, i=0,…,10 từ
các phương trình:
Các phương trình trên được giải bằng thuật toán
Levinson-Durbin.
∑
=
=−=−
10
10, ,1)('|)(|'
i
i
kkrkira
(1.6)
13/26
Trích rút tham số (5/7)
3. Chuyển đổi LP thành LSP
Các hệ số LSP là nghiệm của tổng các đa thức
Nghiệm của các đa thức tạo thành một chu trình và
luân phiên nhau. (1.7) có nghiệm z=-1, (1.8) có nghiệm
z=0. Loại hai nghiệm này ta có đa thức mới:
)()()(
111'
1
−−
+=
zAzzAzF
)()()(
toán 5 hệ số đầu tiên của mỗi đa thức.
)cos(
ii
q
ω
=
πωωω
<<<<<
1021
0
∏
=
−−
+−=
10, ,4,2
21
2
21)(
i
i
zzqzF
∏
=
−−
+−=
9, ,3,1
21
1
21)(
i
Năng lượng băng thông thấp:
Tỉ lệ điểm cắt không:
Tần số phổ vạch là 10 tham số LSF
Nếu E
f
>=15db thì chuyển sang bước 2, ngược lại khung này là
nhiễu
=
)0(
1
log.10
10
R
N
E
f
Thuật Toán VAD (3/4)
2. Tính độ lệch các tham số
Sự méo quang phổ
Độ lệch dải năng lượng đầy
Độ lệch dải năng lượng
thấp
Độ lệch qua điểm cắt không
( )
∆
S LSFi LSF
i
i
p
= −
=
∑
2
1
∆
E E E
f
f
f
= −
l
l
∆ ∆
E a ZC b I
f VD
< ⋅ + =
4 1
4 4
) if then
∆ ∆
E a ZC b I
f VD
< ⋅ + =
1thenif)5
5
=<∆
VDf
IbE
1thenif)6
66
=+∆⋅<∆
VDf
IbSaE
1thenif)7
7
=>∆
VD
IbS
8 1
8 8
) if then I
∆ ∆
> ⋅ + =
1 then if )13
1313
=+∆⋅<∆
VDfl
IbEaE
14 1
14 14
) if then I
∆ ∆
E a E b
l f VD
< ⋅ + =
20/26
III. Mạng Neural hồi quy (1/3)
Mạng Haming
Là mạng hồi quy đơn giản nhất.
Ý tưởng: quyết định xem vectơ nguyên mẫu nào gần
với vectơ đầu vào nhất. Quyết định này được thực
hiện ở lớp hồi quy, khi lớp hồi quy hội tụ chỉ có một
neural thắng cuộc và neural đó biểu thị vectơ nguyên
mẫu gần với đầu vào nhất.
21/26
III. Mạng Neural hồi quy
(2/3)
Cấu trúc mạng
Chương trình đã thử nghiệm nhận dạng được 10 chữ số
và 12 nút lệnh. Có thể nhận dạng từ file hoặc thu âm.
Trong điều kiện ít nhiễu, có thể nhận dạng các từ phát
âm rời rạc chính xác đến trên 98%
Đã thử nghiệm nhận dạng phát âm liên tục và kết quả
rất khả quan.
Chương trình có thể nhận dạng trực tuyến, tức là đọc
đến đâu nhận dạng đến đó.
Giao diện thuận tiện trong việc học nếu nhận dạng sai.
25/26