Nhận dạng tiếng nói và ứng dụng tích hợp với các phầnmềm máy tính - Pdf 24

Website: Email : Tel (: 0918.775.368
LỜI NÓI ĐẦU
Nhằm rèn luyện kỹ năng tổng hợp các kiến thức đã học, tính tự chủ, tinh thần
trách nhiệm trong công việc, khả năng làm việc độc lập tạo ra bản thiết kế cho một
đề tài hoàn chỉnh, mỗi sinh viên trước khi tốt nghiệp đều được nhận một đề tài tốt
nghiệp do giáo viên hướng dẫn giao cho hoặc tự lựa chọn. Tham gia thực hiện đồ án
một cách nghiêm túc sẽ giúp sinh viên tiếp cận với các phương pháp giải quyết một
bài toán thực tế.
Tôi chọn đề tài: “Nhận dạng tiếng nói và ứng dụng tích hợp với các phần
mềm máy tính” làm đồ án của mình nhằm đạt các mục tiêu chính sau:
• Tìm hiểu về lĩnh vực xử lý tiếng nói;
• Nghiên cứu và tìm hiểu về ứng dụng nhận dạng tiếng nói;
• Xây dựng chương trình nhận dạng tiếng nói theo thời gian thực;
• Xây dựng chương trình tích hợp với các phần mềm máy tính.
Xử lí tiếng nói là lĩnh vực rộng đã và đang từng bước được nghiên cứu và thử
nghiệm trong thực tế. Nhờ sự nỗ lực của bản thân cùng sự giúp đỡ của gia đình,
thầy cô và bạn bè tôi đã thực hiện các nội dung của đồ án theo đúng yêu cầu.
Sau thời gian nghiên cứu, tìm hiểu và thực hiện, tôi xin trình bày bản báo cáo
tổng hợp những lý thuyết liên quan và chương trình Demo nhận dạng tiếng nói và
chương trình tích hợp với Excel.
Trước tiên tôi xin gửi lời cảm ơn tới cha mẹ và những người thân đã luôn động
viên và tạo điều kiện tốt nhất cho tôi học tập. Tôi cũng xin gửi lời cảm ơn tới các
thầy cô giáo trong khoa Công nghệ thông tin I nói riêng và Học viện Công nghệ
Bưu chính Viễn thông nói chung đã giúp đỡ, dìu dắt tôi trong những năm tháng học
tập tại trường. Đặc biệt, tôi xin chân thành cảm ơn thầy giáo Ts.Nguyễn Quang
Hoan người đã trực tiếp hướng dẫn trong thời gian tôi thực hiện đồ án tốt nghiệp.
1
Website: Email : Tel (: 0918.775.368
MỤC LỤC
Trang
LỜI NÓI ĐẦU 1

Website: Email : Tel (: 0918.775.368
CHƯƠNG 3 :MÔ HÌNH MARKOV ẨN 40
3.1CÁC QUÁ TRÌNH MARKOV RỜI RẠC 40
3.2MÔ HÌNH MARKOV ẨN 42
3.2.1Khái niệm 42
3.2.2Thành phần của mô hình Markov ẩn 44
3.2.3Ba bài toán cơ bản của mô hình Markov ẩn 46
3.2.4Các loại mô hình Markov ẩn 54
3.2.5Những vấn đề cần thực hiện đối với mô hình Markov ẩn 55
CHƯƠNG 4 :TÍCH HỢP VỚI PHẦN MỀM MÁY TÍNH 63
4.1GIỚI THIỆU 63
4.2TRAO ĐỔI DỮ LIỆU VỚI OFFICE XP 63
4.2.1Kết nối theo hướng Add-in 63
4.2.2Kết nối theo hướng Automation 65
4.3MÔ HÌNH ĐỐI TƯỢNG CỦA EXCEL 66
4.4ĐỌC GHI DỮ LIỆU VÀO BẢNG TÍNH EXCEL 68
CHƯƠNG 5 :THIẾT KẾ CHƯƠNG TRÌNH 70
5.1XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NÓI 70
5.1.1Thu âm 71
5.1.2Phát hiện tiếng nói 76
5.1.3Trích chọn đặc trưng 81
5.1.4Tạo codebook 83
5.1.5Lượng tử hóa Vector 85
5.1.6Huấn luyện mô hình 87
5.1.7Tính xác suất và quyết định 89
5.2TÍCH HỢP VỚI EXCEL 91
CHƯƠNG 6 :XÂY DỰNG CHƯƠNG TRÌNH VÀ THỬ NGHIỆM 92
6.1GIỚI THIỆU CHƯƠNG TRÌNH 92
6.1.1Giao diện chính của chương trình ứng dụng 92
6.1.2Một số chức năng chính của chương trình 93

WFT Windowed Fourier Transform Biến đổi Fourier cửa sổ
ZCR Zero Crossing Rate Tỉ lệ vượt quá điểm không
5
Nhận dạng tiếng nói và… Mở đầu
MỞ ĐẦU
Trong thời đại công nghệ thông tin hiện nay, khi việc giao tiếp giữa người với
máy, máy với máy… luôn luôn là vấn đề được quan tâm thì việc trao đổi thông tin
bằng tiếng nói có một vai trò quan trọng. Máy tính ra đời đã giúp con người giải
quyết công việc nhanh gọn và hiệu quả hơn. Tuy nhiên, các máy tính ngày nay chỉ
nhận thông tin từ con người qua các thiết bị như: bàn phím, chuột, bút, Mặc dù tốc
độ xử lý của máy tính ngày càng được cải thiện đáng kể song tốc độ tạo lập thông
tin của các thiết bị này vẫn còn thấp. Con người mong muốn máy tính ngày càng
mạnh hơn, thông minh hơn và một trong số các yêu cầu đó là máy tính trong tương
lai phải tương tác với người sử dụng bằng tiếng nói tự nhiên. Đây sẽ là một bước
tiến lớn nhằm nâng cao sức mạnh của máy tính, đồng thời cũng tăng tốc độ truyền
đạt thông tin giữa máy tính và con người.
Xử lý tiếng nói trở thành một trong những lĩnh vực quan trọng trong xu hướng
phát triển công nghệ của xã hội hiện nay. Đặc biệt, khi công nghệ thông tin ngày
càng phát triển thì các ứng dụng của xử lý tiếng nói ngày càng trở lên cấp thiết.
Mục đích của những nghiên cứu trong lĩnh vực xử lý tiếng nói là làm cho việc
tương tác giữa người và máy ngày càng hiệu quả và tự nhiên hơn.
Hiện nay trên thế giới các công nghệ xử lý tiếng nói đã phát triển, các hệ thống
ứng dụng xử lý tiếng nói đã được sử dụng ở nhiều nơi, độ chính xác của các hệ
thống này ngày càng được cải thiện. Các ứng dụng của lĩnh vực xử lý tiếng nói rất
phổ biến: nhận dạng tiếng nói, tổng hợp tiếng nói, xác thực người nói qua giọng nói
và các thành tựu của chúng được áp dụng vào nhiều lĩnh vực trong thực tế.
Ở Việt Nam vì nhiều lí do khác nhau nên xử lý tiếng nói còn chưa phát triển,
chưa có nhiều kết quả được công bố, đồng thời các ứng dụng của xử lý tiếng nói
chưa nhiều, tài liệu về xử lý tiếng nói viết bằng tiếng Việt chưa phổ biến.
Lĩnh vực xử lý tiếng nói đã và đang tiếp tục được nghiên cứu, phát triển và các

Nội dung của chương sẽ giới thiệu về chương trình đã xây dựng cùng với
một số kết quả được thống kê khi chạy thử nghiệm chương trình.
Nội dung cụ thể từng chương sẽ lần lượt được trình bày trong các phần tiếp
theo của đồ án.
Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói
CHƯƠNG 1 : TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI
1.1 GIỚI THIỆU VỀ XỬ LÝ TIẾNG NÓI
Xử lý tiếng nói ngày nay đang là vấn đề được quan tâm nghiên cứu nhiều bởi
khả năng ứng dụng trong nhiều lĩnh vực như: Công nghệ thông tin, Viễn thông, tự
động hóa (chế tạo người máy có khả năng tương tác với con người) qua đó giúp
quá trình tương tác giữa người với máy trở nên hiệu quả và tự nhiên hơn.
Quá trình xử lý tín hiệu tiếng nói là quá trình thu nhận, lưu trữ và truyền tín
hiệu. Quá trình nhận dạng, tổng hợp tiếng nói hay xác thực người nói thông qua
giọng nói là các ví dụ điển hình của quá trình xử lý tín hiệu tiếng nói.
Mục đích của xử lý tiếng nói:
• Thực hiện xử lý, mã hoá một cách có hiệu quả tín hiệu tiếng nói để truyền
và lưu trữ tiếng nói.
• Tổng hợp và nhận dạng tiếng nói tới giao tiếp người-máy bằng tiếng nói
dựa vào các thông tin của quá trình tiền xử lý…
Chúng ta có thể mô hình hóa cho bài toán xử lý tiếng nói như sau:
Hình 1-1 Mô hình bài toán xử lý tiếng nói.
Thông tin đầu vào là tín hiệu tiếng nói do con người phát ra dưới dạng tương
tự, sau đó tín hiệu này được số hóa (rời rạc, lượng tử và mã hóa dạng nhị phân).
Quá trình tiền xử lý tiếng nói tiến hành xử lý tín hiệu tiếng nói cho kết quả là các
tham số của tín hiệu tiếng nói (Các hệ số MFCC và LPC). Các tham số này trở
thành đầu vào đối với tất cả các ứng dụng của xử lý tiếng nói.
Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói
Như vậy tất cả các ứng dụng của xử lý tiếng nói đều cần phải dựa trên các kết
quả của quá trình tiền xử lý. Kết quả của quá trình này góp phần quyết định tính
chính xác và hiệu quả của các ứng dụng.

4. Nhận dạng trong môi trường nhiễu cao/thấp:
Hiệu năng của các hệ thống nhận dạng không nhiễu sẽ cao hơn hiệu năng của
các hệ thống nhận dạng có nhiễu.
Dưới đây là hình biểu diễn các phần tử cơ bản của một hệ thống nhận dạng
tiếng nói.
Hình 1-2 Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói
Tín hiệu tiếng nói sau khi được số hóa sẽ phân thành các khung có độ dài
khoảng từ 10 đến 45ms qua bước phân tích và xác định các đặc tính sẽ cho ta một
dãy các vector đặc tính của tiếng nói. Các vector này sau đó sẽ được sử dụng để tìm
kiếm các từ giống nhất trong từ điển dựa trên một số điều kiện ràng buộc nào đó về
mặt âm thanh, ngữ nghĩa, từ vựng…
Do tính chất của tiếng nói phụ thuộc vào nhiều yếu tố nên việc thu nhận, phân
tích các đặc trưng của tiếng nói là việc không dễ dàng. Ở đây, chúng ta có thể nêu ra
một số yếu tố khó khăn cho bài toán nhận dạng tiếng nói:
• Khi phát âm, người nói thường nói nhanh chậm khác nhau.
• Các từ được nói thường dài ngắn khác nhau.
• Một người cùng nói một từ nhưng ở hai lần phát âm khác nhau thì
cho kết quả phân tích khác nhau.
Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói
• Mỗi người có một chất giọng riêng được thể hiện thông qua độ cao của
âm, độ to của âm, cường độ âm và âm sắc
• Những yếu tố như nhiễu của môi trường, nhiễu của thiết bị thu…
1.2.2 Phân loại các hệ thống nhận dạng tiếng nói
Nhận dạng tiếng nói được chia thành hai nhóm dựa trên mục đích sử dụng:
• Nhóm được sử dụng với mục đích điều khiển thiết bị thông qua giọng nói.
• Nhóm sử dụng nhằm xử lý từ tiếng nói sang văn bản.
Phân loại các hệ thống nhận dạng tiếng nói sẽ giúp chúng ta có một cái nhìn
trực quan hơn về bài toán. Các hệ thống nhận dạng được phân loại như hình vẽ 1.4
dưới đây.
Hình 1-3 Sơ đồ phân loại các hệ thống nhận dạng tiếng nói

“đo” các đặc trưng của tiếng nói, mục đích là nhằm biểu diễn xấp xỉ các
đặc tính của tiếng nói thay đổi theo thời gian. Bước này là cần thiết cho
hầu hết các hệ thống nhận dạng theo các hướng tiếp cận khác nhau.
2. Bươc thứ hai: Là bước tách các đặc tính của tiếng nói nhằm biến đổi các
số đo phổ tín hiệu thành một tập các đặc trưng mô tả các đặc tính âm học
của các đơn vị ngữ âm khác nhau. Các đặc trưng đó có thể là: Tính chất
âm mũi, âm xát, vị trí các formant…
3. Bước thứ ba: Là bước phân đoạn và gán nhãn. Ở bước này hệ thống nhận
dạng cố gắng tìm các vùng âm thanh ổn định và gán cho mỗi vùng này
một nhãn phù hợp với đặc tính của đơn vị ngữ âm. Đối với một hệ thống
nhận dạng theo hướng âm học ngữ âm học thì bước này là tâm điểm và
khó thực hiên nhất. Do đó có rất nhiều chiến lược đã được sử dụng để
giới hạn phạm vi của các điểm phân đoạn và xác xuất gán nhãn.
4. Bước cuối cùng: Từ các khối ngữ âm thu được sau bước phân đoạn và
gán nhãn, người ta dựa vào một số nguyên tắc lựa chọn để kết hợp các
khối ngữ âm này thành các từ, câu nhận dạng.
Có rất nhiều vấn đề đối với một hệ thống nhận dạng tiếng nói theo hướng âm
học ngữ - ngữ âm học những vấn đề này bằng nhiều cách khác nhau nó ảnh hưởng
tới hiệu quả của một hệ thống nhận dạng theo hướng này. Những vấn đề đó là:
• Cần có sự hiểu biết về các đặc tính âm học của các đơn vị ngữ âm. Sự
hiểu biết này không thể đầy đủ cho tất cả nhưng đối với một số trường
hợp đơn giản thì có thể cho kết quả tốt.
• Sự chọn lựa các đặc trưng dựa của tiếng nói hầu hết tùy thuộc vào một
khía cạnh cụ thể mà ta quan tâm. Chúng được chọn theo trực giác không
tối ưu và đầy đủ ý nghĩa.
• Việc thiết kế của các hệ thống phân lớp âm thanh cũng không tối ưu và
hầu hết nó đều dựa trên cây nhị phân quyết định…
• Không có một thủ tục tự động lựa chọn ngưỡng chính xác để làm căn cứ
cho việc gán nhãn. Trên thực tế không có một phương pháp lý tưởng để
gán nhãn cho tập huấn luyện.

nên một từ tham chiếu chúng ta phải thu từ đó lặp đi lặp lại nhiều lần, sau
đó trích chọn các đặc trưng của những từ này nhằm tạo một từ tham chiếu
cho hệ thống.
3. Phân lớp mẫu: Trong bước này, mẫu cần nhận dạng được so sánh với các
mẫu tham chiếu. Ở đây, cần một thủ tục để tính khoảng cách cục bộ, và
quy chuẩn thời gian giữa các mẫu.
4. Quyết định logic: Sau bước phân lớp mẫu ta có được điểm đánh giá sự
“giống” nhau giữa mẫu cần nhận dạng và mẫu tham chiếu. Những thông
số điểm này sẽ được sử dụng để đưa ra quyết định là mẫu nào “giống”
với mẫu cần nhận dạng nhất.
Đặc điểm của một hệ thống nhận dạng mẫu:
• Hiệu năng của hệ thống rất nhạy cảm với số mẫu dữ liệu có trong tập huấn
luyện. Thông thường, khi mà số mẫu có trong tập huấn luyện càng nhiều
thì hiệu năng nhận của hệ thống càng cao.
• Mẫu tham chiếu rất nhạy cảm với môi trường thu âm và đặc tính của
đường truyền do đặc tính phổ của tiếng nói chịu tác động của đường
truyền và nhiễu nền.
• Không cần có những hiểu biết đặc biệt về ngôn ngữ chính vì vậy hệ thống
này ít phụ thuộc vào kích thước từ điển, cú pháp và ngữ nghĩa.
Khối lượng tính toán trong thủ tục huấn luyện hoặc nhận dạng tỷ lệ tuyến tính
với số mẫu dùng huấn luyện hoặc nhận dạng.
1.2.3.3 Phương pháp ứng dụng trí tuệ nhân tạo
Phương pháp này là sự lai tạo của của hai phương pháp trên với mục đích khai
thác tối đa ưu điểm của từng phương pháp. Phương pháp này điều chỉnh thủ tục
nhận dạng theo cách mà con người sử dụng trí tuệ của mình trong việc quan sát,
phân tích và cuối cùng đưa ra một quyết định dựa trên các thông số đặc trưng về âm
học. Những kỹ thuật thường được sử dụng cùng với các phương pháp này là:
Nhận dạng tiếng nói và… Chương 1: Tổng quan về nhận dạng tiếng nói
• Sử dụng hệ chuyên gia để phân đoạn và gán nhãn do đó bước chủ yếu và
khó nhất được thực hiện đơn giản hơn so với một hệ thống nhận dạng chỉ

Trong các hệ thống phát triển ứng dụng của xử lý tiếng nói (nhận dạng, tổng
hợp tiếng nói, xác thực người nói) có một bộ phận không thể thiếu là quá trình tiền
xử lý tiếng nói. Nhiệm vụ chính của quá trình này:
• Phát hiện tiếng nói từ tín hiệu âm thanh thu nhận được
• Tiến hành phân tích và trích chọn đặc trưng của tiếng nói để loại bỏ những
thông tin dư thừa chỉ giữ lại những thông tin cần thiết nhất của tiếng nói.
Các giải thuật cụ thể trong quá trình tiền xử lý sẽ được trình bày sau đây.
2.1 PHÁT HIỆN TIẾNG NÓI
Một khâu mà bất cứ một hệ thống nhận dạng tiếng nói nào cũng cần phải có là
khâu phát hiện tiếng nói [8]. Ở khâu này ta thực hiện công việc phân tách tín hiệu
tiếng nói với thành phần khác.
Một trong những nhân tố quan trọng nhất trong các giải thuật phát hiện tiếng
nói là chọn tham số sử dụng để tách tín hiệu tiếng nói với các tín hiệu khác. Có ba
tham số thường được dùng nhất hiện nay trong các giải thuật phát hiện tiếng nói:
Năng lượng ngắn hạn, tốc độ đi qua điểm không, lượng thông tin.
2.1.1 Năng lượng ngắn hạn
Giả sử ta có tín hiệu tiếng nói x(n), khung mà ta cần nghiên cứu bắt đầu từ
mẫu thứ n và có N mẫu trong khung đó khi đó hàm năng lượng ngắn hạn của tín
hiệu tiếng nói được tính như sau:
[ ]
∑
−+
=
−=
1
2
)()(
Nm
mn
m

∑
=
+−++=
N
i
n
inxinxZ
0
|))(sgn())1(sgn(|
(2.3)
với sgn(x(n)) được định nghĩa như sau:



<−
≥
=
0x(n)
0x(n)
nx
1
1
))(sgn(
(2.4)
2.1.3 Lượng thông tin
Gần đây trong một số hệ thống nhận dạng tiếng nói người ta có sử dụng tham
số Entropy của tín hiệu tiếng nói trong việc phát hiện điểm đầu/cuối của tiếng nói.
Việc áp dụng tham số này đã đem lại một hiệu quả nhất định dưới đây là cách tính
tham số này. Để tính được Entropy của một khung tín hiệu tiếng nói ta cần thực
hiện ba bước sau:

fs
p
i=1… M (2.6)
trong đó:
s(f
i
) là phổ năng lượng của thành phần tần số f
i
M là số điểm tính FFT.
Nhận dạng tiếng nói và… Chương 2: Quá trình tiền xử lý tiếng nói
Trước khi tính tiếp bước ba có một số thủ thuật được sử dụng nhằm tăng tính
phân tách của hàm phân bố xác suất giữa tín hiệu tiếng nói và tín hiệu khác.
Hzf Hzf fs
iii
3750,2500)( ≥≤=
(2.7)
9.00 ≥=
ii
p p
(2.8)
2.1.3.3 Tính Entropy
Sau khi tính được hàm phân bố xác suất của phổ năng lượng ta tính Entropy
của tín hiệu theo công thức.
∑
=
−=
M
j
jji
ppH

=
=
+=
=== )),(max(
Nhận dạng tiếng nói và… Chương 2: Quá trình tiền xử lý tiếng nói
2. Tìm khung có năng lượng lớn hơn ITL đánh dấu nó như là điểm có thể
bắt đầu tiếng nói, gọi nó là s.
3. Nếu khung sau s có năng lượng lớn hơn ITL thì nó sẽ là khung bắt đầu
tiếng nói. Còn nếu có năng lượng nhỏ hơn ITL thì phải tìm lại s.
4. Tìm khung có năng lượng nhỏ hơn ITU, khung này là khung kết thúc
tiếng nói.
5. Kết quả phát hiện tiếng nói ở các bước trên có thể chưa chính xác, cần
phải điều chỉnh chúng theo cách sau:
 Từ khung bắt đầu tiếng nói ta tìm ngược về phía trước 250ms. Đếm số
khung có tốc độ đi qua điểm không vượt quá ngưỡng IZCT. Nếu có từ
3 khung trở lên thì dich chuyển vị trí bắt đầu về khung có tốc độ đi
qua điểm không vượt quá IZCT gần s nhất. Ngược lại s vẫn giữ
nguyên vị trí.
 Thực hiện tương tự đối với điểm kết thúc tiếng nói.
Giải thuật này đã được cài đặt trong chương trình và nó cho kết quá khá tốt với
tham số IFT chọn là 25/độ dài của frame.
2.2 PHÂN TÍCH MÃ HÓA DỰ ĐOÁN TUYẾN TÍNH (LPC)
Lý thuyết về mã hoá dự đoán tuyến tính đã được nghiên cứu trong nhiều
năm qua và nó đã chứng tỏ được những ưu điểm của mình khi áp dụng trong lĩnh
vực xử lý tiếng nói. Phần này sẽ mô tả những kiến thức cơ bản để có thể ứng dụng
nó trong lĩnh vực xử lý tiếng nói [6].
2.2.1 Mô hình LPC
Ý tưởng cơ bản của mô hình LPC là một mẫu tín hiệu tiếng nói ở thời điểm n,
)(ns
có thể xấp xỉ như là tổ hợp tuyến tính của p mẫu trước đó, về mặt toán học ta

−
2) + … + a
p
s(n
−
p) + Gu(n) (2.11)
Nhận dạng tiếng nói và… Chương 2: Quá trình tiền xử lý tiếng nói
Trong đó u(n) là kích thích được chuẩn hóa và G là trọng số kích thích (Gain).
Thực hiện phép biến đổi Z cho 2 vế của đẳng thức (2.11) ta có:
)(
1
)()( zGU
p
i
zS
i
z
i
azS +
∑
=
−
=
(2.12)
Suy ra hàm truyền đạt :
( )
)(
1
1
1

G
x(n)
Hình 2-6 Mô hình dự đoán tuyến tính của tiếng nói
2.2.2 Các công thức phân tích LPC
Nếu coi ước lượng của tín hiệu tiếng nói ở thời điểm n như là tổ hợp tuyến tính
của p mẫu trong quá khứ thì ta có công thức sau:
∑
=
−=
p
k
k
knsans
1
)()(
~
(2.14)
trong đó
)(
~
ns
được gọi là ước lượng của
)(ns
Khi đó sai số dự đoán e(n) được định nghĩa là :
∑
=
−−=−=
p
k
k

lọc số ở hình 2.1 phù hợp với các thuộc tính phổ tương ứng của dạng sóng tiếng nói
trong cửa sổ phân tích. Do đặc tính phổ của tiếng nói thay đổi theo thời gian như đã
đề cập ở trên nên các hệ số dự đoán tại thời điểm n phải được đánh giá trên một
đoạn tín hiệu tiếng nói ngắn xung quanh thời điểm n. Bởi vậy, cách tiếp cận cơ bản
là tìm ra một tập các hệ số dự đoán mà tập hệ số này làm tối thiểu hóa sai số bình
phương trung bình trên một đoạn ngắn của tín hiệu.
Để thiết lập các phương trình xác định tập hệ số dự đoán, ta định nghĩa tín hiệu
tiếng nói trong thời gian ngắn và sai số tại thời điểm n như sau :
s
n
(m) = s(n+m) (2.17)
e
n
(m) = e(n+m) (2.18)
Sai số bình phương trung bình của tín hiệu tại thời điểm n sẽ có công thức như
sau :
[ ]
2
1
2
2
)()()(
~
)()(
∑ ∑∑ ∑






∑∑ ∑
−−=−
= m
nn
m
p
k
knn
kmsimsamsims )()(
ˆ
)()(
1
(2.21)
Kí hiệu hàm hiệp biến :
∑
−−=
m
nnn
kmsimski )()(),(
φ
(2.22)
Đẳng thức (2.21) được viết dưới dạng rút gọn như sau:
∑
=
=
p
k
nkn
kiai
1

2
),0(
ˆ
)0,0(
)()(
ˆ
)(
ˆ
φφ
(2.24)
Ta thấy sai số bình phương trung bình bao gồm một số hạng cố định (
)0,0(
n
φ
)
và các số hạng phụ thuộc vào các hệ số tiên đoán.
Để xác định các hệ số dự đoán tối ưu (
k
a
ˆ
) bằng cách giải phương trình (2.23)
chúng ta phải tính
),( ki
n
θ
với 1
≤
i
≤
p và 0


−≤≤+
=
kh¸c hîptr êng c¸c trong
víi
0
10)().(
)(
Nmmwnms
ms
n
(2.25)
Vì s
n
(m) = 0
∀
m<0 nên với m<0 thì e
n
(m) = 0, nghĩa là không có sai số dự
đoán. Hơn nữa, với m>N-1+p cũng không có sai số dự đoán bởi vì s
n
(m) = 0 ∀
m>N-1. Tuy nhiên, trong vùng từ m=0 tới m=p-1 tín hiệu tiếng nói đã qua cửa sổ
s
n
(m) được dự đoán từ các mẫu trước đó, một vài trong số chúng ngẫu nhiên bằng 0.
Vì vậy, có khả năng lớn là sai số dự đoán tồn tại trong vùng này. Hơn nữa, trong
vùng từ m=N-1 đến m=N-1+p khả năng xảy ra sai số dự đoán cũng khá lớn bởi vì
tín hiệu tiếng nói bằng 0 được dự đoán từ một vài mẫu tín hiệu tiếng nói khác 0
trước đó. Do vậy chúng ta sẽ thấy ảnh hưởng này lớn tại hai biên. Mục đích việc sử

kmsimski
1
0
)()(),( pk0 p,i1 víi
θ
(2.27)
Hay :
∑
−−−
=
≤≤≤≤−+=
)(1
0
)()(),(
kiN
m
nnn
kimsmski pk0 p,i1 víi
θ
(2.28)
Vì phương trình (2.28) chỉ là một hàm của i-k nên hàm hiệp biến
),( ki
n
θ
trở
thành hàm tự tương quan đơn giản:
∑
−−−
=
−+=−=












=



















a
rprpr
prrr
prrr
n
n
n
p
nnn
nnn
nnn
(2.31)
Ma trận các giá trị tương quan là một ma trận Toeplitz (ma trận đối xứng có
các phần tử trên đường chéo chính bằng nhau) nên phương trình (2.31) có thể được
giải quyết hiệu quả bởi một số thuật toán nổi tiếng. Một trong số đó là giải thuật
Durbin.
Giải thuật Durbin là giải thuật sử dụng truy hồi được phát biểu như sau:
( )
)0(
0
rE =
(2.32)

Trích đoạn 6.1.1Giao diện chính của chương trình ứng dụng

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nhận dạng tiếng nói và ứng dụng tích hợp với các phầnmềm máy tính - Pdf 24

Tài liệu, ebook tham khảo khác

Học thêm