Đồ án tốt nghiệp nghiên cứu tìm hiểu lý thuyết về tiếng nói và mô hình mạng neuron - Pdf 14

LỜI NÓI ĐẦU
Xử lý âm thanh và nhận dạng tiếng nói có một ý nghĩa quan trọng và thiết
thực trong nhiều lĩnh vực như: nhận dạng, phát thanh, truyền hình, viễn thông, và
nhiều lĩnh vực khác.
Nhận dạng tiếng nói là một lĩnh vực khó, một vấn đề nghiên cứu trọng
điểm được nhiều nhà khoa học quan tâm ở các lĩnh vực khác nhau : Tin học,
toán học, điều khiển, điện tử, sinh học
Trước sự phát triển mạnh mẽ của công nghệ thông tin, vấn đề nhận dạng
càng được quan tâm nhiều hơn nhằm nâng cao hiệu quả giao tiếp giữa người và
máy. Chính sự quan trọng đặc biệt này mà em đã chọn âm thanh tiếng Việt là đề
tài nghiên cứu.
1. Mục đích của đồ án
Nghiên cứu, tìm hiểu mạng Neuron và ứng dụng trong nhận dạng tiếng
nói tiếng Việt trên tập từ hữu hạn với hưóng nghiên cứu mới trên quan điểm xem
xét từ ngữ tiếng Việt dưới góc độ phân tách thành phụ âm và nguyên âm trên tập
các đặc trưng LPC, Cepstral, Cosin.
2. Ý nghĩa
Hướng nghiên cứu xem xét từ ngữ trên cơ sở phân tách thành phụ âm và
nguyên âm là một hướng mới, đơn giản hơn cả về mặt cấu trúc và thiết kế cơ sở
dữ liệu cũng như quá trình nhận dạng sau này,mà vẫn đảm bảo được những yêu
cầu cần thiết. Nếu giải quyết tốt sẽ cho phép nhận dạng tất cả các từ trong tiếng
Việt.
1
3. Nhiệm vụ của đồ án.
Nghiên cứu tìm hiểu lý thuyết về tiếng nói và mô hình mạng Neuron. Ứng
dụng mạng neuron để nhận dạng tiếng Việt theo hướng nhận dạng nguyên âm và
phụ âm, xây dựng chương trình mô phỏng nhận dạng nguyên âm và phụ âm
tiếng Việt.
4. Phạm vi nghiên cứu
Đề tài thực hiện trong phạm vi nghiên cứu nhận dạng âm thanh tiếng Việt
phát âm rời rạc trên tập từ hữu hạn theo hướng nhận dạng phụ âm và nguyên âm

CHƯƠNG IV THIẾT KẾ CHƯƠNG TRÌNH NHẬN DẠNG
72
CHƯƠNG I: ÂM THANH VÀ SỐ HOÁ ÂM THANH
1. Đặc trưng sóng âm
1.1 Các đặc trưng
1.1.1 Tần số
3
là tốc độ mà các dạng sóng riêng biệt lặp lại theo hàm thời gian, tần số
phụ thuộc vào chấn động nhanh hay chậm của không khí trong một thời gian
nhất định.
1.1.2 Biên độ
là độ lớn của dạng sóng hoặc cường độ của sóng cơ học, đây là đặc tính
quan trọng góp phần nhận diện sự khác biệt giữa nguyên âm và phụ âm trong âm
thanh lời nói.
1.1.3 Dạng sóng
là hình dạng của sóng âm thanh, sóng dạng hình sin là dạng sóng cơ bản
của âm thanh, trên lý thuyết nếu chúng ta có thể tổng hợp một tập hợp các sóng
hình sin thì ta có thể tổng hợp bất kỳ âm thanh nào.
Mỗi âm có một tần số riêng và đơn vị tính là héc (Hz).
1.2 Đơn vị vật lý của âm thanh.
- Các dao động âm phát ra từ nguồn lan truyền trong môi trường đàn hồi như
không khí dưới dạng sóng đàn hồi gọi là sóng âm. Sóng âm kích động màng
nhĩ tai gây cảm giác về âm. Âm thanh có những đặc trưng cơ bản là: Độ cao của
âm, độ to của âm, âm sắc. Do đó cần phân biệt các loại đại lượng về âm:
1.2.1Quãng độ cao (quãng tần số).
Độ cao của âm là một đặc tính sinh lý của âm, nó dựa vào đặc tính của âm là
tần số. Những âm có tần số khác nhau gây cho ta những cảm giác khác nhau, âm
có tần số lớn gọi là âm cao hoặc thanh, âm có tần số nhỏ gọi là âm thấp hoặc
trầm.
Quãng tần số của hai âm là khoảng cách của hai âm đó. Nếu một âm tần số

= 1.26 gọi là 1/3 ốc-ta.
-> Mức áp suất của một ốc-ta bằng mức áp suất âm của ½ ốc-ta cộng thêm
3db. Cao độ được tiếp nhận phần lớn là do quy định bởi tần số cơ bản của sóng
âm và một phạm vi nhỏ hơn bởi cường độ của âm. Nhưng mối quan hệ giữa cao
độ và tần số cơ bản lại không mang tính chất tuyến tính và thường thay đổi cùng
với tần số đi kèm. Vì quãng tần số của một âm quy định độ cao của âm đó nên
còn gọi là quãng độ cao (quãng 8 – bát bộ).
1.2.2 Độ mạnh.
Độ mạnh của âm do biên độ dao động quyết định. Biên độ dao động càng
lớn âm phát ra càng mạnh. Độ mạnh còn gọi là cường độ.
Cường độ âm được biểu thị qua năng lượng được sóng âm truyền trong một
đơn vị thời gian qua một đơn vị diện tích vuông góc với phương truyền âm
(W/m
2
).
Đối với con người, giá trị tuyệt đối của cường độ âm I không quan trọng
bằng giá trị tỷ đối của I với một giá trị I
0
nào đó chọn làm chuẩn. Người ta định
nghĩa mức cường độ âm L là logarit thập phân của tỷ số I/I
0
.
L(B) = lg(I/I
0
) hoặc L(dB) = 10lg(I/I
0
) với 1B = 10dB.
Trong thực tế người ta thường dùng đơn vị dB (deciben) hơn B, khi đó L=
1dB thì lớn gấp 1,26 lần I
0

,
… gọi là các hoạ âm thứ hai, thứ ba … Tuỳ theo cấu trúc từng nhạc cụ hoặc cổ
họng từng người, mà trong số các hoạ âm cái nào có biên độ khá lớn, cái nào có
biên độ nhỏ, cái nào chóng bị tắt đi. Do hiện tượng đó, âm phát ra là sự tổng hợp
của âm cơ bản và các hoạ âm, nó có tần số f
1
của âm cơ bản nhưng đường biểu
diễn của nó không còn là đường hình sin mà trở thành một đường phức tạp có
chu kỳ.
Đó là sự khác nhau về âm sắc, lý do:
è Vật tạo ra âm khác nhau.
è Cách làm cho vật phát âm khác nhau.
è Hiện tượng cộng hưởng khác nhau.
2. Qúa trình số hoá âm thanh
2.1 Quá trình lấy mẫu âm thanh tương tự
Đây là quá trình rời rạc hoá tín hiệu âm thanh tương tự về thời gian.
Nguyên tắc cơ bản của quá trình này là tín hiệu âm thanh tương tự sẽ được
lấy mẫu với tần số lấy mẫu trong một giây (tốc độ lấy mẫu) là cố định, ví dụ: tần
số lấy mẫu là 10000Hz thì trong một giây lấy được 10000 mẫu. Khi lấy mẫu phải
6
chú ý đảm bảo tần số lấy mẫu phải lớn hơn hoặc bằng hai lần tần số lớn nhất của
sóng âm tương tự để tránh hiện tượng giả tần số. Nếu tần số lớn nhất của tín hiệu
của sóng âm thanh tương tự F(Hz) thì tần số lấy mẫu lớn hơn hoặc bằng 2F (gọi
là tần số Nyquist), chẳng hạn nếu ta số hoá tín hiệu lời nói ở tần số 5kHz thì tần
số lấy mẫu phải là 10kHz hoặc lớn hơn.
Hình: Quá trình số hoá thành dạng sóng file Wave
2.2 Quá trình lượng tử hoá
Đây là quá trình rời rạc biên độ tín hiệu của sóng âm tương tự.
Quá trình này lấy biên độ của tín hiệu tại mỗi lần lấy mẫu và biểu diễn các
biên độ đó dưới dạng nhị phân. Để lựa chọn cách thức lượng tử cần phải xem xét

2
1
2
)(
)(
Tróng đó x(n) là mẫu thứ n, e(n) là lỗi lượng tử hoá đối với mẫu x(n) đó.
Tín hiệu tiếng nói sau khi được lượng tử hoá sẽ được lưu vào máy tính dưới
dạng các file âm thanh khác nhau, tuỳ thuộc vào mục đích sử dụng, như có thể
được lưu trữ nguyên mẫu như đã lượng tử hoá, hoặc đựơc nén rồi mới lưu trữ. Ta
xem xét các loại file phổ biến sau.
3. Cấu trúc file WAVE
3.1 Các loại file âm thanh:
8
Có rất nhiều dạng file âm thanh, như dạng file “.MP3”, “.MIDI”,
“.WAV”, “.RA”, “AIFF”, “.WMA”. Song phổ biến hơn là ở dạng “.wav” . Dạng
file này đưa ra ở dạng thô, dữ liệu âm thanh không được nén. Được phát minh
đầu tiên bởi Microsoft, các file wave vẫn được sử dụng một cách rộng rãi (ví dụ
các âm thanh lúc khởi động và tắt Window). Chất lượng âm thanh rất tốt nhưng
kích thước file rất lớn. Một bài hát pop đầy đủ ở dạng Wave có thể chiếm 40 MB
của không gian đĩa hoặc nhiều hơn.
3.2.Cấu trúc file WAVE
(1) Cấu trúc file wave: File wave là tập hợp con file RIFF của Window cho lưu
trữ các file multimedia. Một file RIFF có header file là một chuỗi các chunk dữ
liệu. Một file Wave thường là file RIFF cùng với một chunk wave đơn giản, nó
có chứa 2 chunk con: một chunk “fmt” đặc tả dữ liệu và một chunk dữ liệu có
chứa các mẫu dữ liệu thực. Gọi dạng này là “Canonical form”.
9
Dạng Header WAVE bắt đầu cùng với RIFF header
offset Size Name Description
0 4 ChunkID Có chứa các chữ cái “RIFF”

Nếu là PCM thì không tồn tại.
X ExtraParams Không gian cho các tham số thêm vào
Subchunk “data” có chứa kích thước của dữ liệu và âm thanh thực
11
Offset Size Name Description
36 4 SubChunk2ID Có chứa các chữ cái “data”
(dạng 0x64617461 big - endian)
40 4 SubChunk2Si
ze
=NumSamples*NumChannels*BitPerSamp
le/8
Số các byte trong dữ liệu
44 * Data dữ liệu âm thanh thực
Từ việc hiểu cấu trúc lưu trữ file . wav trong máy tính mà ta hoàn toàn có thể
thao tác xử lý các file wav một cách đơn giản như: việc cắt, dán, nối ghép, và
điều chỉnh phát 1 đoạn trong 1 file wav bất kỳ để nghe.
4. Xử lý file WAVE
Một file wave bao giờ cũng có phần header và phần dữ liệu. Trong đó
header chứa các thông tin như độ dài file, số bit/mẫu, kiểu kênh mono hay
stereo,…
Muốn thao tác xử lý các file wave thì chúng ta phải thay đổi một số thông
số trong header như độ dài file,…sau đó ghi các dữ liệu cần thiết sau khi ghi
header mới vào.
+ Các trường cần thay đổi khi thực hiện các thao tác xử lý File wav
- 2 trường SubChunk1Size và SubChunk2Size tất nhiên là phải được
cộng thêm với phần dữ liệu của File 2
12
Header Dữ liệu
- Nếu 2 File khác tôc độ lấy mẫu, giả sử 2 File cùng số kênh, cùng mức
lượng tử, mà File 2 có tốc độ lấy mẫu lớn hơn File 1, thì khi ghép File2

+ Nếu dây thanh quản không rung nhưng mở liên tục tạo ra âm câm
(Unvoice).
+ Khi nói hình dạng vòm họng, thanh quản thay đổi tạo ra các âm khác
nhau.

14
+ Hình dạng vòm họng thay đổi chậm trong khoảng từ 10 đến 100ms.
+ Lượng khí từ phổi đẩy ra xác định âm lượng phát ra .
Cách tạo ra tiếng nói như trên là nguyên lý cơ bản cho các tiếng nói chung
trên thế giới nhưng đi sâu vào nghiên cứu thì mỗi tiếng nói của các nước khác
nhau có điểm chung và điểm riêng biệt khác nhau, chính điểm riêng biệt khác
nhau này là một thuộc tính quan trọng để có thể nhận dạng tốt được các loại
tiếng nói của các nước khác nhau. Vì vậy cần phải hiểu rõ cấu trúc ngữ âm tiếng
Việt.
2 Ngữ âm tiếng Việt
2.1 Khái niệm âm tiết
Chuỗi lời nói của con người được chia ra thành nhiều đoạn nhỏ như câu,
từ, cụm từ và cuối cùng là âm tiết. Âm tiết là đơn vị phát âm nhỏ nhất, không
phân chia được nữa dù nói chậm đến đâu (mà vẫn giữ đúng ý nghĩa âm tiết đó).
Mỗi âm tiết bao gồm nhiều yếu tố ngữ âm tạo thành và các yếu tố ngữ âm
hầu như phát âm cùng lúc để tạo nên đúng âm tiết đó. Bên cạnh đó người ta còn
xem âm tiết bao gồm nhiều yếu tố đoạn tính – là các yếu tố có giới hạn phân
đoạn trong âm tiết như phụ âm, nguyên âm và âm đệm – và các yếu tố siêu đoạn
tính – các yếu tố mà không giới hạn trong âm tiết như ngữ điệu, thanh điệu. Đặc
điểm riêng của âm tiết tiếng Việt là đơn âm và mang thanh điệu.
2.2 Cấu trúc âm tiết tiếng Việt.
Cấu trúc âm tiết tiếng Việt được xem xét theo nhiều cách, nhưng chúng ta
cũng có thể xem xét theo hai quan điểm sau:
2.2.1 Quan điểm truyền thống
Cấu trúc âm tiết:

lượt các yếu tố về thanh điệu, âm đầu và vần; trong vần ta lại chia nhỏ để nhận
dạng các phần âm đệm, âm chính, âm cuối. Và như vậy ta hình dung thấy rằng,
bài toán nhận dạng từ đọc của ta trở nên quá phức tạp, độ phức tạp về thời gian
là lớn, rồi việc phân chia ranh giới giữa các phần như thế nào là chuẩn, là đảm
bảo yêu cầu. Đây mới là vấn đề quan tâm hàng đầu. Chính vì những điều khó
khăn này mà ta phải nghĩ tới một hướng khác về cấu trúc từ. Và đây là quan
điểm mới mà tôi muốn thảo luận.
2.2.2 Quan điểm mới
Đây là quan điểm mới về cấu tạo từ ngữ trong tiếng Việt mà tôi đang
quan tâm nghiên cứu.
Ta thấy rằng quan niệm truyền thống tiếng Việt có bảng chữ cái gồm 17
phụ âm, 10 nguyên âm và 5 dấu, trên cơ sở đó tất cả các từ đơn được sinh ra. Các
từ đơn này là cơ sở tạo ra tất cả các từ trong tiếng Việt. Với cách quan niệm trên,
người ta có thể phân tích, nghiên cứu tiếng Việt ở nhiều khía cạnh khác nhau
như vần, điệu, ngữ pháp, ngữ nghĩa, cách phát âm, v.v.
Tuy nhiên với cách quan niệm trên làm cho chúng ta gặp nhiều khó khăn
về thuật toán như làm tăng dung tích bộ nhớ, tăng thời gian xử lý. Do đó để đơn
giản hoá khi nghiên cứu nhận dang tiếng Việt người ta có thể quan niệm toàn bộ
tiếng Việt được xây dựng từ một bảng gồm 26 phụ âm và 620 nguyên âm, đồng
thời có 620 vần ( Báo cáo khoa học 2006 của PGS.TS Nguyễn Văn Xuất ).
Như thế chúng ta có thể xem mọi từ trong tiếng Việt có cấu trúc như sau:
[<PHỤ ÂM>] & [<NGUYÊN ÂM>] (*)
17
Trong đó <PHỤ ÂM> có thể có hoặc không, thành phần <NGUYÊN
ÂM> bắt buộc phải có. Theo dạng (*) khi đó toàn bộ tiếng Việt có:
26*620+620=16.740 từ
Dưới đây là là bảng các phụ âm và nguyên âm được phân chia theo độ dài:
Bảng các phụ âm:
Các phụ âm Số lượng
Phụ âm đơn b,c,d,đ,g,h,k,l,m,n,p,q,r,s,t,v,x 17

t Át,ạt, ắt, ặt, ất, ật, ét, ẹt, ết,ệt, ít, ịt, ót, ọt,
ốt,ột,ớt,ợt,út, ụt, ứt, ựt
22
p Áp, ạp, ắp, ặp, ấp , . . . .,
,ứp,ựp
22
m Am, ám,àm ảm, ãm ạm ,
, ,ữm,ựm
60
n An, án, àn, ản, ãn, ạn, . . . . , ,. . . . ,ữn, ựn 60
Nguyên âm ba:
nh Anh, ành, ánh, ảnh, ãnh, ạnh; inh, ính, ình,ỉnh,ĩnh,
ịnh; ênh, ềnh, ểnh ễnh, ệnh;
18
ng Ang, àng,áng,ảng,ãng,ạng; ăng, ằng, ắng,ẳng, ẵng,
ặng;
Âng,ấng,ầng,ẩng, ẫng, ậng; ing,
Eng, ;êng
Ong, ;ông
Ung ;ưng
60
ch Ách,ạch,ấch,ậch, ích,ịch, ếch, ệch, óch, ọch, úch, ụch 12
n Oen, oèn, oén, oẻn, oẽn; Ian; iàn, ián, iản, iạn, oan,
oàn, oán, oản, oãn, oạn
18
i/y Oai,oài,oái, oải, oại, oay, oày, oáy, oảy, oãy, oạy 12
o Iao, iào, iáo, iảo, ião, iạo 06
Bảng nguyên âm bốn:
19
nh Uanh,uành,uánh, uảnh,uạnh,uynh,uỳnh, ýnh, uỷnh,

thực hiện tiền xử lý: Lọc nhiễu, chuẩn hoá biên độ, căn chỉnh thời gian động.
Chương trình nhận dạng với tín hiệu tiếng nói 8bit/mẫu, tần số lấy mẫu
11025Hz, Frame được lấy theo kích thước 160 mẫu , tương đương đoạn thời
gian khoảng 15ms.
3.1 Lọc nhiễu
Sử dụng bộ lọc thông cao có đáp ứng xung pre_emphasis.
H(w)= 1-ae
jw−
Nếu chuyển sang miền Z
H(z)= 1- az
1−
Hệ số a được sử dụng trong khoảng [0.85, 1.0], thường lấy giá trị 0.97. Bộ
lọc có tác dụng tăng cường tín hiệu tại tấn số cao ( trên 1KHz) với 2 lý do chính:
+ Giọng nói có sự suy giảm khoảng 20dB khi lên tần số cao do đặc điểm
sinh lý của hệ thống phát âm của con người. Bước xử lý này nhằm tăng cường
tín hiệu lên 1 giá trị gần 20dB để khắc phục sự suy giảm này.
+ Hệ thống thính giác của con người nhạy cảm với vùng tấn số cao, bước
xử lý này nhấn mạnh vùng tần số cao, trợ giúp cho quá trình mô hình hoá âm
thanh sau này của hệ thống nhận dạng.
Thủ tục giả mã:
21
Giả sử s(n) là dãy tín hiệu đầu vào, dãy tín hiệu đầu ra qua bộ lọc được tính
for( i=N-1, i>0, i )
s(i)=s(i)-a* s(i-1)
3.2 Xác định đường mức không
Tiếng nói hay âm thanh khi số hoá với độ phân giải n Bit, thì giá trị sẽ nhận
trong khoảng [0, 2
n
-1]. Với tín hiệu ta đang nghiên cứu được số hoá ở độ phân
giải 8bit, thì giá trị mẫu nhận là [0, 255], khi im lặng tín hiệu này sẽ nhận giá trị

3.4 Căn chỉnh thời gian
Đây là việc mở rộng hoặc thu hẹp tín hiệu về 1 khoảng nhất định nào đó.
Giả sử dãy tín hiệu s(n)= { s(1), s(2),… s(n) } có n mẫu được chuẩn hoá thời
gian về dãy mới có N mẫu.
Thuật toán như sau:
For(i=1; i<=N; i++)
s’(i)= s(i*n/N)
3.5 Xác định phụ âm-nguyên âm
23
Qua nghiên cứu phổ của bất kỳ từ nào ta đều thấy rằng, giữa phần phụ âm
và nguyên âm có sự đột biến về năng lượng, đây chính là điểm mấu chốt của
hướng nghiên cứu mới này và là cơ sở cho sự quan niệm mới về cấu trúc từ như
trên.
Ví dụ phổ của 1 số từ như sau
BẢY
NĂM
24
BA

25

Trích đoạn Thiết kế các bảng CSDL có quan hệ như sau
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status