Đồ án tốt nghiệp đại học nghiên cứu, tìm hiểu mạng neuron và ứng dụng mạng neuron trong nhận dạng giọng nói trên tập từ hữu hạn - Pdf 14

1. Mạng Nơron 53
3.1 Luật học có giám sát 55
3.2 Luật học không giám sát 56
3.3 Luật học tăng cường 57
Kết luận 74
GIỚI THIỆU
Trong những năm gần đây, người ta thường nhắc tới “trí tuệ nhân tạo”
như một phương thức mô phỏng trí thông minh của con người từ việc lưu trữ
đến xử lý thông tin. Và nó thực sự đã trở thành nền tảng cho việc xây dựng
các thế hệ máy thông minh hiện đại. Cũng với mục đích đó, nhưng dựa trên
quan điểm nghiên cứu hoàn toàn khác, một môn khoa học đã ra đời, đó là lý
thuyết mạng neuron. Tiếp thu các thành tựu về thần kinh sinh học, mạng
neuron luôn được xây dựng thành một cấu trúc mô phỏng trực tiếp các tổ chức
thần kinh trong bộ não con người.
Một trong những ứng dụng kinh điển của mạng neuron là lớp các bài toán
nhận dạng mẫu, ở đó mỗi một mẫu là một tập hợp(hay một vector) các tham
số biểu thị các thuộc tính của một quá trình vật lý nào đó(ví dụ tín hiệu tiếng
nói). Ngoài sức mạnh vốn có, mạng neuron còn thể hiện ưu điểm của mình
trong việc nhận dạng thông qua khả năng mềm dẻo, dễ thích nghi với môi
trường. Chính vì vậy, có thể coi mạng neuron trước tiên là một công cụ để
nhận dạng. Nhiều công trình nghiên cứu, nhiều ứng dụng thực nghiệm đã
được thực hiện trên mạng neuron với mục đích nhận dạng và đã thu được
những thành công to lớn.
Trước sự quyến rũ của các ứng dụng trí tuệ nhân tạo, cùng bản tính tò mò
trước một lý thuyết mới chưa từng nghiên cứu và sự động viên khuyến khích
của thầy giáo hướng dẫn, tôi đã quyết định thực hiện những nghiên cứu ban
1
đầu về lý thuyết mạng neuron với một mục đích cụ thể là ứng dụng nó vào vấn
đề nhận dạng tiếng nói.
Xử lý âm thanh và nhận dạng tiếng nói có một ý nghĩa quan trọng và thiết
thực trong nhiều lĩnh vực như: nhận dạng, phát thanh, truyền hình, viễn thông,

), Dải
năng lượng thấp(E
l
), Tỉ lệ qua điểm không(ZC).
2. Ý nghĩa.
Hướng nghiên cứu áp dụng module VAD trong nhận dạng giọng nói là
một hướng mới, đơn giản hơn cả về mặt cấu trúc và thiết kế cơ sở dữ liệu cũng
2
như quá trình nhận dạng sau này, mà vẫn đảm bảo được những yêu cầu cần
thiết. Nếu giải quyết tốt sẽ cho phép nhận dạng giọng nói chính xác tỉ lệ cao.
3. Một số mục tiêu chính trong đồ án.
• Tổng quan về hệ thống nhận dạng tiếng nói và đặc điểm âm thanh
tiếng việt.
• Các vấn đề phân tích dữ liệu tiếng nói.
o Mô tả chung mã hóa tín hiệu giọng nói.
o Mô tả các hàm thực hiện mã hóa.
o Thuật toán VAD trong xác định vùng âm thanh.
• Tìm hiểu mạng neuron cho nhận dạng giọng nói(cụ thể với mạng
LVQ- learnned Vecter Quantization hay Kohonen.)
• Xây dựng chương trình nhận dạng giọng nói sử dụng mạng neuron
LVQ.
• Kết luận và hướng phát triển tiếp theo của đồ án.
3
Phần 1: Tổng quan về hệ thống nhận dạng giọng nói
1. Nguồn gốc âm thanh.
Âm thanh là do vật thể rung động, phát ra tiếng ra tiếng và lan truyền đi
trong không khí. Sở dĩ tai ta nghe được âm thanh là nhờ có màng nhĩ. Màng
nhĩ nối liền với hệ thống thần kinh.
Làn sóng âm thanh từ vật thể rung động phát ra, được lan truyền trong
không khí, tới tai ta làm rung động màng nhĩ theo đúng nhịp điệu rung động

ngữ. Điều này gần như tương đương với việc chuyển đổi các biểu diễn văn
bản của thông điệp thành một chuỗi các âm vị tương ứng với những âm thanh
5
tạo nên các từ; Đồng thời với việc ghi nhận âm điệu nhằm xác định sự kéo dài,
sự nhấn mạnh, và trọng âm cao thấp của âm thanh. Khi một mã ngôn ngữ
được lựa chọn, người nói phải thực hiện một loạt các lệnh thần kinh vận động
để làm cho các dây thanh dao động, đồng thời cấu trúc hình dạng ống dẫn âm
thanh phát ra một chuỗi các âm thanh. Như vậy, đầu ra cuối cùng của quá
trình là một tín hiệu âm học. Các lệnh thần kinh vận động phải điều khiển một
cách đồng bộ tất cả các khâu vận động như sự hoạt động của môi, hàm, lưỡi,
…
Khi tín hiệu tiếng nói đã được sinh ra và được truyền cho người nghe,
quá trình thu nhận tiếng nói(hay nhận dạng tiếng nói) bắt đầu. Đầu tiên, người
nghe xử lý tín hiệu âm thanh thông qua màng nền của tai trong, nó có khả
năng cung cấp một phân tích phổ cho tín hiệu tới. Một quá trình xử lý thần
kinh chuyển đổi tín hiệu phổ tại đầu ra của màng nền thành các tín hiệu hoạt
động đối với thần kinh thính giác, có thể coi đây như một quá trình lấy ra các
đặc trưng. Bằng một phương pháp đặc biệt(chưa được hiểu một cách thấu
đáo), các tín hiệu hoạt động đi qua hệ thần kinh thính giác được chuyển đổi
thành một mã ngôn ngữ cho những trung tâm xử lý cấp cao hơn bên trong bộ
não, và cuối cùng là việc hiểu được nội dung thông điệp.
Từ sự minh họa quá trình nhận dạng tiếng nói thông qua hệ thống thần
kinh con người như trên, chúng ta có thể có một chút ý niệm về khả năng ứng
dụng mạng neuron nhân tạo trong việc mô phỏng một số tổ chức thần kinh
như một phần của hệ thần kinh thính giác.
6
3. Khái quát về ngữ âm tiếng việt.
3.1 Ý nghĩa của các nghiên cứu ngữ âm trong nhận dạng tiếng nói tiếng
việt.
Trong thời gian gần đây, các hệ nhận dạng tiếng nói phát triển theo

âm tố trong các ngôn ngữ.
4.1. Phân loại âm tố theo cấu âm.
Âm tố cơ bản được chia làm hai loại: Nguyên âm và phụ âm.
Về mặt chức năng, các nguyên âm thường là hạt nhân(hay đỉnh) của âm
tiết-thành phần phát âm rõ và gây chú ý nhất trong một âm tiết. Thanh điệu và
ngữ điệu của một ngôn ngữ cũng được chứa đựng chủ yếu trong nguyên âm.
Phụ âm, ngược lại thường là yếu tố đi kèm không tạo thành âm tiết(trừ
các phụ âm vang).
Ngoài ra còn có các âm tố bán nguyên âm, vốn mang đặc điểm của
nguyên âm nhưng có chức năng khác với chức năng của nguyên âm, thường
chỉ đi kèm với nguyên âm khác để tạo âm tiết.
8
4.2 Phân loại âm tố về mặt âm học.
4.2.1.
Các

đặ
c
t
r
ưng

âm

họ
c
Sự phân loại các âm tố về mặt âm học đã được xây dựng dựa trên âm
phổ. Các máy phân tích âm phổ cho chúng ta các phổ đồ(phổ hình), qua đó
các âm tố thể hiện rõ các đặc trưng âm học: cao độ, cường độ, trường độ
Dựa trên đặc điểm của phổ đồ, âm tố được phân loại theo các đặc trưng

 Gắt - Không gắt
Ðó là đối lập giữa cường độ lớn hay nhỏ của tiếng ồn. Trên phổ hình, các
âm gắt có vùng tối thay đổi sắc thái rõ rệt. Những phụ âm gắt bao gồm các
phụ âm xát điển hình, các âm tắc - xát, bật hơi, phụ âm rung. Những loại
hình âm còn lại là những âm không gắt.
 Căng - Lơi
Những âm căng là những âm có độ dài lớn, năng lượng lớn và có thanh
cộng hưởng thể hiện rõ trên phổ hình. Âm căng bao gồm các phụ âm mạnh và
các nguyên âm đặc. Âm lơi bao gồm những phụ âm yếu và các nguyên âm
10
loãng.
 Hữu thanh - Vô thanh
Ðó là sự đối lập giữa có hay không có những dao động điều hoà ở vùng
tần số thấp. Âm hữu thanh bao gồm các nguyên âm, phụ âm vang và phụ âm
hữu thanh.
 Mũi - Miệng (hay Mũi - Không mũi)
Phổ hình của các âm mũi có mật độ phooc-măng dày hơn so với
các âm miệng tương ứng. Ở các nguyên âm mũi giữa F1 và F2 xuất hiện
thêm một formant phụ, và đồng thời có sự giảm cường độ của F1 và F2.
Trong tiếng Việt có các âm mũi được thể hiện bằng các chữ cái: m, n, nh, ng.
 Giáng - Không giáng
Các âm giáng là những âm trầm hóa - có một hoặc một số các formant
của nó bị hạ thấp so với các âm không giáng. Các nguyên âm tròn môi như
[u], [ô], [o] trong tiếng Việt và những phụ âm đứng trước [u], [ô], [o] bị môi
hóa đều là những âm giáng.
 Thăng - Không thăng
Ngược lại so với âm giáng, chúng là những âm bổng hóa - các nguyên
âm hàng trước thường là các âm có một trong số các phoóc măng cao
hơn các âm không thăng tương ứng.
 Thanh hầu hóa - Không thanh hầu hóa

tích phổ, người ta vẫn có thể phân tích để đưa ra phổ đồ bằng thuật toán
(bằng phép biến đổi Fourier ngắn kỳ - Short-term Discrete Fourier
Transform). Người ta dựa vào những đặc trưng này cùng với những mô
hình khác để nhận dạng tiếng nói.
5. Âm thanh và số hóa âm thanh.
5.1. Đặc trưng sóng âm.
a) Các đặc trưng.
• Tần số
Tần số của một đơn âm là số lần dao động của không khí truyền dẫn âm
trong một giây đồng hồ(đơn vị là Héc, viết tắt là Hz). Ví dụ, tần số của âm Mi
là 330 Hz. Tần số biểu thị độ cao của âm thanh: Tiếng trầm có tần số thấp,
tiếng bổng có tần số cao. Tai người có thể nghe thấy được các tần số thấp tới
16Hz và tần số cao tới 20.000Hz. Dải tần số từ 16Hz đến 20.000Hz gọi là dải
tần số âm thanh (âm tần). Trong đó tiếng trầm có tần số từ 16Hz đến 300Hz,
tiếng vừa có tần số từ 300Hz đến 3000Hz, tiếng bổng từ 3000Hz đến
20.000Hz. Tiếng nói của con người thường có tần số từ 80Hz đến 1200Hz.
Những âm có tần số dưới 16Hz gọi là hạ âm, những âm trên 20.000Hz gọi là
siêu âm.
12
• Biên độ
Là độ lớn của dạng sóng hoặc cường độ của sóng cơ học, đây là đặc tính
quan trọng góp phần nhận diện sự khác biệt giữa nguyên âm và phụ âm trong
âm thanh lời nói.
• Dạng sóng
Là hình dạng của sóng âm thanh, sóng dạng hình sin là dạng sóng cơ bản
của âm thanh, trên lý thuyết nếu chúng ta có thể tổng hợp một tập hợp các
sóng hình sin thì ta có thể tổng hợp bất kỳ âm thanh nào.
Mỗi âm có một tần số riêng và đơn vị tính là héc (Hz).
• Áp xuất âm thanh.
Sóng âm trên không là dạng nhiễu loạn vật lý trong không khí, môi

Trong đó p là thanh áp, v là tốc độ dao động của một phần tử không khí
tại đó và s là diện tích.
Công suất âm thanh nói chung tỉ lệ với bình phương áp suất âm thanh.
• Cường độ âm thanh.
Cường độ âm thanh I là công suất âm thanh đi qua một đơn vị diện tích là
1cm
2
.
pv
S
P
I ==
Ba đại lượng áp suất âm thanh, công suất âm thanh, cường độ âm thanh
gắn liền với nhau: P = IS = psv. Cả ba đều biểu thị độ lớn nhỏ của âm thanh.
Âm thanh có năng lượng càng lớn thì công suất, cường độ và áp suất của âm
thanh càng lớn.
b) Đơn vị vật lý của âm thanh.
Các dao động âm phát ra từ nguồn lan truyền trong môi trường đàn hồi
như không khí dưới dạng sóng đàn hồi gọi là sóng âm. Sóng âm kích động
màng nhĩ tai gây cảm giác về âm. Âm thanh có những đặc trưng cơ bản là: Độ
14
cao của âm, độ to của âm, âm sắc. Do đó cần phân biệt các loại đại lượng về
âm:
• Quãng độ cao (quãng tần số).
Trong thực tế, ta thường nghe thấy âm thanh với các độ cao thấp khác
nhau. Điều này được biểu hiện rõ nhất khi nghe nhạc. Cảm giác cao thấp của
âm thanh do tần số dao động của âm thanh mang lại. Nói cách khác cảm giác
cao thấp phụ thuộc vào sự chấn động nhanh hay chậm của cấc phần tử trong
môi trường truyền (không khí) trong một đơn vị thời gian (giây). Những âm
có tần số khác nhau cho người nghe các cảm giác âm cao thấp khác nhau.

là ngưỡng nghe của âm có tần số 1000Hz, gọi là tần số chuẩn.
Ngưỡng nghe của con người cũng phụ thuộc vào tần số của âm. Với các
âm có tần số 1000 – 5000Hz, ngưỡng nghe vào khoảng 10
-12
W/m
2
. Với tần số
50 Hz, ngưỡng nghe khoảng 10
-7
W/m
2
.
Giá trị cường độ âm lên tới 10W/m
2
thì sóng âm sẽ tạo ra cảm giác đau
cho người nghe. Giá trị này được gọi là ngưỡng đau.Tai người phân biệt các
âm tốt nhất với các âm có tần số trong khoảng 1000 – 5000Hz.
• Độ dài.
Độ dài hay còn gọi là trường độ của âm thanh phụ thuộc vào khoảng thời
gian dao động của các phần tử trong môi trường truyền (không khí).
Trong tiếng Việt đặc trưng này rất quan trọng, nó giúp ta phân biệt được
hàng loạt cặp từ như: rác-rắc, cán-cắn, bát-bắt, cáp-cắp Với các cặp từ này,
sự khác nhau chỉ là nguyên âm “a” trong rác, cán, bát được phát âm dài hơn
trong các từ cùng cặp.
• Âm sắc.
Trong thực tế ta thấy, mỗi người có một giọng nói khác nhau. Dù cho hai
người phát âm cùng một từ với cùng một tần số, cùng một độ to ta vẫn phân
biệt được giọng nói của hai người đó (điều này dễ hình dung hơn xem xét các
nhạc cụ khác nhau). Đặc tính này được gọi là âm sắc.
Âm sắc được hình thành trên cơ sở tần số và biên độ của sóng âm. Thực

thực hiện tạo dao động, để dao động đó truyền đến tai người. Tín hiệu âm
thanh là nguồn tín hiệu liên tục có đầu vào ở dạng song là hàm mẫu của một
quá trình dao động x(t). Như vậy, tín hiệu âm thanh là tín hiệu liên tục theo
thời gian, do vậy khi xử lý trên thiết bị số, chúng ta cần phải biến đổi sang tín
hiệu số.
b) Quá trình lấy mẫu âm thanh tương tự
Đây là quá trình rời rạc hoá tín hiệu âm thanh tương tự về thời gian.
Nguyên tắc cơ bản của quá trình này là tín hiệu âm thanh tương tự sẽ được lấy
mẫu với tần số lấy mẫu trong một giây (tốc độ lấy mẫu) là cố định, ví dụ: tần
số lấy mẫu là 10000Hz thì trong một giây lấy được 10000 mẫu. Khi lấy mẫu
phải chú ý đảm bảo tần số lấy mẫu phải lớn hơn hoặc bằng hai lần tần số lớn
nhất của sóng âm tương tự để tránh hiện tượng giả tần số. Nếu tần số lớn nhất
17
của tín hiệu của sóng âm thanh tương tự F(Hz) thì tần số lấy mẫu lớn hơn hoặc
bằng 2F (gọi là tần số Nyquist), chẳng hạn nếu ta số hoá tín hiệu lời nói ở tần
số 5kHz thì tần số lấy mẫu phải là 10kHz hoặc lớn hơn.
Hình 1.2: Quá trình số hoá thành dạng sóng file Wave
c) Quá trình lượng tử hoá.
Đây là quá trình rời rạc biên độ tín hiệu của sóng âm tương tự. Quá
trình này lấy biên độ của tín hiệu tại mỗi lần lấy mẫu và biểu diễn các biên độ
đó dưới dạng nhị phân. Để lựa chọn cách thức lượng tử cần phải xem xét hai
kía cạnh: giá trị nhỏ nhất của tốc độ dữ liệu (data rate) và giá trị lớn nhất của
chất lượng âm (quality).
 Tốc độ dữ liệu được tính bằng bps (bits per sencond) dùng để định
dạng sóng âm, nó là tích của số mẫu được lấy trong một giây (sample per
second) và số bit tương ứng một mẫu đã được lấy. Do tốc độ lấy mẫu là cố
định nên ta phải đảm bảo số bit để biểu diễn một mẫu càng lớn càng nghe
trung thực với âm thanh thật (do nó ảnh hưởng đến sự phân giải tiêu chuẩn
18
của tín hiệu tương tự tại mỗi thời điểm lấy mẫu, và do đó ảnh hưởng đến chất

lưu trữ. Ta xem xét các loại file phổ biến sau.
4.3. Cấu trúc file WAVE.
a) Các loại file âm thanh.
Có rất nhiều dạng file âm thanh, như dạng file “.MP3”, “.MIDI”,
“.WAV”, “.RA”, “AIFF”, “.WMA”. Song phổ biến hơn là ở dạng “.wav” .
Dạng file này đưa ra ở dạng thô, dữ liệu âm thanh không được nén. Được phát
19
minh đầu tiên bởi Microsoft, các file wave vẫn được sử dụng một cách rộng
rãi (ví dụ các âm thanh lúc khởi động và tắt Window). Chất lượng âm thanh
rất tốt nhưng kích thước file rất lớn. Một bài hát pop đầy đủ ở dạng Wave có
thể chiếm 40 MB của không gian đĩa hoặc nhiều hơn.
b) Cấu trúc file WAVE.
Một trong những cấu trúc đơn giản nhất, cơ bản trong việc lưu trữ dữ liệu
âm thanh là tập tin dạng wave. Tập tin dạng wave là tập tin lưu trữ dữ liệu
dạng waveform, dữ liệu khi thu âm được lưu giữ trực tiếp vào tập tin, nên tốc
độ mã và giải mã dữ liệu dạng này rất nhanh. Sau đây là cấu trúc file wave:
Định dạng file wave là tập con trong định dạng file multimedia dạng
RIFF của Microsoft. Một file RIFF được bắt đầu là file header, tiếp theo lần
lượt là các đoạn Data. Một file wave thường bắt đầu là từ “RIFF” với một
đoạn đơn “WAVE” bao gồm 2 đoạn con là “fmt” để mô tả định dạng dữ liệu
và đoạn “data” chứa các đoạn dữ liệu thực hiện. Nó được gọi là định dạng
chuẩn.
20
Định dạng file wave chuẩn được bắt đầu với RIFF header:
0 4 ChunkID Chứa từ “RIFF” mã ASCII
4 4 ChunkSize 36 + SubChunk2Size
8 4 Format Chứa từ “WAVE”
21
Định dạng “WAVE” bao gồm 2 đoạn con: “fmt” và “data”:
Đoạn con “fmt” để mô tả định dạng dữ liệu âm thanh:

header chứa các thông tin như độ dài file, số bit/mẫu, kiểu kênh mono hay
stereo,…
Muốn thao tác xử lý các file wave thì chúng ta phải thay đổi một số
thông số trong header như độ dài file,…sau đó ghi các dữ liệu cần thiết sau khi
ghi header mới vào.
+ Các trường cần thay đổi khi thực hiện các thao tác xử lý File
wave:
- 2 trường SubChunk1Size và SubChunk2Size tất nhiên là phải được
cộng thêm với phần dữ liệu của File 2
- Nếu 2 File khác tôc độ lấy mẫu, giả sử 2 File cùng số kênh, cùng mức
lượng tử, mà File 2 có tốc độ lấy mẫu lớn hơn File 1, thì khi ghép File2 vào
23
Header Dữ liệu
File 1; khi phát, âm thanh File 1 như ban đầu còn file 2 sẽ phát chậm hơn
(điều này tương đương với 1 dọng trầm được phát thay vì dọng cao). Ngược
lại, File 2 có tốc độ lấy mẫu bé hơn File 1, thì khi ghép File2 vào File 1, khi
phát, âm thanh File 1 như ban đầu còn file 2 sẽ phát nhanh hơn (điều này
tương đương với 1 dọng cao được phát thay vì dọng trầm).
- Nếu 2 File cùng tốc độ lấy mẫu:
+ Giả sử cùng cùng kênh là 1 hoặc 2, nhưng mức lưọng tử khác
nhau, chẳng hạn File1 là 8Bit/mẫu, File2 là 16Bit/mẫu khi ghép 2 File lại với
nhau ta cần phải thực hiện 1 phép ánh xạ 1 File về dạng cùng mức lượng tử
của File kia bằng cách, thực hiện biến đổi giá trị mẫu từ miền [0,255] tới miền
[0,65535] hoặc ngược lại.
+ Nếu cùng mức lượng tử, cùng kênh thì sao chép bình thường
+ Nếu cùng mức lượng tử nhưng khác kênh. Ta cần biến đổi 1 File
về dạng cùng kênh với File kia bằng cách: Biến 1 File Mono  Stereo thì mỗi
mẫu của File Mono được nhân lên thêm 1 mẫu nữa và chèn vào sau mẫu đó.
Biến Stereo  Mono bằng cách chỉ lấy mẫu của kênh trái hoặc kênh phải. Lúc
này từ File Stereo ta được 2 File MonoLeft và MonoRight.

25

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Đồ án tốt nghiệp đại học nghiên cứu, tìm hiểu mạng neuron và ứng dụng mạng neuron trong nhận dạng giọng nói trên tập từ hữu hạn - Pdf 14

Tài liệu, ebook tham khảo khác

Học thêm