Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói - Pdf 22

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
BỘ MÔN CÔNG NGHỆ TRI THỨC

LUẬN VĂN TỐT NGHIỆP
CỬ NHÂN CÔNG NGHỆ THÔNG TIN
NGHIÊN CỨU
CÁC ĐẶC TRƯNG CỦA TIẾNG VIỆT
ÁP DỤNG VÀO NHẬN DẠNG
TIẾNG NÓI TIẾNG VIỆT
Giáo viênhướng dẫn:
Th.S Thái Hùng Văn
Sinh viên thực hiện:
Đỗ Xuân Đạt –9912540
Võ Văn Tuấn –9912737
Thành phố Hồ Chí Minh, tháng 7 năm 2003
i
LờiCảmƠn
Hoàn thành luận văn này, chúng em xin chân thành cảm
ơn thầy Thái Hùng Văn ñã trực tiếp hướng dẫn và tạo ñiều kiện
cho chúng em tiếp cận với lĩnh vực nhận dạng tiếng nói, một lĩnh
vực vô cùng lý thú.
Chúng em xin gởi lời cảm ơn ñến các thầy cô trong
trường, ñặc biệt là các thầy cô bộ môn Công Nghệ Tri Thức, và
thầy Trần Tiến Đức trường ĐH Sư Phạm Kỹ Thuật ñã truyền ñạt
cho chúng em nhiều kiến thức bổ ích.
Chúng tôi cũng không thể không nhắc ñến sự ñộng viên
chăm sóc của gia ñình, sự cộng tác giúp ñỡ và ủng hộ tinh thần
của bạn bè, ñặc biệt là bạn Nguyễn Tấn Dũng và anh Đặng
Hoàng Vũ. Chúng tôi xin ghi ơn tất cả.
Thành phố Hồ Chí Minh, tháng 7 năm 2003.

ra một sản phẩm thực tế hoàn chỉnh. Khó khăn nằm ở tính phức tạp của vấn ñề và
mức ñộñầu tư cũng như kế thừa chưa cao. Các nghiên cứu chủ yếu vẫn là nhận
iii
dạng tiếng nói chung chung chứ chưa có nhiều phân tích kỹ các ñặc tính riêng của
tiếng Việt. Các hệ nhận dạng trước ñây hầu hết không phân biệt ñược từ ñồng âm
như: a, á, à, ả,ã, ạ… Hơnnữa kích thước từ ñiển (số từ nhận biết ñược) còn nhỏ,
thời gian học mẫu khá lâu, và nhận dạng mang tính phụ thuộc người nói khá cao.
Vấn ñề còn khó khăn ở chỗ nhận dạng tiếng nói mang tính liên ngành [T.H.Văn-
00]. Nghiên cứu nhận dạng tiếng nói bằng máy tính là nghiên cứu cả một hệ thống
các ngành khoa học có liên quan như: ngôn ngữ học, thống kê học, sinh lý học, vật
lý học, toán học, âm học, tâm lý học, lý thuyết thông tin và truyền tin… và dĩ
nhiên có cả công nghệ thông tin.
Luận văn này xây dựng với mong muốn góp phần khắc phục những hạn chế
trên, nâng cao hiệu quả nhận dạng tiếng Việt; bằng cách rút trích và sử dụng nhiều
ñặc trưng âm học tiếng Việt hơn, từ ñó dùng nhiều ñặc trưng hơn ñể nhận dạng
giúp nâng cao ñộ chính xác và phân biệt ñược các từ ñồng âm góp phần nâng kích
thước từ ñiển lên lớn hơn.
Nội dung luận văn ñược trình bày thành các chương như sau:
Chương 1: Tiếng nói và ngữ âm tiếng Việt. Chương thứ nhất tóm tắt về
tiếng nói và trình bày một số ñặc ñiểm ngữ âm tiếng Việt. Trong số ñó, luận văn
quan tâm nhiều ñến thanh ñiệu, là ñặc ñiểm khác biệt của tiếng Việt so với nhiều
ngôn ngữ khác.
Chương 2: Xử lý tín hiệu số -phân tích tiếng nói: Trình bày một số kiến
thức cơ bản về xử lý tín hiệu số và một số phương pháp tiếp cận tín hiệu tiếng nói.
Chương 3: Nhận dạng tiếng nói. Chương này mô tả một hệ nhận dạng
tiếng nói tổng quát, và ñi cụ thể vào hệ nhận dạng tiếng nói sử dụng mô hình
Markov ẩn liên tục.
Chương 4: Một số khảo sát về thanh ñiệu tiếng Việt. Đây là các khảo sát
của người viết về thanh ñiệu tiếng Việt. Kết quả khảo sát sẽ ñược kết hợp, so sánh
với các nghiên cứu về ngữ âm tiếng Việt trước ñây ñể rút ra các ñặc ñiểm ngữ âm

1.2.2.Âm vị 3
1.2.3.Trường ñộ 3
Chương 2.Xử lý tín hiệu số -phân tích tín hiệu tiếng nói 7
2.1.Xử lý tín hiệu số 7
2.1.1.Lấy mẫu tín hiệu 7
Hàm lấy mẫu: 7
2.1.1.1.Phổ của các tín hiệu ñược lấy mẫu 8
2.1.1.2.Mối quan hệ giữa phổ của tín hiệu rời rạc và phổ của tín
hiệu liên tục theo thời gian thời gian 9
2.1.2.Dãy xung 10
2.1.3.Biến ñổi Fourier rời rạc 11
2.1.3.1.Biến ñổi Fourier rời rạc 12
vi
2.1.3.2.Biến ñổi Fourier nhanh 13
2.1.4.Biến ñổi cosin rời rạc 13
2.1.5.Các bộ lọc 14
2.1.6.Cửa sổ tín hiệu 15
2.2.Phân tích tín hiệu tiếng nói 20
2.2.1.Phương pháp dãy bộ lọc 20
2.2.2.Trích ñặc trưng MFCC 28
2.2.3.Phương pháp mã hóa dự báo tuyến tính (LPC) 32
2.2.3.1.Làm rõ tín hiệu 34
2.2.3.2.Phân ñoạn thành các frame 34
2.2.3.3.Lấy cửa sổ 35
2.2.3.4.Phân tích tự tương quan 36
2.2.3.5.Phân tích LPC 36
2.2.3.6.Chuyển các hệ số LPC thành các hệ số cepstral 37
2.2.3.7. Đặt trọng số cho các hệ số cepstral 37
2.3.Phát hiện chu kỳ tiếng nói–phương pháp tìm tần số cơ bản (Tham
khảo phụ lục 2) 38

4.6.Thanh 6 (Thanh nặng) 66
Chương 5.Xây dựng môhình nhận dạng thanh ñiệu tiếng Việt 66
5.1.Tiền xử lý 66
5.2.Trích F0 từ tín hiệu tiếng nói (pitch extraction) 69
5.3.Tạo vector ñặc trưng từ vector V(F0) 71
5.4.Huấn luyện cho mô hình 72
viii
5.5.Nhậndạng 73
5.6.Một số kết quả nhận dạng thanh ñiệu tiếng Việt 74
Chương 6.Thiết kế mô hình nhận dạng tiếng nói tiếng Việt 77
6.1.Công ñoạn huấn luyện 77
6.2.Công ñoạn nhận dạng 79
Chương 7.Hiện thựchoá mô hình nhận dạng tiếng Việt 80
7.1.Nhận dạng tiếng ñơn 80
7.2.Nhận dạng câu 82
Chương 8.Kết luận 84
8.1.Kết luận 84
8.2.Hướng phát triển: 85
Tài liệu tham khảo 86
Phụ lục 1: Ngữ âm tiếng Việt 87
Phụ lục 2: Vai trò của tần số cơ bản và một số kỹ thuật xử lý tầnsố cơ .100
1
Chương 1. Tiếng nói và ngữ âm tiếng Việt
1.1.Gii thiu ting nói
Tiếng nói là một loại sóng âm. Khi ta nói, tiếng nói ñược truyền ñi mang
theo thông tin dưới dạng các dao ñộng cùng phương truyền ñến tai người nhận.
Mức ñộ truyền tin của tiếng nói ñược xem là nhanh nhất trong các khả năng tự
nhiên của con người.
Khác với sách báo, thư tín… chỉ tryền tin một chiều, tiếng nói giúp ta
truyền tin cả hai chiều. Sách báo giúp ta ghi lại thông tin ñể sau này ñọc lại, nhưng

nói của con người, các khoảng lặng chèn vào giữa các từ có tác dụng làm cho
tiếng nói của chúng ta ngheêm hơn, và tần số của chúng ổn ñịnh trong miền có ñộ
biến thiên khoảng 10 Hz.
1.1.4.Tỷ số tiếng nói
Trong chuỗi tiếng nói của chúng ta, có thể dễ dàng nhận thấy ngoại trừ các
tiếng, còn có các khoảng trống ñược chèn vào, và tỷ số giữa ñoạn có tiếng nói thực
sự so với khoảng thời gian tổng cộng của chuỗi âm ñược gọi là tỷ số tiếng nói.
Thực nghiệm chứng minh khi chúng ta tăng tốc ñộ nói thì khoảng trống
giữa các tiếng bị giảm nhiều. Và ngược lại, khi giảm tốc ñộ nói thì các khoảng
trống giữa các từ bị dài ra.
1.2.Ng âm ting Vit (Tham kho ph lc 1)
1.2.1.Thanh ñiệu
Thanh ñiệu là ñặc tính ñặc trưng của tiếng Việt nói riêng và các ngôn ngữ
có thanh ñiệu nói chung so với các ngôn ngữ khác như tiếng Anh, tiếng Pháp,…
Thanh ñiệu là một thành phần ngữ âm, không phải là nhấn giọng, giúp phân
biệt các từ ñồng âm. Đây là ñặc ñiểm mà ña số các hệ nhận dạng tiếng Việt trước
ñây chưa xử lý.
3
Trong tiếng Việt, thanh ñiệu cũng là một ñặc ñiểm mang ñậm tính ñịa
phương. Tổng cộng có 6 thanh, nhưng tuỳ vào từng ñịa phương mà số lượng thanh
ñiệu tiếng Việtcó thể bị giảm xuống còn 5 hay 4 do sự sát nhập một số thanh lại
với nhau.
Người ta phân biệt thanh ñiệu dựa vào 2 yếu tố: âm ñiệu và âm vực.
Âm ñiệu là sự thay ñổi tần số cơ bản của thanh ñiệu, hay ñường nét
của thanh ñiệu.
Âm vực: là miền giá trị của tần số cơ bản.
1.2.2.Âm vị
Trong ngôn ngữ nói, tiếng nói bao gồm nhiều câu, mỗi câu bao gồm nhiều
từ, và mỗi từ lại bao gồm nhiều âm vị. Theo quan ñiểm ngữ âm, âm vị ñược xem
là ñơn vị nhỏ nhất của tiếng nói.

ñích chung là làm cho tín hiệu này dễ xử lý hơn.
2.1.1.Lấy mẫu tín hiệu
Hàm lấy mẫu:
Hàm lấy mẫu là cầu nối giữa các hệ thống rời rạc và các hệ thống liên tục.
Nó ñược gọi bằng các tên khác nhau như: hàm Dirac Delta, hàm sàng lọc,… và
“hàm lấy mẫu” là một trong số các tên ñó. Hàm lấy mẫu có các tính chất sau:
Tính chất 1:
Tính chất 2:
Trong các tính chất trên,

là một số thực bất kì.
8
Hình sau ñây minh họa hàm lấy mẫu lý tưởng:
Hình 2.1: Hàm lấy mẫu lý tưởng
Kết quả của phép lấy mẫu là:
2.1.1.1.Phổ của các tín hiệu ñược lấy mẫu
Sử dụng lý thuyết của phép biến ñổi Fourier, phổ tần số của các tín hiệu liên
tục theo thời gian ñược mô tả như sau:
Và dạng sóng của tín hiệu ñược thể hiện theo phổ của nó như sau:
Do biểu thức trên ñược áp dụng cho tất cả các hàm liên tục theo thời gian
x(t) nên nó cũng ñúng cho x
s
(t):
Thay x
s
(t) vào, ta ñược:
9
Trật tự phép lấy phân tích và phép cộng có thể thay ñổi, áp dụng tính chất 1
của hàm lấy mẫu, ta ñược:
Phương trình trên là dạng biểu diễn chính xác hàm X(f) theo chuỗi Fourier.

Các tín hiệu hình sin sau khi qua xử lý vẫn ñảm bảo cho ra các kết xuất là
các tín hiệuhình sin, chỉ có biên ñộ và pha là có thể thay ñổi, còn tần số và hình
dạng vẫn giữ nguyên. Tín hiệu trong thế giới thực ở dạng sóng liên tục theo chu kỳ,
các sóng này là tổng hợp của các ñường hình sin rời rạc có tần số, biên ñộ khác
nhau và pha của tínhiệu hình sin có tần số f tương ứng với một giá trị biểu diễn ñặc
tính tần số của tín hiệu tại tần số f. Vì vậy, các tín hiệu Fourier có thể dùng ñể tổng
hợp trở lại thành các tín hiệu hình sin ban ñầu thông qua biến ñổi Fourier (Fourier
Transform). Có 4 loại biến ñổi Fourier tương ứng với 4 loại tín hiệu:
Loại biến ñổiLoại tín hiệu
Biến ñổi Fourier
(Fourier Transform)
Liên tục không chu kỳ
Chuỗi Fourier
(Fourier Series)
Liên tục có chu kỳ
Biến ñổi Fourier thời gian rời rạc
(Discrete Time Fourier Transform)
Rời rạc không chu kỳ
Biến ñổi Fourier rời rạcRời rạc có chu kỳ
12
(Discrete Fourier Transform–DFT)
Một tín hiệu x(n) có ñộ dài L hữu hạn ñược dùng như là một chu kỳ tín hiệu.
(Ta có thể xây dựng tín hiệu x
p
(n) tuần hoàn bằng cách xếp chồng tuần hoànx(n)).
Biến ñổi Fourier của x(n):
Trong ñó X(w) ñược lấy mẫu tại các ñiểm w=2 k/N, với L≤N là ñiều kiện ñể
có thể khôi phục lại x(n) từ X(w) (ñịnh lý lấy mẫu Shannon).
Do phải xử lý bằng máy tính nên những tín hiệu có ñộ dài hữu hạn vàcó trục
tần số rời rạc mới có thể thực hiện dễ dàng nên biến ñổi Fourier rời rạc là thích hợp

13
DFT(x(n-p))=e
-j2

kp/N
X(k) với dãy (n-p) ñược ñịnh nghĩa là dịch vòng của
x(n).
Độ phức tạp của công thức này là O(N
2
), không hiệu quả vì phải thực hiện
một khối lượng tính toán lớn. Người ta thường dùng một phương pháp hiệu quả hơn
ñó là biến ñổi Fourier nhanh (Fast Fourier Transform–FFT).
2.1.3.2.Biến ñổi Fourier nhanh
Nguyên tắc cơ bản của tất cả các thuật toán FFT là dựa trên việc phân tích
cách tính DFT của một dãy N số thành phép tính DFT của các dãy nhỏ hơn (số ñiểm
tính DFT nhỏ hơn). Một trong những thuật toán FFT thông dụng hiện nay là thuật
toán FFT cơ số 2 phân chia theo tần số (Radix-2, Decimation-In-Frequency
FFT Algorithm). Thuật toán phân chia dựa trên việc phân chia dãy x(n) thành các
dãy nhỏ hơn ñược gọi là thuật toán phân chia theo tần số vì chỉ số n thường ñược
gắn liền với tần số. Ví dụ phân chia theo tần số của FFT 16 ñiểm ñược minh họa
như sau:
1 tín hi
ệu
2 tín hiệu
4 tín hiệu
8 tín hiệu
16 tín hi
ệu 1
Độ phức tạp của phương pháp này là O(Nlog
2

vào bị méo mó. Vì vậy cần phải chỉnh lại ñể tăng chất lượng chương trình xử
lý tín hiệu số.
Ví dụ: Các micro cũ, dơ sẽ cho ra các tín hiệu âm thanh không tốt; “con mắt”
(forcus len) của các máy quét bị mờ sẽ làm cho các ảnh ñược quét bị mờ theo ….
Trong thực tế kỹ thuật, người ta thường phân biệt hai trường hợp ñáp ứng
xung:
- Hệ có ñáp ứng xung hữu hạn (Finite Impulse Response–FIR): hệ có tín
hiệu ra chỉ phụ thuộc vào tínhiệu vào nên các hệ này còn ñược gọi là mạch
không truy hồi hay mạch không ñệ qui (non-recursive). Nghĩa là có N=0
trong phương trình sai tuyến tính hệ số hằng. Khi ñó:
15
- Hệ có ñáp ứng xung vô hạn (Infinite Impulse Response–IIR): hệ xử lý
có ñáp ứng xung có ñộ dài vô hạn hay ñáp ứng xung vô hạn. Tín hiệu ra
không những chỉ phụ thuộc vào tín hiệu vào mà còn phụ thuộc vào quá khứ
của chính tín hiệu ra, vì vậy chúng còn ñược gọi là các mạch có truy hồi hay
ñệ qui. Nghĩa là N>0 trong phươngtrình sai phân tuyến tính hệ số hăng.
2.1.6.Cửa sổ tín hiệu
Thông thường, việc phân tích tín hiệu ñược thực hiện trên một dãy hữu hạn
gồm N mẫu x
N
(n
0
),…, x
N
(n
0
+ N–1). Dãy tín hiệu này ñược lấy ra từ một tín hiệu
dài hơn hoặc dài vô hạn x(n). Một dãy con như vậy gọi là một cửa sổ tín hiệu. Việc
quan sát tín hiệu x(n) bằng một ñoạn x
N

Hình 2.8a: Âm /s/, cửa sổ chữ nhật,
512 ñiểm(45ms, trái) và 64 ñiểm(5.6ms, phải)
19
Hình 2.8b: Âm /s/, cửa sổ Hamming,
512 ñiểm(45ms, trái) và 64 ñiểm(5.6ms, phải)
Hình 2.8c: Âm /s/, cửa sổ Hanning,
512 ñiểm(45ms, trái) và 64 ñiểm(5.6ms, phải)

Trích đoạn Đặt trọng số cho các hệ số cepstral Phương pháp so khớp biên ñộ
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status