i
LỜI CAM ĐOAN
Tên tôi là: Vũ Thanh Huế
Sinh ngày: 25/03/1985
Học viên lớp cao học K12I - Trường Đại học Công nghệ thông tin và
Truyền thông - Thái Nguyên.
Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài được trình bày
trong luận văn là bản thân tôi tìm hiểu và nghiên cứu, dưới sự hướng dẫn
khoa học của Thầy giáo Tiến sĩ Phùng Trung Nghĩa.
Các nội dung trong luận văn đúng như nội dung trong đề cương và yêu
cầu của thầy giáo hướng dẫn. Tất cả tài liệu tham khảo đều có nguồn gốc,
xuất xứ rõ ràng. Nếu sai tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa
học và trước pháp luật.
Tác giả luận văn
ii
LỜI CẢM ƠN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động
viên, giúp đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn Tiến sĩ Phùng
Trung Nghĩa, với đề tài luận văn “Nghiên cứu phương pháp nén tiếng nói tốc
độ bit thấp bằng kỹ thuật phân rã tiếng nói theo thời gian” đã hoàn thành.
Em xin bày tỏ lòng biết ơn sâu sắc đến:
Thầy giáo hướng dẫn Tiến sĩ Phùng Trung Nghĩa đã tận tình chỉ dẫn,
giúp đỡ em hoàn thành luận văn này.
Bộ phận sau Đại học Trường Đại học công nghệ thông tin và truyền
thông đã giúp đỡ em trong quá trình học tập cũng như thực hiện luận văn.
Em xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động
viên, khích lệ, tạo điều kiện giúp đỡ em trong suốt quá trình học tập, thực hiện
PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN ................................................... .23
2.1. Phương pháp của Atal ............................................................................ 23
2.2. Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD .................. 26
2.3. Phương pháp MRTD .............................................................................. 29
2.4. Mã hóa tiếng nói với TD kết hợp sử dụng STRAIGHT ......................... 34
2.4.1. Sơ lược về phương pháp mã hóa TD-STRAIGHT....................... 34
2.4.2. Tính tham số phổ đường LSF từ phổ STRAIGHT ....................... 36
2.4.3. Lượng tử hóa vector LSF ............................................................ 37
2.4.4. Lượng tử hóa vector sự kiện........................................................ 37
iv
2.4.5. Lượng tử hóa hàm sự kiện........................................................... 37
2.4.6. Lượng tử hóa tham số tần số cơ bản F0 ....................................... 38
2.4.7. Lượng tử hóa tham số độ lợi ....................................................... 38
2.4.8. Lượng tử hóa tham số nhiễu ........................................................ 38
CHƯƠNG 3. ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA
TIẾNG NÓI MRTD VỚI CƠ SỞ DỮ LIỆU TIẾNG VIỆT .............................. 40
3.1. Ngữ âm tiếng Việt .................................................................................. 40
3.2. Cơ sở dữ liệu tiếng nói tiếng Việt ........................................................... 42
3.3. Cài đặt các phương pháp mã hóa tiếng nói dùng MRTD trên MATLAB 44
3.4. Tiêu chí đánh giá khách quan và chủ quan ............................................ 46
3.5. Kết quả khách quan và chủ quan các phương pháp. …………………….49
3.6. Đánh giá các kết quả .............................................................................. 51
KẾT LUẬN .......................................................................................................... 52
TÀI LIỆU THAM KHẢO ................................................................................... 53
v
Kỹ thuật phân rã theo thời
TD
Temporal Decomposition
LSF
Line Spectral Frequency
Đặc trưng phổ đường
Modi ed Restricted Temporal
Kỹ thuật phân rã theo thời
Decomposition
gian giới hạn cải tiến
Restricted Temporal
Kỹ thuật phân rã theo thời
Decomposition
gian giới hạn
Perceptual evaluation of speech
Hình 1.2. Tiếng nói hữu thanh ................................................................................. 5
Hình 1.3. Bộ phận cung cấp làn hơi ......................................................................... 5
Hình 1.4. Dây thanh âm ........................................................................................... 6
Hình 1.5. Cấu trúc cơ quan phát âm ......................................................................... 7
Hình 1.6. Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm ................... 8
Hình 1.7. Mô hình hóa cơ quan phát âm .................................................................. 8
Hình 1.8. Mô hình hóa cơ quan phát âm đầy đủ bằng máy tính ............................... 9
Hình 1.9. Cơ quan thính giác con người .................................................................. 9
Hình 1.10. Mô hình điểm cực formant cơ quan phát âm ........................................ 14
Hình 1.11. Mô hình kích thích âm hữu thanh ......................................................... 15
Hình 1.12. Mô hình kích thích nguồn âm ............................................................... 16
Hình 1.13. Phương pháp mã hóa tiếng nói PCM .................................................... 17
Hình 1.14. Phân tích một mẫu tiếng nói bằng TD .................................................. 21
Hình 2.1. Ví dụ về hai hàm sự kiện liền kề sử dụng mô hình phân rã bậc hai. ........ 27
Hình 2.2. Hàm sự kiện có tính chất “hình học chuẩn” và “hình học không chuẩn” 29
Hình 2.3. Thuật toán chuẩn hóa vector sự kiện ...................................................... 33
Hình 2.4. Hình vẽ các hàm sự kiện nhận được khi MRTD phân tích một câu tiếng
Nhật, chỉ số trên miền thời gian là số khung. ......................................................... 34
Hình 2.5. Phương pháp mã hóa/giải mã tiếng nói dùng TD-STRAIGHT ............... 36
Hình 3.1. Đường F0 sáu thanh điệu tiếng Việt . ..................................................... 41
Hình 3.2. Thuật toán mã hóa và đánh giá chất lượng tiếng nói mã hóa bằng MRTD
.............................................................................................................................. 45
Hình 3.3. Mô hình hóa người nghe trong PESQ..................................................... 48
Hình 3.4. Tích hợp phân tích khả năng cảm thụ con người để tính điểm chất lượng
tiếng nói nhân tạo .................................................................................................. 48
viii
Hình 3.5. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỉ lệ nén
tiếng nói cũng như mã hóa nén tiếng nói. Tuy nhiên thuật toán TD của Atal có
độ phức tạp tính toán cao, không phù hợp với việc mã hóa tiếng nói thời gian
thực. Vì vậy, một số nhà nghiên cứu đã cải tiến thuật toán TD của Atal theo
2
hướng giảm độ phức tạp tính toán, ứng dụng trong mã hóa tiếng nói tốc độ bit
thấp thời gian thực [5, 6, 7]. Hướng nghiên cứu này vẫn được tiếp tục phát
triển trong những năm gần đây [8].
Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói tốc độ bit
thấp thời gian thực dùng kỹ thuật TD, phân tích lý thuyết, cài đặt thực nghiệm
và đánh giá hiệu quả của phương pháp mã hóa tiếng nói dùng kỹ thuật TD cải
tiến giới hạn MRTD với tiếng nói tiếng Việt, từ đó đưa ra các khuyến nghị
cho việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực
dùng kỹ thuật TD phù hợp cho tiếng Việt.
2. Mục tiêu của đề tài
Hướng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân
rã tiếng nói theo thời gian TD hiện vẫn được tiếp tục phát triển trong những
năm gần đây [8] nhưng ở Việt Nam, hướng nghiên cứu này còn khá mới mẻ.
Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói tốc độ bit
thấp thời gian thực dùng kỹ thuật TD bao gồm:
- Thuật toán TD nguyên thủy của Atal,
- Thuật toán cải tiến MRTD của N.P. Chiến,
Phân tích lý thuyết, cài đặt thực nghiệm với cơ sở dữ liệu tiếng Việt và
đánh giá hiệu quả của phương pháp MRTD của N.P. Chien, từ đó đưa ra các
khuyến nghị cho việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời
gian thực dùng kỹ thuật TD cho phù hợp với tiếng nói tiếng Việt.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là các phương pháp mã hóa nén tiếng
4
CHƯƠNG 1.
TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI
1.1. Thông tin và tín hiệu tiếng nói
Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người.
Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm
phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa
và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao
tiếp cơ bản nhất. Do tiếng nói là phương tiện giao tiếp cơ bản của con người,
nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn
thông từ trước đến nay.
Tín hiệu tiếng nói là loại tín hiệu âm thanh phổ biến nhất trong truyền
thông. Dải tần tín hiệu tiếng nói nằm trong khoảng 300 Hz - 3400 Hz. Tiếng
nói bao gồm hai dạng hữu thanh và vô thanh. Âm hữu thanh có đặc tính tuần
hoàn còn âm vô thanh tương tự nhiễu.
Hình 1.1. Dạng sóng tiếng nói một câu tiếng Việt
5
Hình 1.2. Tiếng nói hữu thanh
1.2. Quá trình tạo tiếng nói
Bộ phận cung cấp làn hơi: Bao gồm hai lá phổi, được sự tác động của
các cơ ngực, sườn, cơ hoành cách mô, cơ bụng. Làn hơi đưa lên quyết định
cường độ của âm thanh.
Hình 1.3. Bộ phận cung cấp làn hơi
các tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau.
Hình 1.5. Cấu trúc cơ quan phát âm
8
Hình 1.6. Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm
Biễu diễn bộ phận phát âm: Để phân tích, tổng hợp tiếng nói cần mô
hình hóa cơ quan phát âm trên máy tính. Có thể biểu diễn cơ quan phát âm
bằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng có
đường kính khác nhau. Nói cách khác, cơ quan phát âm có thể được biểu diễn
bằng một dãy các bộ lọc nối tiếp có hàm truyền khác nhau. Trong quá trình
phát âm người ta thấy rằng hình dáng cơ quan phát âm (do đó là đặc tuyến
của các bộ lọc) thay đổi rất chậm, do đó trong một khoảng thời gian ngắn
(trong một âm vị) có thể xem như sự thay đổi là không đáng kể, nhưng chúng
sẽ thay đổi rất lớn từ âm vị này sang âm vị khác.
Hình 1.7. Mô hình hóa cơ quan phát âm
9
Hình 1.8. Mô hình hóa cơ quan phát âm đầy đủ bằng máy tính
1.3. Khả năng cảm thụ tiếng nói của con người
Tiếng nói và âm thanh nói chung được con người cảm thụ thông qua cơ
quan thính giác.
Hình 1.9. Cơ quan thính giác con người
với hai nguồn âm tương quan, điều này có ảnh hưởng đến độ rõ của âm khi
tiến hành kiểm tra hệ thống.
• Tính phi tuyến của thính giác, thính giác có mức độ cảm thụ âm nhiễu
không phải là tỉ lệ thuận với độ rộng dải tần, ảnh hưởng của nó là méo âm
thanh do thêm thành phần sóng hài, không gây ra sai lệch cho người nghe
bằng do thêm thành tần số không bội, khi mã hoá phải chú ý đến thành phần
tần số không bội.
• Đặc điểm về giới tính, lứa tuổi, tâm sinh lý: tức là những yếu tố trên là
khác nhau không những âm thanh phát ra có khác nhau mà cả việc cảm thụ về
âm thanh cũng khác nhau, cho nên phải có sự kiểm tra trên diện rộng trước
khi đưa ra đánh giá.
1.4. Một số tham số cơ bản của tiếng nói
Cường độ (độ to) I:
Cường độ liên quan đến năng lượng âm. Đối với tai con người, giá trị
tuyệt đối của cường độ âm I không quan trọng bằng giá trị tỉ đối của I so với
một giá trị I0 nào đó chọn làm chuẩn. Người ta định nghĩa mức cường độ âm
L: L(B) = lg(I/I0). Đơn vị mức cường độ âm là Ben (kí hiệu: B). Mức cường
độ âm bằng 1,2,3,4 B... có nghĩa là cường độ âm I lớn gấp 10, 10^2, 10^3,
10^4... cường độ âm chuẩn I0. Trong thực tế người ta thường dùng đơn vị dB,
bằng 1/10 ben. L(dB)= 10lg(I/I0). Khi L= 1dB, thì I lớn gấp 1.26 lần I0. Đó là
mức cường độ âm nhỏ nhất mà tai ta có thể phân biệt được.
Cao độ (pitch):
Cao độ là độ "cao", "thấp" của âm thanh có quan hệ chặt chẽ với tần số
dao động (nhưng không phải là tương đương). Tần số dao động càng lớn thì
12
âm thanh càng "cao" và ngược lại. Với âm thanh thực là tổ hợp của nhiều tần
số thì tần số dao động ở đây là tần số cơ bản F0.
v( z )
(1.1)
N
1 ak z
k
k 1
Mô hình toàn cực của hàm truyền là mô hình mô tả tốt nhất cho thành
phần âm hữu thanh, tuy nhiên các ảnh hưởng của mũi, và kẽ răng lại yêu cầu
mô hình phải có cả hai sự cộng hưởng và sự triệt tiêu trong trường hợp này,
cần phải thêm các điểm không vào mô hình. Các hệ số của mẫu phương trình
trên phải là hoặc thực hoặc cặp phức.
14
Tần số cộng hưởng điển hình của cơ quan phát âm:
sk sk* k j 2 Fk
(1.2)
tương ứng rời rạc về thời gian là:
zk zk* e k T cos2 fT je kT .2sin fT
Điều chỉnh biên độ Gv, điều khiển một mạch kích thích âm hữu thanh,
các nghiên cứu chỉ ra rằng dạng sóng "thanh môn" có thể được thay bằng
dạng sóng của xung tổng hợp theo dạng:
0 n N1
0.5(1 cos( n/N1 ))
h(n) cos( (n-N1 )/2N 2 ) N1 n N1 N 2
0
n
(1.5)
N1, N2 là khoảng giới hạn của cửa sổ phân tích với âm vô thanh chỉ cần
một nguồn nhiễu vμ thông số về biên để điều chỉnh mật độ kích thích của nó,
máy phát ngẫu nhiên tạo một nguồn nhiễu bằng phẳng, các xuất hiện không
quan trọng. Do vậy, mô hình kích thích nguồn âm tổng hợp cả âm hữu thanh
và âm vô thanh để tạo tiếng nói có dạng như trong hình 1.14.
16
Hình 1.14. Mô hình hóa quá trình tạo tiếng nói
1.6. Mã hóa tiếng nói
Tổng quan
Vào năm 1892 Alexander Graham Bell khai trương tuyến điện thoại
thương mại đầu tiên trên thế giới và cho tới gần đây con người coi điện thoại
là một công cụ truyền tin hữu hiệu. Nhờ điện thoại mà con người có khả năng
trao đổi thông tin giữa các điểm khác nhau trên toàn thế giới một cách dễ