Nghiên cứu phương pháp nén tiếng nói tốc độ bít thấp bằng kỹ thuật phân rã tiếng nói theo thời gian - Pdf 34

i

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
------------

VŨ THANH HUẾ

NGHIÊN CỨU PHƢƠNG PHÁP NÉN TIẾNG NÓI
TỐC ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG
NÓI
THEO THỜI GIAN

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ii

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2015

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iii

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN


Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

v

LỜI CAM ĐOAN
Tên tôi là: Vũ Thanh Huế
Sinh ngày: 25/03/1985
Học viên lớp cao học K12I - Trƣờng Đại học Công nghệ thông tin và
Truyền thông - Thái Nguyên.
Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài đƣợc trình bày
trong luận văn là bản thân tôi tìm hiểu và nghiên cứu, dƣới sự hƣớng dẫn
khoa học của Thầy giáo Tiến sĩ Phùng Trung Nghĩa.
Các nội dung trong luận văn đúng nhƣ nội dung trong đề cƣơng và yêu
cầu của thầy giáo hƣớng dẫn. Tất cả tài liệu tham khảo đều có nguồn gốc,
xuất xứ rõ ràng. Nếu sai tôi hoàn toàn chịu trách nhiệm trƣớc hội đồng khoa
học và trƣớc pháp luật.
Tác giả luận văn

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vi

LỜI CẢM ƠN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, đƣợc sự động
viên, giúp đỡ và hƣớng dẫn tận tình của Thầy giáo hƣớng dẫn Tiến sĩ Phùng

4. Phƣơng pháp nghiên cứu ................................................................................3
5. Ý nghĩa khoa học và thực tiễn ........................................................................3
CHƢƠNG 1: TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI .....................................4
1.1. Thông tin và tín hiệu tiếng nói ....................................................................4
1.2. Quá trình tạo tiếng nói .................................................................................5
1.3. Khả năng cảm thụ tiếng nói của con ngƣời .................................................9
1.4. Mô hình hóa tiếng nói ...............................................................................13
1.5. Mã hóa tiếng nói ........................................................................................16
1.6. Kỹ thuật phân rã tiếng nói theo thời gian TD và ứng dụng trong mã hóa
tiếng nói ............................................................................................................20
CHƢƠNG 2: PHƢƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT
PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN .......................................................23
2.1. Phƣơng pháp của Atal ...............................................................................23
2.2. Phƣơng pháp phân rã tiếng nói theo thời gian giới hạn RTD ...................26
2.3. Phƣơng pháp MRTD .................................................................................29
2.4. Mã hóa tiếng nói với TD kết hợp sử dụng STRAIGHT...........................34
2.4.1. Sơ lƣợc về phƣơng pháp mã hóa TD-STRAIGHT ........................34
2.4.2. Tính tham số phổ đƣờng LSF từ phổ STRAIGHT ........................36
2.4.3. Lƣợng tử hóa vector LSF ...............................................................37
2.4.4. Lƣợng tử hóa vector sự kiện ..........................................................37

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

viii

2.4.5. Lƣợng tử hóa hàm sự kiện .............................................................37
2.4.6. Lƣợng tử hóa tham số tần số cơ bản F0.........................................38
2.4.7. Lƣợng tử hóa tham số độ lợi..........................................................38

Mã hóa theo dạng xung

LPC

Linear Predictive Coding

Mã hóa dự đoán tuyến tính

Code-Excited Linear Prediction

Mã hóa dự đoán tuyến tính

coder

kích thích mã

CELP

Kỹ thuật phân rã theo thời

TD

Temporal Decomposition

LSF

Line Spectral Frequency

Đặc trƣng phổ đƣờng


Số hóa bởi Trung tâm Học liệu - ĐHTN

gian

/>

x

DANH MỤC CÁC BẢNG
Bảng 3.1. Cấu trúc âm tiết tiếng Việt .............................................................. 42
Bảng 3.2. Sáu thanh điệu tiếng Việt................................................................ 42
Bảng 3.3. Thang điểm Scheffe ........................................................................ 47
Bảng 3.4. Thang điểm PESQ .......................................................................... 49

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

xi

DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ
Hình 1.1. Dạng sóng tiếng nói một câu tiếng Việt ......................................................4
Hình 1.2. Tiếng nói hữu thanh ....................................................................................5
Hình 1.3. Bộ phận cung cấp làn hơi ............................................................................5
Hình 1.4. Dây thanh âm ..............................................................................................6
Hình 1.5. Cấu trúc cơ quan phát âm ............................................................................7
Hình 1.6. Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm ....................8
Hình 1.7. Mô hình hóa cơ quan phát âm .....................................................................8
Hình 1.8. Mô hình hóa cơ quan phát âm đầy đủ bằng máy tính ................................9
Hình 1.9. Cơ quan thính giác con ngƣời .....................................................................9

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

1

MỞ ĐẦU
1. Lý do chọn đề tài
Tiếng nói là phƣơng tiện giao tiếp cơ bản của con ngƣời. Vì vậy tiếng
nói cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống
viễn thông. Để truyền tiếng nói trong mạng viễn thông, tiếng nói cần phải
đƣợc số hóa. Phƣơng pháp mã hóa cơ bản theo dạng xung (Pulse Code
Modulation - PCM) cho tốc độ bit của tiếng nói đã số hóa là 64 Kbps giống
tốc độ bit của một kênh thông tin số cơ bản chƣa ghép kênh [1]. Với sự bùng
nổ về thông tin trong các mạng viễn thông hiện đại, việc sử dụng phƣơng
pháp mã hóa PCM với tốc độ cơ bản 64 Kbps là tiêu tốn lãng phí nguồn tài
nguyên, hạn chế dung lƣợng thông tin trên một kênh truyền vật lí. Chính vì
vậy, rất nhiều nhà nghiên cứu trên thế giới đã tập trung vào vấn đề mã hóa
tiếng nói để đảm bảo tiếng nói đƣợc mã hóa có tốc độ bit thấp, có thể dễ dàng
tăng số kênh truyền logic trên một kênh truyền vật lí, trong khi vẫn phải đảm
bảo các yêu cầu về chất lƣợng [2-7]. Các phƣơng pháp mã hóa tiếng nói phổ
biến đƣợc biết đến là mã hóa dự đoán tuyến tính LPC [2], mã hóa thích nghi
ADPCM [3],... Mặc dù các phƣơng pháp mã hóa này là tin cậy và đã đƣợc
tiêu chuẩn hóa và sử dụng rộng rãi trong các hệ thống viễn thông. Hiệu quả
nén của các phƣơng pháp mã hóa phổ biến này vẫn chƣa đảm bảo trong điều
kiện tài nguyên hạn chế nhƣ các hệ thống thông tin vệ tinh hay di động.
Kỹ thuật phân rã tiếng nói theo thời gian (Temporal Decomposition TD) là một kỹ thuật phân tích tiếng nói đƣợc đề xuất bởi Atal năm 1983 [4].
Các kết quả nghiên cứu cho thấy TD rất thích hợp để phân tích mô hình hóa
tiếng nói cũng nhƣ mã hóa nén tiếng nói. Tuy nhiên thuật toán TD của Atal có
độ phức tạp tính toán cao, không phù hợp với việc mã hóa tiếng nói thời gian

nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD. Đây là đối tƣợng nghiên
cứu đƣợc nhiều nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

3

Phạm vi của luận văn bao gồm nghiên cứu tổng quan về mã hóa nén tiếng
nói [1-3], một số phƣơng pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực
[2-8], đặc biệt tập trung vào kỹ thuật mã hóa nén tiếng nói dùng TD [4-8]. Luận
văn cũng nghiên cứu cài đặt thực nghiệm các phƣơng pháp mã hóa dùng
MRTD và đánh giá với cơ sở dữ liệu tiếng Việt để đƣa ra các khuyến nghị.
4. Phƣơng pháp nghiên cứu
Phƣơng pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
trên thế giới [1-8] để phân tích, đánh giá về các kỹ thuật mã hóa tiếng nói tốc
độ bit thấp.
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ
nghiên cứu thực nghiệm phƣơng pháp mã hóa tiếng nói tốc độ bit thấp thời
gian thực dùng kỹ thuật phân rã tiếng nói theo thời gian MRTD. Cơ sở dữ liệu
để đánh giá thực nghiệm là cơ sở dữ liệu tiếng nói tiếng Việt. Môi trƣờng để
thực nghiệm là MATLAB 7.0.
5. Ý nghĩa khoa học và thực tiễn
Nghiên cứu về mã hóa tiếng nói tốc độ bit thấp có vai trò quan trọng
trong các hệ thống truyền thông hiện đại. Mặc dù mục tiêu của các bộ mã hóa
tiếng nói là độc lập ngôn ngữ, hiệu quả của các phƣơng pháp mã hóa tiếng nói
là khác nhau với các cơ sở dữ liệu tiếng nói khác nhau. Nghiên cứu về các
phƣơng pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD
và thử nghiệm đánh giá với tiếng nói tiếng Việt chƣa đƣợc nghiên cứu ở Việt

5

Hình 1.2. Tiếng nói hữu thanh
1.2. Quá trình tạo tiếng nói
Bộ phận cung cấp làn hơi: Bao gồm hai lá phổi, đƣợc sự tác động của
các cơ ngực, sƣờn, cơ hoành cách mô, cơ bụng. Làn hơi đƣa lên quyết định
cƣờng độ của âm thanh.

Hình 1.3. Bộ phận cung cấp làn hơi

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

6

Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong
thanh quản:
Do áp lực của làn hơi từ phổi đƣa lên, thanh đới - với những độ căng
khác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau,
cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âm
thanh có cao độ khác nhau. Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn
ở đàn ông, nên giọng nữ và trẻ em cao hơn giọng đàn ông.

Hình 1.4. Dây thanh âm
Bộ phận dẫn âm: Gồm chủ yếu là cuống họng (yết hầu) thông với đƣờng
miệng hoặc đƣờng mũi. Các chấn động âm thanh do thanh đới tạo ra, đƣợc bộ
phận dẫn âm gom lại và dẫn ra ngoài theo hai hƣớng miệng hoặc mũi. Cuống
họng và miệng chủ yếu đóng vai trò truyền âm.
Bộ phận phát âm: Là miệng với các hoạt động của môi, răng, lƣỡi, hàm

bằng một dãy các bộ lọc nối tiếp có hàm truyền khác nhau. Trong quá trình
phát âm ngƣời ta thấy rằng hình dáng cơ quan phát âm (do đó là đặc tuyến
của các bộ lọc) thay đổi rất chậm, do đó trong một khoảng thời gian ngắn
(trong một âm vị) có thể xem nhƣ sự thay đổi là không đáng kể, nhƣng chúng
sẽ thay đổi rất lớn từ âm vị này sang âm vị khác.

Hình 1.7. Mô hình hóa cơ quan phát âm

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

9

Hình 1.8. Mô hình hóa cơ quan phát âm đầy đủ bằng máy tính
1.3. Khả năng cảm thụ tiếng nói của con ngƣời
Tiếng nói và âm thanh nói chung đƣợc con ngƣời cảm thụ thông qua cơ
quan thính giác.

Hình 1.9. Cơ quan thính giác con ngƣời
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

10

Cơ quan thính giác của con người có một số đặc điểm sau:
• Con ngƣời có thể nghe đƣợc các tần số âm thanh trong khoảng 15 Hz 20.000 Hz. Âm thanh với tần số cao hơn đƣợc gọi là siêu âm, thấp hơn
là hạ âm.
• Ngƣời nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị

thanh do thêm thành phần sóng hài, không gây ra sai lệch cho ngƣời nghe
bằng do thêm thành tần số không bội, khi mã hoá phải chú ý đến thành phần
tần số không bội.
• Đặc điểm về giới tính, lứa tuổi, tâm sinh lý: tức là những yếu tố trên là
khác nhau không những âm thanh phát ra có khác nhau mà cả việc cảm thụ về
âm thanh cũng khác nhau, cho nên phải có sự kiểm tra trên diện rộng trƣớc
khi đƣa ra đánh giá.
1.4. Một số tham số cơ bản của tiếng nói
Cường độ (độ to) I:
Cƣờng độ liên quan đến năng lƣợng âm. Đối với tai con ngƣời, giá trị
tuyệt đối của cƣờng độ âm I không quan trọng bằng giá trị tỉ đối của I so với
một giá trị I0 nào đó chọn làm chuẩn. Ngƣời ta định nghĩa mức cƣờng độ âm
L: L(B) = lg(I/I0). Đơn vị mức cƣờng độ âm là Ben (kí hiệu: B). Mức cƣờng
độ âm bằng 1,2,3,4 B... có nghĩa là cƣờng độ âm I lớn gấp 10, 10^2, 10^3,
10^4... cƣờng độ âm chuẩn I0. Trong thực tế ngƣời ta thƣờng dùng đơn vị dB,
bằng 1/10 ben. L(dB)= 10lg(I/I0). Khi L= 1dB, thì I lớn gấp 1.26 lần I0. Đó là
mức cƣờng độ âm nhỏ nhất mà tai ta có thể phân biệt đƣợc.
Cao độ (pitch):
Cao độ là độ "cao", "thấp" của âm thanh có quan hệ chặt chẽ với tần số
dao động (nhƣng không phải là tƣơng đƣơng). Tần số dao động càng lớn thì
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

12

âm thanh càng "cao" và ngƣợc lại. Với âm thanh thực là tổ hợp của nhiều tần
số thì tần số dao động ở đây là tần số cơ bản F0.
Dao động của sóng âm có thể đƣợc đo đạc khách quan với kết quả là tần
số. Nhƣng tần số này khiến não bộ của con ngƣời sắp đặt thành những tiêu


G
N

1   ak z  k

(1.1)

k 1

Mô hình toàn cực của hàm truyền là mô hình mô tả tốt nhất cho thành
phần âm hữu thanh, tuy nhiên các ảnh hƣởng của mũi, và kẽ răng lại yêu cầu
mô hình phải có cả hai sự cộng hƣởng và sự triệt tiêu trong trƣờng hợp này,
cần phải thêm các điểm không vào mô hình. Các hệ số của mẫu phƣơng trình
trên phải là hoặc thực hoặc cặp phức.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

Trích đoạn Cơ sở dữ liệu tiếng nói tiếng Việt Cài đặt các phƣơng pháp mã hóa tiếng nói dùng MRTD trên MATLAB
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status