Nghiên cứu phương pháp biến đổi thông tin người nói trong tiếng nói dùng kỹ thuật phân rã theo thời gian (Luận văn thạc sĩ) - Pdf 51

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

THÂN THẾ HUYẾN

NGHIÊN CỨU PHƯƠNG PHÁP
BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI DÙNG KỸ
THUẬT PHÂN RÃ THEO THỜI GIAN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN, 2018

LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành cám ơn TS. Phùng Trung Nghĩa,
người đã trực tiếp hướng dẫn em hoàn thành luận văn. Với những lời chỉ dẫn,
những tài liệu, sự tận tình hướng dẫn và những lời động viên của thầy đã giúp
em vượt qua nhiều khó khăn trong quá trình thực hiện luận văn này.
Em cũng xin cám ơn quý thầy cô giảng dạy chương trình cao học
"Khoa hoc máy tính” đã truyền dạy những kiến thức quý báu, những kiến
thức này rất hữu ích và giúp em nhiều khi thực hiện nghiên cứu.
Cuối cùng, em xin gửi lời cám ơn tới gia đình và bạn bè đã luôn ủng hộ động
viên giúp đỡ em trong suốt những năm học vừa qua.
Em xin chân thành cám ơn!
Thái Nguyên, ngày 22 tháng 06 năm 2018
Học viên

Thân Thế Huyến

i

CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI
THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI ...................................... 5
1.1. Thông tin tiếng nói ............................................................................. 5
1.2. Tín hiệu tiếng nói ............................................................................... 5
1.3. Quá trình tạo tiếng nói ....................................................................... 7
1.4. Cơ quan thính giác ........................................................................... 10
1.5. Xử lý tiếng nói.................................................................................. 12
1.6. Thông tin người nói trong tiếng nói ................................................. 13
1.7. Biến đổi thông tin người nói trong tiếng nói và ứng dụng .............. 15
1.8. Phương pháp biến đổi thay đổi tham số trực tiếp ............................ 16
CHƯƠNG 2: KỸ THUẬT PHÂN RÃ THEO THỜI GIAN TD VÀ ỨNG
DỤNG TRONG BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI .......................... 21
2.1. Kỹ thuật phân rã tiếng nói theo thời gian......................................... 21
2.1.1. Phương pháp TD nguyên thủy ...................................................... 21

iii

2.1.2. Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD ....... 24
2.1.3. Phương pháp MRTD ..................................................................... 27
2.2. Một số kỹ thuật biến đổi thông tin người nói dùng TD ................... 32
2.2.1. Biến đổi thông tin người nói bằng TD-GMM............................... 32
2.2.2. Biến đổi thông tin người nói bằng HTD [12] ............................... 34
CHƯƠNG 3: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP
BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI................. 42
3.1. Ngữ âm tiếng Việt ............................................................................ 42
3.2. Cơ sở dữ liệu tiếng nói tiếng Việt .................................................... 44
3.3. Tổng hợp tiếng nói tiếng Việt .......................................................... 47
3.4. Lựa chọn cơ sở dữ liệu ..................................................................... 47
3.5. Đánh giá các phương pháp ............................................................... 48

Hình 1.10: Thang tần số Bark ......................................................................... 11
Hình 1.11: Ngưỡng nghe ................................................................................ 11
Hình 1.12: Mặt nạ thời gian (che âm thanh liền trước và liền sau) ................ 12
Hình 1.13: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời
điểm)................................................................................................................ 12
Hình 1.14: Một số ứng dụng của xử lý tiếng nói ............................................ 13
Hình 1.15: Hệ thống nhận dạng người nói – một trong các ứng dụng xử lý
thông tin người nói .......................................................................................... 13
Hình 1.16: Người nói khác nhau có cơ quan phát âm và cách phát âm khác
nhau dẫn tới tiếng nói khác nhau .................................................................... 14
Hình 2.1: Ví dụ về hai hàm sự kiện liền kề..................................................... 25
Hình 2.2: Hàm sự kiện có tính chất “hình học chuẩn” và “hình học không
chuẩn”.............................................................................................................. 27
Hình 2.3: Thuật toán chuẩn hóa vector sự kiện trong MRTD ........................ 31
Hình 2.4: Hình vẽ các hàm sự kiện nhận được khi MRTD phân tích một câu
tiếng Nhật, chỉ số trên miền thời gian là số khung. ........................................ 32
Hình 2.5: Phương pháp biến đổi TD-GMM.................................................... 34

vi

Hình 2.6: Mô hình biến đổi giọng người nói HTD ......................................... 35
Hình 2.7: Ví dụ phân tích / tái tạo tiếng nói bằng MRTD với N khung và K
điểm sự kiện .................................................................................................... 37
Hình 3.1: Đường F0 sáu thanh điệu tiếng Việt theo, dấu ? ở thanh ngã chỉ ra
rằng đường F0 của thanh ngã không thống nhất giữa các mẫu ở vùng giữa. . 43

vii

Mô hình Gaussian hỗn hợp

TD- GMM
HTD
PI
PI-LSF
MOS
AMDF
LP

Mô hình pha trộn Gausce
Kỹ thuật phân rã ( kết hợp HTT+TD)
Chỉ số hiệu năng
Hiệu năng phổ
Thang điểm đánh giá chủ quan trung bình
Hàm hiệu biên độ trung bình
Phương pháp dự đoán tuyến tính

PCM

Kỹ thuật điều chế xung mã

WAV

Dữ liệu âm thanh không nén

PSTN

Mạng điện thoại chuyển mạch công cộng

tính. Trong nhiều ứng dụng truyền thông đa phương tiện hiện đại, việc biến
đổi thông tin người nói trong tín hiệu tiếng nói có vai trò quan trọng. Một số
ví dụ điển hình như:
- Trong các bộ phim lịch sử cần diễn viên nói với giọng giống với
giọng của nhân vật lịch sử [6].
- Trong các clips quảng cáo, âm nhạc cần biến đổi giọng nói, giọng hát
của diễn viên theo các tiêu chí cụ thể khác nhau như cao hơn, trầm hơn, giống
với nhân vật thật hơn,… [6]

1

- Đặc biệt, nếu bỏ qua các thông tin phi ngôn ngữ như thông tin người
nói khi mã hóa tiếng nói bằng phương pháp kết hợp sử dụng các hệ thống
nhận dạng và tổng hợp tiếng nói ở đầu cuối, tiếng nói có thể được truyền như
văn bản với tốc độ bit cực thấp [12]. Khi đó sẽ sử dụng hiệu quả tối đa hạ tầng
truyền thông, ngay cả trong điều kiện tài nguyên rất hạn chế. Tuy nhiên để
tiếng nói mã hóa theo phương pháp này có thể được sử dụng hiệu quả trong
thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói cần phải được
bổ sung ở đầu ra. Nói cách khác, thông tin tiếng nói đã mã hóa cần phải được
biến đổi theo người nói cụ thể.
Kỹ thuật phân rã tiếng nói theo thời gian là một kỹ thuật xử lý tín hiệu
trên miền thời gian hiệu quả, đã được áp dụng trong nhiều hệ thống xử lý
tiếng nói và gần đây nhất đã được áp dụng thành công trong các hệ thống biến
đổi thông tin người nói.
Trên thế giới đã có nhiều nghiên cứu về biến đổi thông tin người nói
trong tiếng nói [5,6,7,9,10,11].Tại Việt Nam cũng có một số nghiên cứu ban
đầu về thông tin người nói trong tiếng nói nhưng vẫn chưa có nhiều các
nghiên cứu đánh giá một cách tổng hợp vấn đề biến đổi thông tin người nói
trong tiếng nói cũng như ứng dụng của kỹ thuật phân rã theo thời gian trong

trong tiếng nói, vấn đề biến đổi tiếng nói theo người nói.
Chương 2. Kỹ thuật phân rã theo thời gian và ứng dụng trong biến đổi
thông tin người nói trong tiếng nói.
- Trình bày cơ sở lý thuyết về kỹ thuật phân rã theo thời gian, phương
pháp của Altal, phương pháp giới hạn RTD của Kim, và phương pháp cải tiến
MRTD của N.P. Chien.
- Trình bày các phương pháp biến đổi tiếng nói dùng kỹ thuật TD [10,
11,12].
Chương 3. Đánh giá thực nghiệm.

3

- Thu thập dữ liệu tiếng nói
- Cài đặt một số phương pháp biến đổi thông tin người nói trong tiếng
nói trên MATLAB.
- Đánh giá khách quan và chủ quan các phương pháp.
- Thống kê các kết quả đánh giá
- Phân tích, đánh giá, đưa ra kiến nghị
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
trên thế giới [1-7, 9-11] để phân tích, đánh giá về các phương pháp biến đổi
thông tin người nói trong tiếng nói.
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng
sẽ nghiên cứu thực nghiệm một số phương pháp biến đổi thông tin người nói
trong tiếng nói.
6. Ý nghĩa khoa học của luận văn:
Như đã trình bày trong phần 1, nghiên cứu về thông tin người nói trong
tiếng nói và cá kỹ thuật biến đổi tiếng nói theo mục tiêu có vai trò quan trọng
trong các hệ thống truyền thông đa phương tiện hiện đại. Đây không phải vấn

sóng. Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng,
chu kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh).
Đối với thính giác của người, âm thanh thường là sự dao động, trong
dải tần số từ khoảng 20 Hz - 20 kHz, của các phân tử không khí, và lan truyền
trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ
não.

5

Tiếng nói là loại âm thanh phổ biến nhất trong truyền thông. Dải tần
tiếng nói trong khoảng 300 Hz - 3400 Hz. Tiếng nói bao gồm hai dạng hữu
thanh và vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh
tương tự nhiễu.

Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt

Hình 1.2: Tiếng nói hữu thanh

6

1.3. Quá trình tạo tiếng nói
a. Bộ phận cung cấp làn hơi:
Bao gồm hai lá phổi, được sự tác động của các cơ ngực, sườn, cơ hoành
cách mô, cơ bụng. Làn hơi đưa lên quyết định cường độ của âm thanh.

Hình 1.3: Bộ phận cung cấp làn hơi
Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong
thanh quản:

8

Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm
d. Biễu diễn bộ phận phát âm:
Có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các
hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau. Trong quá trình
phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm , do
đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay
đổi là không đáng kể, nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm
vị khác.

Hình 1.7: Mô hình hóa cơ quan phát âm

9

Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính
1.4. Cơ quan thính giác
Để cảm thụ được tiếng nói, con người sử dụng cơ quan thính giác. Cơ
quan thính giác con người có thể cảm thụ được các tần số âm thanh trong
khoảng 15 Hz - 20.000 Hz. Âm thanh với tần số cao hơn được gọi là siêu âm,
thấp hơn là hạ âm.

Hình 1.9: Mô hình cơ quan thính giác

10

ứng dụng nhận dạng tiếng nói, người ta cần nghiên cứu và xây dựng các giải
thuật trích đặc trưng tiếng nói và huấn luyện tiếng nói. Để biến đổi tiếng nói,
người ta cần xác định các đặc trưng tiếng nói theo các tiêu chí cụ thể khác

12

nhau (như người nói, cảm xúc, ngữ điệu khi nói) và biến đổi trực tiếp hoặc
gián tiếp các đặc trưng này.

Hình 1.14: Một số ứng dụng của xử lý tiếng nói

Hình 1.15: Hệ thống nhận dạng người nói – một trong các ứng dụng xử lý
thông tin người nói
1.6. Thông tin người nói trong tiếng nói
Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lý
các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [8].
Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được áp
dụng rộng rãi trong thực tế, các đặc trưng phi ngôn ngữ của tiếng nói cũng đã
được quan tâm nghiên cứu trong thời gian gần đây [6]. Một trong những vấn

13

đề quan trọng cần đảm bảo là thông tin về người nói, bao gồm cả các thông
tin chung về người nói như giới tính, độ tuổi,… đến các thông tin chi tiết như
thông tin nhận danh chính xác người nói [4,5,6,9,11]. Có nhiều yếu tố ảnh
hưởng đến thông tin người nói trong tiếng nói như hình dạng, cấu trúc cơ
quan phát âm (đặc trưng sinh học), thói quen, cách thức phát âm,..
Con người có thể phân biệt được thông tin người nói một cách dễ dàng

thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói cần phải được
bổ sung ở đầu ra. Nói cách khác, thông tin tiếng nói đã mã hóa cần phải được
biến đổi theo người nói cụ thể.
Một số phương pháp biến đổi thông tin người nói điển hình được biết
đến là phương pháp thay thế khung [7], phương pháp biến đổi tham số
(vector) đặc trưng [16], và phương pháp dùng học máy [8]. Một số vector đặc
trưng phổ biến nhất là đặc trưng phổ, năng lượng, …

15

Hình 1.18: Tính toán vector đặc trưng

Hình 1.19: Mô hình học máy thống kê GMM được sử dụng để mô hình hóa
người nói
1.8. Phương pháp biến đổi thay đổi tham số trực tiếp
Trong phương pháp thay đổi tham số trực tiếp (là phương pháp đơn
giản và cổ điển nhất), tiếng nói sẽ được phân tách thành các khung và tính
vector đặc trưng theo các khung sử dụng mô hình phân tích / tổng hợp nguồn
âm / bộ lọc (source/filter). Mô hình nguồn âm / bộ lọc đảm bảo tín hiệu sau
khi phân tích thành các tham số có thể tái tạo tín hiệu trở lại từ các tham số đã
phân tích. Các tham số liên quan đến yếu tố người nói như biên độ, trường
độ, cao độ - tần số cơ bản, hay phổ sẽ được điều chỉnh cho phù hợp.

16

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu phương pháp biến đổi thông tin người nói trong tiếng nói dùng kỹ thuật phân rã theo thời gian (Luận văn thạc sĩ) - Pdf 51

Tài liệu, ebook tham khảo khác

Học thêm