L
L
Ờ
Ờ
I
IN
N
Ó
Ó
I
IĐ
Đ
Ầ
Ầ
U
UKể từ khi xuất hiện, máy tính càng ngày càng chứng tỏ rằng đó là một
công cụ vô cùng hữu ích trợ giúp con người xử lý thông tin. Cùng với sự phát
triển của xã hội, khối lượng thông tin mà máy tính cần xử lý tăng rất nhanh
trong khi thời gian dành cho những công việc này lại giảm đi. Vì vậy, việc tăng
tốc độ xử lý thông tin, trong đó có tốc độ trao đổi thông tin giữa con người và
máy tính, trở thành một yêu cầu cấp thiế
t. Hiện tại, giao tiếp người-máy được
Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA2
Sau khi nghiên cứu về mặt lý thuyết, báo cáo này cũng trình bày việc áp
dụng thuật toán để xây dựng một ứng dụng tổng hợp tiếng Việt từ văn bản.
Với nội dụng như vậy, báo cáo được chia làm 4 chương:
¾ Chương I: Tiếng nói và xử lý tiếng nói. Chương này đề cập tới
những vấn đề cơ bản nhất về các đặc trưng c
ủa tín hiệu tiếng nói và
các lĩnh vực của xử lý tiếng nói.
¾ Chương II: Tổng hợp tiếng nói sẽ trình bày các phương pháp khác
nhau trong tổng hợp tiếng nói đồng thời đưa ra đánh giá về hiệu quả
của các phương pháp này.
¾ Chương III: Giải thuật TD-PSOLA. Chương này trình bày chi tiết
về giải thuật PSOLA và phiên bản trên miền thời gian TD-PSOLA,
đồng thời cũng đề cập tớ
i các vấn đề liên quan khi áp dụng cho tín
hiệu tiếng nói.
¾ Chương IV: Thiết kế chương trình tổng hợp tiếng Việt. Dựa trên
các nghiên cứu lý thuyết trong chương III, chương này sẽ trình bày
cách áp dụng thuật toán TD-PSOLA để xây dựng chương trình tổng
hợp tiếng Việt từ văn bản và các kết quả liên quan.
Các kết quả thu được khi áp dụng:
¾ Có thể biến đổi tần số cơ
bản của tín hiệu tiếng nói để tạo các thanh
điệu trong tiếng Việt.
¾ Có thể thay đổi thời gian, biên độ và ngữ điệu của từ, làm cơ sở cho
việc tổng hợp câu trong tiếng Việt.
CHƯƠNG 1. TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI...................................7
1.1. MỞ ĐẦU .........................................................................................7
1.2. BỘ MÁY PHÁT ÂM.......................................................................7
1.2.1. Bộ máy phát âm........................................................................7
1.2.2. Cơ chế phát âm .........................................................................8
1.3. BIỂU DIỄN TÍN HIỆU TIẾNG NÓI..............................................8
1.3.1. Xác định tần số lấy mẫu .........................................................10
1.3.2. Lượng tử hoá...........................................................................11
1.3.3. Nén tín hiệu tiếng nói .............................................................11
1.3.4. Mã hoá tín hiệu tiếng nói........................................................12
a. Mã hoá trực tiếp tín hiệu...........................................................12
b. Mã hoá tham số tín hiệu ...........................................................13
1.4. ĐẶC TÍNH ÂM HỌC CỦA TIẾNG NÓI.....................................14
1.4.1. Âm hữu thanh và âm vô thanh................................................14
a. Âm hữu thanh ...........................................................................14
a. Nhận dạng ngữ nghĩa................................................................22
Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA4
b. Nhân dạng người nói ................................................................
22
CHƯƠNG 2. TỔNG HỢP TIẾNG NÓI..................................................24
2.1. CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI........................24
2.1.1. Phương pháp mô phỏng hệ thống phát âm .............................24
2.1.2. Phương pháp tổng hợp Formant .............................................24
a. Bộ tổng hợp formant nối tiếp....................................................25
b. Bộ tổng hợp formant song song................................................25
2.1.3. Phương pháp ghép nối............................................................26
a.
Phương pháp tổng hợp PSOLA ...........................................26
b.
3.4.1 Xác định tần số cơ bản.............................................................40
a. Dùng hàm tự tương quan ..........................................................40
b. Dùng hàm vi sai biên độ trung bình .........................................42
3.4.2. Làm trơn tín hiệu khi ghép nối ...............................................43
a. Phương pháp Microphonemic...................................................43
b. Mô hình hình sine.....................................................................44
CHƯƠNG 4. THIẾT KẾ CHƯƠNG TRÌNH TỔNG HỢP TIẾNG VIỆT 46
4.1. PHÂN TÍCH GIẢI THUẬT ..........................................................46
4.2. DIPHONE TRONG TIẾNG VIỆT................................................47
4.3. XÂY DỰNG CƠ SỞ DỮ LIỆU....................................................50
4.3.1. Thu âm....................................................................................50
a. Quá trình thu âm .......................................................................50
b. Xử lý sau khi thu.......................................................................50
4.3.2. Tách diphone ..........................................................................51
4.3.3. Lưu trữ dữ liệu........................................................................52
4.6.1. Biến đổi tần số cơ bản trong các thanh điệu...........................61
a. Không dấu.................................................................................61
b. Dấu huyền.................................................................................61
c. Dấu sắc......................................................................................62
d. Dấu nặng...................................................................................62
e. Dấu hỏi......................................................................................63
f. Dấu ngã......................................................................................63
4.6.2. Sự biến đổi các thông số trong phát âm câu tiếng Việt..........64
a. Câu trần thuật............................................................................64
b. Câu hỏi......................................................................................65
4.7. CHƯƠNG TRÌNH TỔNG HỢP TIẾNG VIỆT ............................67
4.7.1. Tách diphone từ mẫu tiếng nói có sẵn....................................67
4.7.2. Phát âm tiếng Việt ..................................................................68
4.8. KẾT QUẢ ĐẠT ĐƯỢC................................................................69
4.8.1. Tổng hợp các nguyên âm........................................................69
4.8.4. Tổng hợp câu ..........................................................................82
a. Câu trần thuật Tò tò tò. .............................................................82
b. Câu hỏi tò tò tò?........................................................................82
c. Tổng hợp câu hỏi Cậu đang làm gì? ........................................83
d. Tổng hợp câu trần thuật Tớ đang ôn bài. .................................83
KẾT LUẬN ............................................................................................84
1. Đánh giá kết quả ...........................................................................84
a. Biến đổi tần số cơ bản tạo ra các thanh điệu.............................84
b. Tổng hợp các loại câu đơn giản trong tiếng Việt .....................84
c. Cơ sở dữ liệu diphone...............................................................85
2. Phương hướng phát triển đề tài ....................................................85
PHỤ LỤC ..............................................................................................86
1. Phụ lục 1: Bảng các diphone tiếng Việt ...................................86
2. Phụ lục 2: Bảng mã TCVN3-ABC của các ký tự tiếng Việt....88
3. Phụ lục 3: Tên các diphone dài trong cơ sở dữ liệu .................89
ÀX
X
Ử
ỬL
L
Ý
ÝT
T
I
I
Ế
Ế
N
N
G
GN
N
Ó
hoặc thanh quản.
• Khoang mũi là ống không đều bắt đầu từ môi, kết thúc bởi vòm
miệ
ng, có độ dài cố định khoảng 12cm đối với người lớn.
• Vòm miệng là các nếp cơ chuyển động. Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA8
Hình 1.1. Bộ máy phát âm của con người
1.2.2. Cơ chế phát âm
Trong quá trình tạo âm thanh không phải là âm mũi, vòm miệng mở,
khoang mũi đóng lại, dòng khí sẽ chỉ đi qua khoang mũi. Khi phát âm mũi,
vòm miệng hạ thấp và dòng khí sẽ chỉ đi qua khoang mũi.
Tuyến âm sẽ được kích thích bởi nguồn năng lượng chính tại thanh môn.
12. Dây thanh
13. Thanh quản
14. Thực
quản
Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA9 Hình 1.2. Biểu diễn tín hiệu tiếng nói
Biểu diễn tín hiệu tiếng nói theo dạng số chịu ảnh hưởng quan trọng của
lý thuyết lấy mẫu, theo đó các trạng thái của tín hiệu có dải tần giới hạn có thể
được biểu diễn dưới dạng các mẫu lấy tuần hoàn theo một chu kỳ cố định gọi là
chu kỳ lấy mẫu. Việc lấy mẫu này sẽ cung cấp cho hệ thống những mẫu tín
hi
ệu với tỷ lệ đủ lớn để xử lý. Tất cả các quá trình xử lý lấy mẫu được chỉ rõ
Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA10
bộ máy phát âm tương ứng (có quan hệ mật thiết với giọng nói của từng
người). Hình 1.3 chỉ ra những sự khác nhau của một số dạng biểu diễn tín hiệu
tiếng nói theo các yêu cầu của thông lượng (bits/s):
Thông lượng (bits/s)
15.000 200.000 60.000 20.000 10.000 500 75
LDM, PCM, DPCM. ADM Các phương pháp Tổng hợp từ dữ
phân tích, tổng hợp liệu văn bản
(Không mã hoá nguồn) (Mã hoá nguồn)
Biểu diễn dạng sóng Biểu diễn tham số
Hình 1.3. Thông lượng cho các phương pháp biểu diễn tiếng nói
Đường phân cách ở giữa (tương ứng với thông lượng 15.000 bits/s) chia
khoảng dữ liệu thành hai phần riêng biệt: phần thông lượng cao dành cho dạng
biểu diễn tín hiệu dạng sóng ở phía trái và phần thông lượng thấp ở bên phải
dành cho biểu diễn tín hiệu dạng tham số. Hình vẽ trên chỉ ra sự thay đổi trong
khoảng từ 75 bits/s (xấp xỉ thông lượng khi tổng hợp văn bản) cho tới thông
lượng trên 200.000 bits/s cho các dạng biểu diễ
n sóng đơn giản. Điều này cho
phép biểu diễn từ 1 đến 3.000 cách cho thông lượng tuỳ thuộc vào tín hiệu nói
cần biểu diễn. Tất nhiên là thông lượng không chỉ phụ thuộc tín hiệu cần biểu
với
f
MAX
là tần số lớn nhất của tín hiệu tương tự.
Phổ của tín hiệu tiếng nói trải rộng trong khoảng 12 kHz, do đó theo định
lý Shanon thì tần số lấy mẫu tối thiểu là 24 kHz. Với tần số lấy mẫu lớn như
thế thì khối lượng bộ nhớ dành cho việc ghi âm sẽ rất lớn và làm tăng sự phức
tạp trong tính toán. Nhưng chi phí cho việc xử lý tín hiệu số, b
ộ lọc, sự truyền
và ghi âm có thể giảm đi nếu chấp nhận giới hạn phổ bằng cách cho tín hiệu
qua một bộ lọc tần số thích hợp. Đối với tín hiệu tiếng nói cho điện thoại,
người ta thấy rằng tín hiệu tiếng nói đạt chất lượng cần thiết để mức độ ngữ
nghĩa của thông tin vẫn bảo đảm khi phổ đượ
c giới hạn ở 3400 Hz. Khi đó tần
số lấy mẫu sẽ là 8000 Hz. Trong kỹ thuật phân tích, tổng hợp hay nhận dạng
tiếng nói, tần số lấy mẫu có thể dao động trong khoảng 6.000 – 16.000 Hz. Đối
với tín hiệu âm thanh (bao gồm cả tiếng nói và âm nhạc) tần số lấy mẫu cần
thiết là 48 kHz.
1.3.2. Lượng tử hoá
Việc biểu diễn số tín hiệu đòi hỏi việc lượng tử hoá mỗi mẫu tín hiệu với
một giá trị rời rạc hữu hạn. Mục tiêu của công việc này hoặc là để truyền tải
hoặc là xử lý có hiệu quả. Trong trường hợp thứ nhất mỗi mẫu tín hiệu được
lượng tử hoá, mã hoá rồi truyền đi. Bên thu nhận tín hiệu giải mã và thu được
tín hi
ệu tương tự. Tính thống kê của tín hiệu được bảo toàn sẽ ảnh hưởng quan
trọng đến thuật toán lượng tử hoá. Trong trường hợp xử lý tín hiệu, luật lượng
tử hoá được quy định bởi hệ thống xử lý, nó có thể được biểu diễn bằng dấu
phẩy tĩnh hay dấu phẩy động. Việc xử lý bằng dấu phẩy động cho phép thao tác
với tín hiệu khá mề
m dẻo mặc dù chi phí tính toán cao. Việc xử lý bằng dấu
vùng tần số cao có yêu cầu thấp hơn so với mức lượ
ng tử ở vùng tần số thấp
hay ngược lại, trong trường hợp đó cần sử dụng toán tử tuyến tính để biến đổi
tín hiệu.
Kỹ thuật truyền tin trong điện thoại thường sử dụng luật nén tín hiệu theo
đường cong logarithm. Có hai luật nén được sử dụng phổ biến hiện nay là luật
μ và luật A.
1.3.4. Mã hoá tín hiệu tiếng nói.
a. Mã hoá trực tiếp tín hiệu
Phương pháp mã hoá trực tiếp hay phổ tín hiệu cho phép biểu diễn một
cách trung thực nhất tín hiệu. Mã hoá trực tiếp thực chất là biểu diễn mỗi mẫu
tín hiệu hay phổ tín hiệu độc lập khác với các mẫu khác. Một hệ thống mã hoá
tín hiệu khá phổ biến hiện nay theo phương pháp này thực hiện trong miền thời
gian là mã hoá xung PCM (Pulse Code Mudulation).
Để bảo đảm biểu diễn tín hiệu đạ
t chất lượng cao phải bảm bảo được
thông lượng cần thiết. Do tần số lấy mẫu đã được cố định, muốn giảm được
thông lượng này phải giảm số bit dùng biểu diễn một mẫu. Muốn vậy phải áp
dụng luật lượng tử phù hợp với thống kê bậc một của tín hiệu, nghĩa là phù hợp
với mật độ phân bố và s
ự thay đổi của tín hiệu. Hệ thống PCM có thể giảm
thông lượng xuống còn 64 kb/s.
Cũng theo hướng này người ta dùng hàm tự hồi quy để thực hiện nén tín
hiệu. Khi đó mỗi mẫu mới của tín hiệu tiếng nói lại không chứa các đặc điểm
hoàn toàn mới, nó chắc chắn có liên quan đến các mẫu trước đó.
Như vậy mỗi mẫu tín hiệu tiếng nói, bằng nhiều phương pháp có thể tiên
đoán nhờ một số mẫu trước đó, khi đó chỉ cần tính toán sai số dự đoán và biến
Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA
Tín hiệu tiếng nói được coi gần như dừng trong khoảng thời gian là 20
ms; như vậy các tham số được tính toán lại sau 20 ms và được thực hiện trong
thời gian thực. Người ta thấy rằ
ng việc truyền tham số này cho phép thông
lượng giảm xuống còn khoảng 2500b/s. Phương pháp mã hoá này gọi là
phương pháp mã hoá nguồn tham số tín hiệu.
Một tập hợp các tham số khi truyền hay lưu trữ đặc trưng cho phổ thời
gian ngắn, có nghĩa là nó chỉ được chấp nhận trong một thời gian hạn chế. Tai
người rất nhạy cảm với các phổ thời gian này, do đó có thể cho rằng tai người
có thể phân biệt
được một số hữu hạn các phổ thời gian ngắn. Giả sử M = 2B.
Như vậy với mỗi phổ thời gian ngắn, ta gán cho nó một giá trị biểu diễn bằng
một từ B bit và từ này sẽ được truyền đi hay lưu trữ. Bằng cách này thông
lượng có thể giảm xuống còn 1000 b/s.
Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA14
Tín hiệu tổng hợp bằng mã hoá theo tham số các tín hiệu tiếng nói thường
không bảo đảm chất lượng trong hệ thống điện thoại thông thường. Giọng nói
sẽ rất khó nhận ra trong trường hợp dùng phương pháp này. Do đó kỹ thuật mã
hoá này chỉ ứng dụng trong điện thoại di động và quân sự...
1.4. ĐẶC TÍNH ÂM HỌC CỦA TIẾNG NÓI
1.4.1. Âm hữu thanh và âm vô thanh
a. Âm hữu thanh
Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng thời và chúng
rung động ở chế độ dãn khi không khí tăng lên làm thanh môn mở ra và sau đó
thanh môn xẹp xuống do không khí chạy qua.
Do sự cộng hưởng của dây thanh, sóng âm tạo ra có dạng tuần hoàn hoặc
gần như tuần hoàn. Phổ của âm hữu thanh có nhiều thành phần hài tại giá trị
nhiều hình dạng nhất định tạo thành các nguyên âm khác nhau. Số lượng các
nguyên âm phụ thuộc vào từng ngôn ngữ nhất định.
b. Phụ âm
Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những
điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành. Phụ âm có
đặ
c tính hữu thanh hay vô thanh tuỳ thuộc vào việc dây thanh có dao động để
tạo nên cộng hưởng không. Dòng không khí tại chỗ đóng của vòm miệng tạo ra
phụ âm tắc. Phụ âm xát được phát ra từ chỗ co thắt lớn nhất.
1.4.3. Các đặc tính khác
a. Tỷ suất thời gian
Trong khi nói chuyện, khoảng thời gian nói và khoảng thời gian nghỉ xen
kẽ nhau. Tỷ lệ % thời gian nói trên tổng số thời gian nói và nghỉ được gọi là tỷ
suất thời gian. Giá trị này biến đổi tuỳ thuộc vào tốc độ nói và từ đó ta có thể
phân loại thành nói nhanh, nói chậm hay nói bình thường.
b. Hàm năng lượng thời gian ngắn
Hàm năng lượng thời gian ngắn của tiếng nói được tính bằng cách chia tín
hiệu tiếng nói thành nhiều khung, mỗi khung chứa N mẫu. Các khung này được
đưa qua một cửa sổ có dạng hàm như sau: ()
()
⎩
⎨
⎧
=
0
nW
nW
dạng điều hòa. Tần số thấp nhất chính là tần số cơ bản và cũng chính là tầ
n số
dao động của dây thanh.
Đối với những người nói khác nhau, tần số cơ bản cũng khác nhau. Dưới
đây là một số giá trị tần số cơ bản tương ứng với giới tính và tuổi:
Giá trị tần số cơ bản Người nói
80 – 200 Hz Nam giới
150 – 450 Hz Phụ nữ
200 – 600 Hz Trẻ em
d. Formant
Với phổ của tín hiệu tiếng nói, mỗi đỉnh có biên độ lớn nhất xét trong một
khoảng nào đó (cực đại khu vực) tương ứng với một formant. Ngoài tần số,
formant còn được xác định bởi biên độ và dải thông. Về mặt vật lý các formant
tương ứng với các tần số cộng hưởng của tuyến âm. Trong xử lý tiếng nói và
nhất là trong tổng hợp tiếng nói, để mô phỏng l
ại tuyến âm người ta phải xác
định được các tham số formant đối với từng loại âm vị, do đó việc đánh giá,
ước lượng các formant có ý nghĩa rất quan trọng.
Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính
của người nói và phụ thuộc vào các dạng âm vị tương ứng với formant đó.
Đồng thời, formant còn phụ thuộc các âm vị trước và sau đó. Về cấu trúc tự
nhiên, tần số formant có liên hệ chặt chẽ với hình dạng và kích thước tuyến âm.
Thông thường phổ của tín hiệu tiếng nói có khoảng 5 formant nhưng chỉ có 3
formant đầu tiên ảnh hưởng quan trọng đến các đặc tính của các âm vị, các
formant còn lại cũng có ảnh hưởng song rất ít.
Đối với âm vô thanh nguồn âm là một nhiễu trắng với biên độ biến đổi
gần như ngẫu nhiên.
Để tạo tiếng nói, người ta dùng các mô hình khác nhau để mô phỏng bộ
máy phát âm. Theo quan điểm giải phẫu học, ta có thể giả thiết rằng tuyến âm
được biểu diễn bằng một chuỗi
M đoạn ống âm học lý tưởng, là những đoạn
ống có độ dài bằng nhau, và từng đoạn riêng biệt có thiết diện mặt cắt là A
m
(gọi tắt là thiết diện) khác nhau theo chiều dài đoạn ống. Tổ hợp thiết diện
{A
m
} của các đoạn ống được chọn sao cho chúng xấp xỉ với hàm thiết diện A(x)
của tuyến âm. A
5
A
4
A
3
A
2
A
1
ưởng và việc phân tích mô hình ống âm học trở nên phức
tạp hơn. Tiếp theo chúng ta có thể thấy rằng mô hình này có nhiều tính chất
chung với mạch lọc số nên nó có thể được biểu diễn bằng cấu trúc mạch lọc số
với các tham số thay đổi phù hợp với sự thay đổi tham số của ống âm học.
Sự chuyển động của không khí trong một đoạn ống âm học có thể đượ
c
mô tả bằng áp suất âm thanh và thông lượng, đó là những hàm phụ thuộc độ dài
ống (x) và thời gian (t). Trong những đoạn riêng biệt đó, các giá trị của hai hàm
này được coi là tổ hợp tuyến tính các giá trị của chúng đối với sóng thuận và
sóng ngược (được ký hiệu lần lượt bằng dấu cộng ‘+’ và dấu trừ ‘-’). Sóng
thuận là sóng truyền từ thanh môn đến môi, trong khi sóng ngược lại truyền lừ
môi đế
n thanh môn. Nếu đoạn thứ m chúng ta xét có thiết diện A
m
thì hàm
thông lượng và hàm áp suất của đoạn này là: ()
⎟
⎠
⎞
⎜
⎝
⎛
+−
⎟
⎠
⎞
⎜
⎞
⎜
⎝
⎛
−=
−+
c
x
tu
c
x
tu
A
c
txp
mm
m
m
.
,
ρở đây
−+
mm
uu ,
là sóng thuận và sóng ngược
c là tốc độ âm thanh
(a) a)
(b)
Hình 1.6 Cách biểu diễn lý học và toán học
a. Mô hình lý học giữa đoạn ống m và m+1
b. Mô hình toán học của đoạn ống thứ m
Hình 1.7. Mô hình số của hệ thống phát âm
Tuyến âm được coi như một chuỗi liên tiếp các ống âm học và được mô
hình hoá bởi một chuỗi gồm K bộ cộng hưởng. Khi đó hàm truyền đạt của
tuyến âm có dạng:
( )
m
r+1
m
+
+
)(
1
τ
−
+
+
tu
m
)(
τ
−
−
tu
m
)(
1
tu
m
−
+
)(
1
τ
+
−
+
tu
−
+
+
tu
m
)(
1
tu
m
+
+
)(
τ
−
+
tu
m
)(tu
m
+
Đoạn ống thứ m,
thiết diện A
m
Đoạn ống thứ m+1,
thiết diện A
m+1
Nguồn Tải âm học Tuyến âm
Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA
1
1
2
cos
2
1
−
=
−
π
Với f
e
là tần số lấy mẫu của tín hiệu lấy mẫu
Cuối cùng âm thanh được phát ra ở môi, nơi được coi như một tải âm học.
Sự tán xạ của môi được biểu diễn bởi hàm truyền đạt:
( )
( )
1
1
−
−= zCzR
Hàm truyền đạt của hệ thống có dạng:
( ) ( ) ( ) ( )
zRzVzGzT ..=
Nếu giả thiết một trong hai điểm cực của thanh môn gần bằng 1(
β
= -1) ta
+
=
−
+=
12
1
1
1
K
i
i
zzA
α
là hàm truyền đạt của bộ lọc đảo. T(z) là hàm truyền đạt của mô hình toàn
điểm cực. Các hệ số a
i
của bộ lọc đảo sẽ là các tham số quan trọng trong
phương pháp dự đoán tuyến tính để xác định các formant của tuyến âm.
Hạn chế của mô hình này là không thể tạo ra các âm xát hữu thanh và các
âm mũi. Đối với các âm mũi mô hình trên được cải tiến bằng cách thêm vào
phần đặc trưng cho mũi đặt song song với mô hình. Lúc đó hàm truyền đạt của
hệ thống mới là:
() ()
( ) ( )
() ()
zAzA
zAzA
zAzA
21
z
αα
αTín hiệu âm thanh không phải là tín hiệu dừng, do đó mô hình phải được
xây dựng một cách liên tục, nghĩa là các tham số của mô hình phải biến thiên
theo thời gian. Sự biến thiên này rất chậm nên các tham số có thể coi như
không đổi trong khoảng thời gian mà tín hiệu được coi là dừng: 20 ms.
1.6. XỬ LÝ TIẾNG NÓI
Dựa trên cơ sở lựa chọn các cách biểu diễn tín hiệu và phương pháp xử lý,
đã có rất nhiều các ứng dụng quan trọng đã được triển khai. Hình vẽ dưới đây
sẽ chỉ ra một số ứng dụng trong lĩnh vực xử lý tiếng nói. Hình 1.8. Một vài ứng dụng xử lý tiếng nói
1.6.1. Tổng hợp tiếng nói
Tổng hợp tiếng nói là quá trình tạo ra tín hiệu âm thanh bằng cách điều
khiển một mô hình mẫu với một tập các tham số. Nếu mô hình mẫu này và các
tham số được xây dựng một cách hoàn hảo thì tiếng nói tổng hợp có thể giống
với tiếng nói tự nhiên. Hiện có hai phương pháp tổng hợp tiếng nói:
chất lượng
tiếng nói
Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA22
b. Tổng hợp đầu cuối tự nhiên
Theo hướng mô hình hoá này, người ta dựa trên các đặc tính đáp ứng tần
số của dây thanh và tuyến âm để mô phỏng lại cơ chế tạo tiếng nói. Mô hình
này gọi là mô hình nguồn-lọc. Bộ tổng hợp tiếng nói theo hướng này được thực
hiện bằng cách sử dụng hệ thống tương tự với cơ chế tạo tiếng nói tại nhữ
ng
điểm quan sát.
Cơ quan phát âm được mô hình hoá thành một hệ thống bao gồm một
nguồn âm biểu diễn cho thanh môn và một bộ lọc biểu diên cho tuyến âm. Quá
trình tổng hợp sẽ bao gồm hai phần cơ bản:
• Tổng hợp tín hiệu nguồn dựa vào tần số cơ bản và tính chất tuần hoàn
của nguồn.
• Xây dựng lại hàm truyền đạt của tuyến âm (bao gồm cả m
ũi và
miệng) dựa vào các tham số đặc trưng cho tuyến âm.
Hiện nay người ta thường sử dụng hai bộ tham số đặc trưng cho tuyến
âm:
• Bộ tham số formant
• Bộ tham số của bộ lọc đảo
Các bộ tham số này có thể được tổng kết từ các quá trình phân tích tiếng
nói.
1.6.2. Nhận dạng tiếng nói
Nhận dạng tiếng nói là lĩnh vực nghiên cứu với mục đích tạo ra được một
thiết bị, máy móc hoặc phần mềm có khả năng nhận biết một cách chính xác
biến đổi của đường bao phổ... Đó là tập hợp những đặc tính có liên
quan đến tính độc lập của nội dung âm vị của từ ngữ.
• Sự khác nhau trong cách phát âm của từng người: tốc độ và chiều dài
từ luôn luôn khác nhau.
Trong tất cả các đặc tính trên đường bao phổ và tần số cơ bản là hai đặc
tính quan trọng nhất. Đường bao phổ được miêu tả bằng những giá trị trung
bình c
ủa các bộ lọc thông dải, của các tần số formant, của các hệ số tiên đoán
tuyến tính, của hệ số cepstre và các tham số khác.
Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA24
CHƯƠNG 2
T
T
Ổ
Ổ
N
N
G
GH
H
Ợ
Ợ
P
P
nói tự nhiên (như các từ hoặc câu). Phương pháp này cho chất lượng tương đối
tốt nhưng gặp phải hạn chế là số lượng từ vựng trong cơ sở dữ liệu rất lớn. Bên
cạnh đó tiếng nói cũng có thể tạo ra bằng cách mô phỏng hệ thống phát âm.
Phương pháp này cho chất lượng rất tốt nhưng thực hi
ện khá phức tạp. Một
phương pháp nữa cũng được dùng để tổng hợp tiếng nói là tổng hợp formant.
Các phương pháp tổng hợp tiếng nói cùng với những đặc điểm cơ bản nhất sẽ
được giới thiệu trong phần tiếp theo.
2.1.1. Phương pháp mô phỏng hệ thống phát âm
Phương pháp mô phỏng hệ thống phát âm (articulatory synthesis) cố gắng
mô phỏng hệ thống phát âm của con người một cách hoàn hảo nhất, do đó có
thể đạt tới chất lượng cao trong tổng hợp tiếng nói. Nhưng cũng chính vì vậy
mà phương pháp này khó có thể thực hiện được, vì việc mô phỏng hệ thống
phát âm của con người rất khó thực hiện.
Sau khi phương pháp tổng hợp Formant ra đời thì phương pháp mô phỏng
hệ th
ống phát âm ít khi được sử dụng trong các hệ thống. Nhưng từ khi có sự
xuất hiện của máy tính thì nó lại được phát triển.
2.1.2. Phương pháp tổng hợp Formant
Phương pháp tổng hợp formant (formant synthesis) yêu cầu phải tổng hợp
được tối thiểu 3 formant để hiểu được tiếng nói, và để có được tiếng nói chất
lượng cao thì cần tới 5 formant. Tiếng nói được tạo ra từ các bộ tổng hợp
Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA25
formant với thành phần chính là các bộ cộng hưởng. Tuỳ theo cách bố trí các
bộ cộng hưởng mà ta có bộ tổng hợp formant là nối tiếp hay song song.
a. Bộ tổng hợp formant nối tiếp
Bộ tổng hợp formant nối tiếp là một bộ tổng hợp formant có các tầng nối
Kích thích
Tiếng nói
Kích thích
Hệ số
Tiếng nói