Chương 9: Kỹ thuật ngoại diện
1. Chuẩn hóa văn bản.
Quá trình chuẩn hóa văn bản thường không ñơn giản. Lý do là
cácc văn bản thường chứa nhiều từ cùng chữ, số và viết tắt ñòi hỏi
hiểu ñể diễn ñạt lại trong văn bản ñầy ñủ.
Trong một số ngôn ngữ, các từ có thể ñược phát âm khác nhau
từy theo ngữ cảnh.
ð
a số hệ thống tổng hợp giọng nói không tạo ra
thể hiện văn phạm cho văn bản, vì quá trình này hiện chưa có công
nghệ ñáng tin cậy. Thay vào ñó, nhiều cách lần mò ñược dùng ñể
phân biệt các cách phát âm, như tìm các từ kế cận hay dùng thống
kê về tần số xuất hiện.
Việc chọn cách phát âm số cũng là một vấn ñề. Lý do là cũng
có nhiều cách phất âm số từy theo văn cảnh. Như 1325 có thể ñọc
"một nghìn ba trăm hai mươi nhăm" nếu nó là một số tự nhiên,
nhưng cũng có thể là "một ba hai năm" nếu nó là bốn số mật mã
ngân khoản. Thường hệ thống tổng hợp giọng nói có thể ñoán văn
cảnh bằng việc quan sát các từ kế cận, các số hay dấu câu bên cạnh,
hoặc dùng trường hợp mặc ñịnh khi không thể phân ñịnh.
Tương tự, các cách viết tắt cũng có thể mang nhiều nghĩa, từy
thuộc quy
ước của người viết.
2. Chuyển Văn bản sang âm vị.
Các hệ thống tổng hợp giọng nói dùng hai cách cơ bản ñể xác
ñịnh cách phát âm cho một từ, một quá trình còn ñược gọi là chuyển
ñổi văn bản-sang- âm vị hay tự vị-sang-âm vị, vì âm vị là thuật ngữ
dùng bởi các nhà ngôn ngữ học ñể mô tả các âm khác nhau trong
ngôn ngữ.
Cách thứ nhất, và ñơn giản nhất, là dựa vào từ ñiển, sử dụng
một từ ñiển lớn chứa tất cả các từ của một ngôn ngữ và chứa cách
tổng hợp bằng formant lại không cho chất lượng cao. Trong ba
phương pháp này thì tổng hợp tiếng nói bằng ghép nối ñược sử dụng
rộng rãi hơn cả. PSOLA là giải thuật dùng cho phương pháp ghép
nối. Trước hết tiếng nói ñược phân tích thành các tín hiệu thành
phần, sau ñó, khi cộng xếp chồng các thành phần này ta sẽ ñược tín
hiệu tiếng nói tổng hợp. Phương pháp này thao tác trực tiếp với tín
hiệu trên miền thời gian nên có chi phí tính toán thấp. Người ta kéo
dãn thời gian trong tín hiệu tổng hợp bằng cách lặp lại các ñoạn tín
hiệu thành phần.
PSOLA có thể hiểu như
sau:
• Tổng hợp tín hiệu từ các thành phần, trong ñó mỗi thành
phần có một tần số cơ bản.
• Tổng hợp dựa trên mô hình nguồn-lọc (source-filter). Với
phương pháp này tín hiệu phải ñiều hoà (harmonic) và phải thích
hợp cho việc phân tích thành các tín hiệu thành phần khi sử dụng
cửa sổ, ñiều này có nghĩa là năng lượng của tín hiệu phải tập trung
xung quanh một khoảng thời gian nào ñó trong mỗi chu kỳ.
a. Phân tích PSOLA
Phân tích PSOLA bao gồm việc phân tích một tín hiệu s(t)
thành các tín hiệu thành phần s
i
(t) bằng cách sử dụng cửa sổ h(t) :
s
i
(t) =h( t −
m
i
)s(t)
trong ñó m
mở rộng ñể sử dụng cho các phương pháp tổng hợp ghép nối khác,
bởi vì nó là phương pháp tổng hợp chất lượng cao và chạy tốt ở cả
những máy tính tốc ñộ thấp (tổng hợp
thời gian thực có thể ñược thực hiện với bộ vi xử lý Intel 386).
c. Giải Thuật TD-PSOLA.
Giả sử rằng s(n) là tín hiệu tuần hoàn, S(n ) là tín hiệu s(n) sau
khi ñã thay ñổi tần số bằng cách lấy tổng của các khung OLA của
si(n). w(n) là cửa sổ, sự thay ñổi chu kỳ tần số gốc T0 tới chu kỳ
tần số T tạo ra sự thay ñổi của s
i
(
n), s
~
(n) :
1
Nếu T≠T
0
thì ta phải làm hài hoà lại s
i
(n) với tần số cơ
bản là
T
Công thức trên rất hiệu quả khi muốn thay ñổi tần số của tín hiệu tuần
hoàn.
Hình 2. 7 Quá trình làm thay ñổi tần số của
tín hiệu
Nếu T=T
0
và cửa sổ phân tích ñủ hẹp, tín hiệu tổng hợp gần như
trùng với tín hiệu gốc