Nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice - Pdf 25



1

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thị Thanh Mai NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP NÂNG CAO
CHẤT LƢỢNG TỔNG HỢP TIẾNG VIỆT VÀ
THỬ NGHIỆM CHO PHẦN MỀM VNVOICE
Nguyễn Thị Thanh Mai NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP NÂNG CAO
CHẤT LƢỢNG TỔNG HỢP TIẾNG VIỆT VÀ
THỬ NGHIỆM CHO PHẦN MỀM VNVOICE

Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ thông tin
Mã số: 1.01.10
LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS.Lƣơng Chi Mai


1.5.4. Tổng hợp xích chuỗi 35
1.5.5. Đánh giá các phƣơng pháp tổng hợp tiếng nói 37
CHƢƠNG 2: CÁC THÀNH PHẦN CƠ BẢN CỦA HỆ 42
TỔNG HỢP TIẾNG NÓI 42
2.1. Giới thiệu hệ tổng hợp tiếng nói 42
2.2. Thành phần xử lý ngôn ngữ tự nhiên 44
2.2.1. Phân tích văn bản 45
2.2.2. Chuyển ký tự thành âm thanh 46
2.2.3. Sinh ngôn điệu 46
2.3. Thành phần xử tín hiệu số 47
CHƢƠNG 3: MỘT SỐ PHƢƠNG PHÁP CẢI TIẾN 50
CHẤT LƢỢNG GIỌNG TỔNG HỢP 50
3.1. Các phƣơng pháp cải tiến chất lƣợng giọng tổng hợp 50
3.1.1. Mô hình trƣờng độ 54
3.1.2. Thay đổi biên độ 60
3.1.3. Hiệu chỉnh đƣờng tần số cơ bản 60
3.1.3.1. Sử dụng mô hình Fujisaki hiệu chỉnh đƣờng F0 61
3.1.3.2. Mô hình Tilt 64
3.1.3.3. Phân lớp đƣờng thanh điệu trong ngữ cảnh câu 66
CHƢƠNG 4: THỬ NGHIỆM CẢI TIẾN GIỌNG ĐỌC TỔNG 71
HỢP TIẾNG VIỆT TRONG PHẦN MỀM VNVOICE 1.0 71
4.1. Đánh giá VnVoice và một số giọng tổng hợp tiếng Việt hiện nay 71
4.2. Một số hạn chế của VnVoice 1.0 74
4.3. Thử nghiệm 76
4.3.1. Cơ sở dữ liệu tiếng nói 76
4.3.2. Đánh giá thực nghiệm 77
KẾT LUẬN 81
TÀI LIỆU THAM KHẢO 82
 Bộ chuẩn hóa văn bản, 6
 Bộ xử lý ngôn ngữ: từ, câu,…
 Tối ưu hóa chọn đơn vị ngữ cảnh,
 Các hiện tượng ngôn ngữ tiếng Việt: dính âm, biến thanh, năng lượng,
trường độ thanh,
 Các hiện tượng ngôn điệu: thanh điệu trong câu, trường độ.
Tổng hợp tiếng Việt hiện nay mới đạt ở mức độ đọc rõ ràng trong khi các
ứng dụng thực tế đòi hỏi giọng tổng hợp phải tự nhiên như người nói.
Trên cơ sở đó, mục đích của luận văn nhằm nghiên cứu và thử nghiệm một
số kỹ thuật và mô hình xử lý ngôn điệu để nâng cao chất lượng giọng tổng hợp
trong phần mềm tổng hợp tiếng Việt VnVoice 1.0.
Luận văn sẽ được chia thành 4 chương bao gồm:
Chƣơng 1: Tổng quan về tổng hợp tiếng nói. Chương này trình bày khái
quát về tổng hợp tiếng nói và lịch sử phát triển cũng như ứng dụng của nó. Hơn
nữa, chương 1 còn giới thiệu một số kỹ thuật tổng hợp tiếng nói đã được sử dụng
trên thế giới.
Chƣơng 2: Các thành phần cơ bản của hệ thống tổng hợp. Chương này
giúp người đọc hiểu rõ hơn về một hệ thống tổng hợp bao gồm những thành phần
cơ bản nào.
Chƣơng 3: Một số phƣơng pháp cải tiến chất lƣợng giọng tổng hợp.
Chương này trình bày việc phân tích và đánh giá chất lượng giọng tổng hợp theo
các cách tiếp cận khác nhau.
Chƣơng 4: Thử nghiệm cải tiến giọng đọc tổng hợp tiếng Việt trong
phần mềm VnVoice. Chương này là chương trọng tâm của luận văn. Chương này
áp dụng một số phương pháp cải tiến chất lượng và kết quả.
Trong luận văn, các trích dẫn của các tác giả khác liên quan đến lĩnh vực
nghiên cứu đặt trong dấu ngoặc vuông [].

Time-Domain Pitch-Synchronous Overlap and Add
8
BẢNG CÁC THUẬT NGỮ ANH-VIỆT
Tiếng Anh
Tiếng Việt
Codebook
Sách mã
Context
Ngữ cảnh
Classification
Phân lớp
Corpus
Cơ sở dữ liệu tiếng nói
Diphthong
Nguyên âm đôi
Diphone
Hai nửa của hai âm vị liền nhau
Duration
Trường độ
Front-end processing
Xử lý đầu cuối
Intelligibility
Tính dễ hiểu
Naturalness
Tính tự nhiên
Pitch
Tần số cơ bản

dài, việc ứng dụng tổng hợp tiếng nói vào thực tiễn đã trở thành hiện thực. Tuy
nhiên, chất lượng âm thanh và độ tự nhiên của tiếng nói cho đến nay vẫn còn là
những vấn đề lớn.
1.2. Lịch sử phát triển và ứng dụng tổng hợp tiếng nói
Tạo ra tiếng nói bằng máy là một ước mơ của loài người và là mục tiêu thách
thức các nhà khoa học trên thế giới nhiều thế kỉ qua. Máy nói đầu tiên do Wolfgang
Von Kempelen chế tạo năm 1791 mô phỏng bộ máy phát âm của người đã có thể
phát ra được một vài âm tố. Ở đầu thế kỉ này vào năm 1939, máy VODER của nhà
khoa học Dudley, phòng thí nghiệm AT&T BELL LABS đã thành công trong việc
mô hình hoá cộng hưởng của ống thanh bằng linh kiện điện tử. Hệ thống điều khiển
nhân công 10 bộ cộng hưởng bằng các nhóm và chiết áp đã có thể tạo ra một số câu
nói có thể nghe được. Từ giữa những năm 1950 trở lại đây, sự ra đời của máy tính
điện tử đã cho phép tạo ra một cách có hệ thống các tham số để điều khiển bộ tổng
hợp tiếng nói. Cùng với sự phát triển như vũ bão của khoa học và công nghệ thập kỉ
80, 90, kỹ thuật tổng hợp tiếng nói đã có những bước phát triển rất quan trọng có sự
đóng góp rất lớn của máy tính và xử lý tín hiệu số. Sự tiến bộ này được thúc đẩy do:
 Khả năng tính toán của máy tính nhanh lên gấp nhiều lần, số lượng dữ liệu
được lưu trữ ngày càng lớn, trong khi giá thành ngày càng rẻ.
 Khả năng xây dựng và truy cập tới các cơ sở dữ liệu âm thanh và văn bản
ngày càng dễ dàng.
 Công nghệ nhận dạng tự động âm thanh tiếng nói được hoàn thiện với độ
chính xác ngày càng cao, trợ giúp việc tự động phân đoạn âm thanh tiếng nói 10
cho phép tạo ra kho âm thanh rất lớn phục vụ cho việc phân tích và
tổng hợp tiếng nói.
 Nếu tiếng nói cũng như chữ viết là chuỗi liên tiếp các dấu cơ bản được định
nghĩa rõ ràng và mang tính hiển thị, thì các vấn đề nhận dạng cũng như tổng
hợp tiếng nói đã được giải quyết cách đây 20 năm. Tuy nhiên bản chất của

với kiểm tra bằng mắt.
Trong các hệ thống đo đạc điều khiển, khi mắt phải thực hiện các
quan sát thì các thông tin bằng âm thanh rất cần thiết. Ngoài ra bản tin và
mệnh lệnh phát ra bằng âm cũng dễ tiếp thu hơn thông báo viết.
• Trong lưu trữ và khai thác dữ liệu
Giờ đây có thể tích kiệm không gian lưu trữ âm bằng cách thay thế
bằng các văn bản tương ứng, tất nhiên là trong trường hợp giọng người nói là
không quan trọng. Hơn thế các văn bản bàng chữ bao giờ cũng dễ sắp xếp và
tìm kiếm hơn dữ liệu âm thanh.
• Trong viễn thông
Tiếng nói tổng hợp đã được sử dụng nhiều trong các ứng dụng trả lời
trực tuyến IVR, trên nhiều mạng viễn thông hiện đại như Mỹ, châu Âu và
Nhật mà tiêu biểu là dự án MIVA với các dịch vụ điện thoại kích hoạt bằng
thanh đa ngữ trực tuyến.
Các hệ thống thông tin tích hợp thông điệp hợp nhất (Unified
Meessaging) có khả năng đọc tự động nội dung các bức thư điện tử và các
bức FAX và các thông tin trên Net qua máy điện thoại cố định hoặc các máy
di động.
Truy cập thông tin qua điện thoại và tự động tra cứu danh bạ điện
thoại hai chiều bằng máy điện thoại…
• Thông tin đa phương tiện
Trong kỷ nguyên thông tin, hệ thống tổng hợp tiếng nói là một nửa
bắt buộc của thông tin hai chiều giữa người và máy.
Hệ thống dịch tự động được coi là một thành tựu khoa học lớn của
nhân loại vào những năm đầu thế kỷ 21 phải sử dụng hệ thống tổng hợp tiếng
nói ở đầu ra.
• Các ứng dụng khác 12


13
Về mặt sinh lý – vật lý, âm tiết được định nghĩa là một đơn vị mà khi
phát âm được đặc trưng bởi sự căng lên rồi chùng xuống của cơ thịt trong bộ máy
phát âm.
Trong mỗi âm tiết, chỉ có một âm tố có khả năng tạo thành âm tiết (gọi là âm
tố âm tiết tính), còn lại là các yếu tố đi kèm, không tự mình tạo thành âm tiết được.
Âm tố âm tiết tính thường được phân bố ở trung tâm, làm hạt nhân âm tiết. Đó
thường là các nguyên âm. Điều này dẫn đến hệ quả là một âm tiết khi được phát ra
thì phần năng lượng tập trung nhiều nhất ở phần giữa âm (có biên độ cao), đi về đầu
và cuối âm tiết thì năng lượng giảm dần (xem hình 1.1).

Hình 1.1: Cụm từ ”âm tiết tiếng Việt ” thể hiện trên sóng âm. Mỗi âm tiết có
biên độ lớn ở giữa âm và nhỏ dần ở đầu và cuối âm.
Tiếng Việt là tiếng đơn âm có thanh điệu. Nó là ngôn ngữ có kết cấu âm tiết
tính. Một đặc điểm của tiếng Việt là âm tiết trùng hình vị (đơn vị nhỏ nhất có
nghĩa). Nói cách khác, một âm tiết là một hình thức biểu đạt của một hình vị. Ví dụ,
từ học sinh có hai hình vị, mỗi hình vị có vỏ ngữ âm là một âm tiết là học và sinh.
Là vỏ ngữ âm của một hình vị hay một từ đơn nên mỗi âm tiết tiếng Việt bao
giờ cũng tương ứng với một ý nghĩa nhất định. Chính vì vậy, việc phá vỡ hay xê
dịch vị trí của các âm vị trong một đơn vị âm tiết là điều khó có thể xảy ra. Nói cách
khác, cấu trúc của âm tiết tiếng Việt là một cấu trúc chặt chẽ. Vì thế, từ ”cá canh” sẽ
không bị nối thành ”các anh”, ”cảm ơn” không bị đọc thành ”cả mơn”,
Do mỗi âm tiết là vỏ ngữ âm của hình vị nên khác với các ngôn ngữ Âu-Ấn,
tiếng Việt có số âm tiết hữu hạn với 17000 vỏ ngữ âm có khả năng và 6900 âm tiết
tồn tại thực. 14
Âm tiết, hình vị tiếng Việt cố định, không thay đổi theo ngữ pháp về


15
âm hay bán nguyên âm cuối. Các thành phần âm tiết được trình bày như hình 1.2
dưới đây:
Thanh điệu
Âm đầu
Phần vần
Âm đệm
Âm chính
Âm cuối
Hình 1.2: Cấu trúc âm tiếng Việt.
1.3.1. Âm đầu
Là yếu tố mở đầu âm tiết. Trong tiếng Việt có 21 phụ âm. Phụ âm mang tính
độc lập do không tham gia vào việc thay đổi về trường độ giữa các yếu tố bên trong
âm tiết.
Đặc điểm âm đầu
 Khi phát âm, luồng hơi bị cản trở do sự xuất hiện chướng ngại vật trên lối ra
của đường không khí. Điểm có chướng ngại gọi là vị trí cấu âm.
 Bộ máy phát âm không căng thẳng toàn bộ mà chỉ căng thẳng phần cơ thịt ở
vị trí cấu âm.
 Luồng hơi ra mạnh. Phân loại
 Phân chia theo mối quan hệ giữa tiếng thanh và tiếng ồn trong cấu tạo
của âm đầu
Các phụ âm đầu được chia thành các phụ âm vang (tiếng thanh nhiều hơn
tiếng ồn) và phụ âm ồn. Trong các phụ âm ồn lại chia thành các phụ âm hữu
thanh (phát âm có sự tham gia của tiếng thanh do dây thanh rung động) và
phụ âm vô thanh (phát âm không có sự tham gia của tiếng thanh).

Theo khí quản chủ động, các phụ âm được chia thành các loại: phụ âm môi,
lưỡi trước, lưỡi giữa, lưỡi sau, lưỡi con, yết hầu, thanh hầu.
Trong các nhóm này, có một số cần chia nhỏ nữa. Ví dụ trong các âm môi,
người ta phân biệt các âm hai môi, thường gọi là âm môi-môi ([b], [p], [m]).
Với các âm một môi, thường gọi là âm môi-răng ([v]); các âm lưỡi trước
thường chia thành nhiều nhóm nhỏ nhưng đáng chú ý là âm đầu lưỡi và âm
quặt lưỡi, 17
1.3.2. Phần vần
Theo như lược đồ âm tiếng Việt ở trên thì phần vần đầy đủ gồm ba thành
phần là âm đệm, âm chính, và âm cuối. Ví dụ như âm tiết /toán/ có phần vần là
/oan/, trong đó âm vị /o/ là âm đệm, âm vị /a/ là âm chính và /n/ là âm cuối.
1.3.2.1. Âm đệm
Đóng vai trò là âm lướt trong kết cấu âm tiết. Âm đệm ảnh hưởng đến cách
mở đầu của âm tiết (bên cạnh phụ âm đầu). Ví dụ: chữ ”toàn” khi phát âm có hiện
tượng tròn môi do tác động của âm đệm/-u-/, còn chữ ”tàn” thì không có hiện tượng
tròn môi do không có âm đệm.
1.3.2.2. Âm chính
Là nguyên âm âm tiết tính trong âm tiết. Âm tiết chính có thể là một nguyên
âm đơn hay nguyên âm đôi.
Âm chính gồm một hệ thống nguyên âm gồm 11 nguyên âm đơn /a, ă, â, e, ê,
o, ô, ơ, u, ư, i/ và ba nguyên âm đôi /iê, ươ, ưa/. Âm chính là yếu tố tạo nên đỉnh âm
thanh, có biên độ và cường độ lớn nhất trong các thành phần âm tiết.
Đặc điểm
 Khi phát âm, luồng hơi không bị cản trở bởi lưỡi, răng hay môi
 Bộ máy phát âm căng thẳng toàn bộ
 Luồng hơi ra yếu hơn phụ âm
Phân loại

Trong tiếng Việt, các nguyên âm đơn có thể chia thành 4 nâng:
Bảng 1.1: Phân chia nguyên âm theo độ nâng của lưỡi.
Ðộ nâng
Gồm các nguyên âm
Hẹp
[i], [u], …
Hơi hẹp
[ê], [u], …
Hơi rộng
[o], [e], …
Rộng
[a], [a], …
 Theo hình dáng môi
Các nguyên âm được chia thành nguyên âm tròn môi ([u], [ô], [o]), nguyên
âm không tròn môi ([i], [ê], [e], [ư], [ơ], [a]). Sự tròn môi rõ nhất ở nguyên
âm khép và yếu nhất ở nguyên âm mở. 19
1.3.2.3. Âm cuối
Là âm kết thúc âm tiết. Các âm tiết tiếng Việt thường đối lập bằng những
cách kết thúc khác nhau. Một số âm tiết kết thúc bằng sự kéo dài và giữ nguyên, ví
dụ: má, đi, cho, Số âm tiết khác kết thúc bằng cách biến đổi âm sắc của âm tiết ở
phần cuối do sự đóng lại của các âm cuối tham gia, ví dụ như một, mai, vàng,
Trong trường hợp đầu, ta có các âm cuối là âm vị /zero/, trong trường hợp sau ta có
các âm cuối là những âm vị bán nguyên âm hoặc phụ âm.
Hệ thống âm cuối tiếng Việt bao gồm hai bán nguyên âm là /i, o/ và sáu phụ
âm /m, n, ng (nh), p, t, c/.
1.3.3. Thanh điệu
Thanh điệu là loại âm vị siêu đoạn tính, nó được biểu lộ trong toàn bộ phần

2
Âm nửa mở
âm cuối kết thúc âm tiết là một bán
nguyên âm
Mai, sau,
3
Âm đóng
Khi âm cuối là một phụ âm tắc vô thanh
Tập, học,
4
Âm nửa đóng
Khi âm cuối là một phụ âm mũi
Làm, ngành,

1.4. Một số đặc trƣng của âm vị về mặt âm học
Sự phân loại các âm vị về mặt âm học đã được xây dựng dựa trên âm phổ.
Các máy phân tích âm phổ cho chúng ta các ảnh phổ (spectrogram), qua đó các âm
vị thể hiện rõ các đặc trưng âm học: cao độ, cường độ, trường độ,
Để biểu diễn phổ tiếng nói tại một thời điểm t, người ta dùng một biểu đồ với
trục ngang biểu diễn các tần số (Hz) tham gia cấu âm thành âm thanh tại thời điểm t
và trục đứng với cường độ tương ứng (dB).

Hình 1.3: Phổ (spectrum) của một nguồn âm thanh tại thời điểm t.
Để biểu diễn phổ tiếng nói theo sự biến thiên thời gian, người ta dùng ảnh
phổ với trục ngang biểu diễn thời gian, trục đứng biểu diễn tần số, cường độ của 21
mỗi sóng có tần số f
i

 Loãng-đặc
Đặc trưng âm học của tiêu chí đặc là có vùng formant ở trung tâm của phổ, đối
lập với loãng là trên phổ hình có một hay một số formant phân bố xa trung tâm.
Âm đặc bao gồm các nguyên âm không thuộc độ nâng cao, các phụ âm lưỡi,
lưỡi giữa và lưỡi sau. Các âm loãng bao gồm những âm có độ nâng của lưỡi cao
(nguyên âm khép), những phụ âm răng, phụ âm môi [i], [u], [ư] trong tiếng Việt.
 Ngắt-không ngắt
Đó là sự đối lập giữa có và không có sự chuyển tiếp đột ngột giữa sự có mặt và
vắng mặt của âm thanh. ”Các phụ âm xát thường có khởi âm từ từ. Ngược lại,
các phụ âm tắc thường có sự ngắt đột ngột sóng âm đi trước bằng một khoảng
im lặng hoàn toàn” [15].
Âm ngắt bao gồm các phụ âm tắc (trừ nhóm mũi). Còn lại (nguyên âm, phụ âm
xát, phụ âm mũi) là những âm không ngắt.
 Gắt-không gắt
Đó là sự đối lập của cường độ lớn hay nhỏ của tiếng ồn. Trên phổ hình, các âm
gắt có vùng tối thay đổi sắc thái rõ rệt.
Những phụ âm gắt bao gồm các phụ âm xát điển hình, các âm tắc-xát, bật hơi,
phụ âm rung. Những laọi hình âm còn lại là những âm không gắt.
 Căng-lơi
Những âm căng là những âm có độ dài lớn, năng lượng lớn và có thanh cộng
hưởng thể hiện rõ trên phổ hình.
Âm căng bao gồm các phụ âm mạnh và nguyên âm đặc. Âm lơi bao gồm những
phụ âm yếu và các nguyên âm loãng.
 Hữu thanh-vô thanh
Đó là sự đối lập giữa có hay không những dao động điều hòa ở vùng tần số thấp.
Âm hữu thanh bao gồm các nguyên âm, phụ âm vang và phụ âm hữu thanh. 23
 Mũi-miệng (hay Mũi-không

24
cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong phổi, lực
căng của dây thanh. Nó bao gồm hoạt động tương tác phi tuyến giữa nguồn kích
(chấn động dây thanh hoặc hỗn loạn không khí) và trở kháng đầu vào thay đổi theo
thời gian của ống thanh. Phương pháp này còn được gọi là tổng hợp theo mô hình
hệ thống.
Để xây dựng đặc trưng âm thanh của cơ quan phát âm, hệ thống phải tham số
hoá được hình khối ống thanh và ống mũi, phải lựa chọn được một mô hình để mô
tả sự lan truyền của sóng trong ống thanh và mô hình hoá nguồn âm (chấn động dây
thanh, dòng không khí hỗn loạn) và sự tương tác của nó với ống thanh. Phương
pháp này hiện nay chỉ hình thành trên lý thuyết, thực tế ngành khoa học phỏng sinh
chưa có đủ thông tin đầu đủ để mô phỏng theo cấu âm.
Mô hình ống thanh
Cho các âm không phải là âm mũi ta chỉ cần xem xét ống thanh có thiết diện
biến thiên từ thanh môn cho tới môi. Ống thanh thay đổi liên tục, hình dáng của
chúng phải được xác định trong khoảng thời gian vài mini giây một lần. Hình không
gian của ống thanh được mô tả theo vị trí của các cơ quan phát âm, lưỡi, môi,
hàm…
Mô hình được ứng dụng nhiều nhất là mô hình của Mermelstein với các
tham số mô tả vị trí cơ quan cấu âm.Từ mô tả cấu âm, có thể tính được các số liệu
cho hàm mặt cắt ngang ống thanh A(x) là hàm số phụ thuộc khoảng cách dọc theo
ống thanh từ thanh môn cho tới môi
Lan truyền sóng trong ống thanh
Trong nhiều cách tính đặc trưng truyền sóng trong ống thanh thì phương
pháp ma trận chuỗi được áp dụng nhiều nhất. Ma trận chuỗi (còn gọi là ma trận
ABCD) thể hiện ống thanh ở miền tần số. Với bất kỳ phần nào của ống thanh hay
của ống mũi ta có:






in
in
in
in
out
out
U
P
K
U
P
DC
BA
U
P
25
Ma trận chuỗi K có thể thể hiện bất kỳ phần nào của bất kỳ độ dài hay
mặt phẳng cắt ngang nào của ống thanh. Tính các phần tử của K rất đơn giản nên
ống có mặt cắt không đổi.
Mô hình nguồn kích thanh
Nguồn kích thanh cho tổng hợp cấu âm sử dụng mô hình hai khối lượng của
Ishizaka và Flanagan.
Nguyên lý của tổng hợp cấu âm
Thuật toán tổng hợp theo mô hình cấu âm gồm các bước như nhau. Từ đặc tả
về các tham số cấu âm, ta tính được ma trận chuỗi từ thanh môn đến môi. Sau đó

hứa hẹn về lâu dài là giải pháp hoàn thiện nhất để tổng hợp ra âm thanh tiếng nói
giống như tiếng nói tự nhiên của con người.
1.5.2. Tổng hợp formant theo quy luật
Quy trình để xây dựng bộ tổng hợp formant theo luật gồm hai quá trình riêng
biệt là quá trình phân tích âm thanh tiếng nói để tìm ra các quy luật và tổng hợp lại
tiếng nói dựa vào các quy luật này.
Phân tích tìm quy luật
Quá trình phân tích được tiến hành trên cơ sở dữ liệu tiếng nói tự nhiên chủ
yếu bao gồm các âm tiết có dạng C-V (phụ âm – nguyên âm) hay C-V-C (phụ âm –
nguyên âm – phụ âm) của nhiều giọng nói. Cơ sở dữ liệu này tốt nhất phải bao phủ
được tất cả các hình thái ngữ âm của một ngôn ngữ.
Thuật toán dự đoán tuyến tính LPC, được sử dụng trong quá trình phân tích
phổ để xác định mẫu của tần số formant, băng thông formant, tần số âm cơ bản F0
của tín hiệu tiếng nói. Tần số từ F1 đến F5 và băng thông W
1
đến W
5
ở phần ổn
định của các âm tố được lưu giữ dưới dạng bảng. Đó là các giá trị “đích” để tạo ra
một âm vị.
Trong tiếng nói, phần mang thông tin được quan tâm nghiên cứu nhiều hơn
là các phần chuyển tiếp giữa các âm vị từ nguyên âm sang phụ âm và ngược lại (C-
V và V-C). Tần số formant chuyển tiếp từ âm vị nọ sang âm vị kia được mô hình
hoá và tạo thành các quy luật tổng hợp cho kĩ thuật tổng hợp formant. Như vậy về
cơ bản các quá trình phân tích tìm luật để mô tả sự thay đổi liên tục phổ của một
ngữ lưu bằng các formant và sự chuyển tiếp của các formant từ âm vị này sang âm
vị khác. Hệ thống quy luật bao gồm:
- Luật để xác định vị trí đích các formant của mỗi âm vị trong một ngữ lưu
cũng như thời gian tồn tại của các vị trí đó.
- Luật nhằm làm trơn các formant đích.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status