Thông báo kết quả học tập của học sinh qua điện thoại -SƠ LƯỢC VỀ TIẾNG NÓI VÀ CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI - Pdf 71

SƠ LƯỢC VỀ TIẾNG NÓI VÀ CÁC PHƯƠNG
PHÁP TỔNG HỢP TIẾNG NÓI
I Sơ lược về tiếng nói :
I.1. Đặc t ính c hung c ủa t iếng n ói :
Tiếng nói là công cụ diễn đạt thông tin rất uyển chuyển và đặc biệt. Khi chúng ta phát
ra một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn, môi, họng, thanh quản…kết hợp
với nhau để tạo thành âm thanh. Âm thanh này lan truyền trong không khí để đến tai người
nhận; chính vì sự kết hợp của rất nhiều bộ phận để tạo ra âm thanh này nên âm thanh được
phát ra ở mỗi lần hầu như là khác nhau. Vì vậy việc phân chia tiếng nói thành những loại
có đặc tính riêng là rất khó. Ở đây người ta tạm chia thành ba loại:
• Voiced sound :
Khi chúng ta nói chữ
"a" hay chữ "o" thanh môn của ta rung và giãn ra, áp suất không khí ban đầu lớn và từ từ
giảm xuống, lúc này âm phát ra có dạng sóng wave đặc trưng như hình vẽ.
• Unvoiced sound :
Là âm khi ta phát ra một tiếng mà thanh môn không rung. Có hai loại cơ bản: phụ âm sát
(fricative) và âm bật hơi (aspirate). Đối với phụ âm sát (khi phát âm vần "s"), điểm co thắt
được tạo ra tại vài điểm trên bộ máy phát âm, và không khí được đẩy qua nó. Vì điểm co
thắt có khuynh hướng xảy ra gần miệng, tiếng dội của bộ máy phát âm có ảnh hưởng nhỏ
trong việc tạo nên phụ âm sát. Đối với âm bật hơi (khi phát âm vần "h") sự dao động không
khí xảy ra tại thanh môn bởi vì dây thanh âm được giữ lại một phần. Trong trường hợp
này, tiếng dội của bộ máy phát âm điều chỉnh phổ của tiếng ồn. Điều này được thấy rõ nhất
khi chúng ta nghe những âm thanh nhỏ, xì xào.
• Plosive sound :
Trong trường hợp này, bộ máy phát âm được đóng kín, áp suất không khí bị nén và
được giải thoát thình lình. Sự giải thoát nhanh chóng áp suất này tạo nên một sự kích thích
ngắn cho bộ máy phát âm. Sự kích thích ngắn này có thể xảy ra với sự có rung / không
rung của dây thanh môn để tạo nên âm thanh voice/unvoice plosive
I.2. Công nghệ Text–to–speech dùng để tổng hợp tiếng nói :
Text-to-speech là một kỹ thuật dùng để chuyển dạng văn bản (text) sang tiếng nói
(speech) . Text–to–speech được phân loại dựa vào phương pháp chuyển văn bản sang

hiện những từ gõ sai
- Tiết kiệm không gian lưu trữ
- Thông báo bằng giọng nói thay cho chuỗi thông báo trên màn hình
- Ứng dụng truyền thông : TTS được ứng dụng trong hộp thư thoại, hệ thống trả lời tự
động
II. Các phương pháp tổng hợp tiếng nói trong hệ thống tiếng Việt :
II.1.Sự cần thiết của việc tổng hợp tiếng nói :
Khi cần thông báo cho người sử dụng bằng tiếng nói thì những chuỗi tiếng nói này
phải được thu âm trước. Cách đơn giản nhất là mỗi câu nói ta thu âm lại thành một file.
Khi cần đọc câu nào thì ta mở file âm thanh tương ứng với câu đó. Cách làm này có ưu
điểm là trung thực và đạt độ tự nhiên cao nhưng có hai nhược điểm rất lớn là không linh
hoạt và tốn nhiều dung lượng nhớ để lưu trữ các file âm thanh. Nhằm tăng tính linh hoạt
cho hệ thống tự động và giảm dung lượng lưu trữ , ta phải dùng kỹ thuật tổng hợp tiếng
nói.
II.2.Các tiêu chuẩn cần thỏa mãn khi tổng hợp tiếng nói :
Tiếng nói tổng hợp dù sao cũng không phải là tiếng nói thực cho nên không thể giống
hoàn toàn tiếng nói tự nhiên. Tuy nhiên khi sử dụng kỹ thuật này, cần thỏa 2 tiêu chuẩn
tối thiểu:
- Đạt độ trung thực tương đối để mọi người có thể hiểu được mà không cần học hỏi
hoặc tập trung nghe cao độ. Nếu không đạt được điều này thì tiếng nói tổng hợp sẽ không
thể sử dụng được trong thực tế vì sẽ làm người nghe khó chịu.
- Khối lượng lưu trữ không quá lớn để tiện sử dụng và có thể phổ biến nhiều nơi
II.3.Các phương pháp tổng hợp tiếng nói cho tiếng Việt :
Có 2 hướng tổng hợp tiếng nói chính là tổng hợp dựa vào việc phân tích tần số và
tổng hợp dựa vào việc ghép âm. Đối với hướng phân tích tần số, ta phân tích các đặc trưng
tiếng nói để tìm ra tần số, pha. Khi tổng hợp sẽ tái tạo tiếng nói từ các đặc tính này. Theo
nghiên cứu của các chuyên gia thì hướng này rất phức tạp và chất lượng âm còn kém.
Trong khi đó, hướng tổng hợp dựa vào việc ghép âm dễ dàng được hiện thực trên máy tính
hơn.
 Ghép từng từ đơn :

cuối khép lại không kết hợp với nguyên âm nữa. Cần chú ý khi phát âm nguyên âm trong
trường hợp âm cuối là loại tắc (vô thanh), ví dụ như p, t, c. Khi này thanh điệu không thể
hiện trên phụ âm cuối mà thể hiện ở giai đoạn chuyển tiếp từ nguyên âm sang âm cuối.
- Chất lượng âm của phương pháp này rất thấp.
 Ghép âm từ hai âm (loại 1):
Ví dụ : "bằng" được ghép từ [b] + [ ằng] .
Một từ được tách ra làm hai phần là phụ âm đầu và vần. điều này căn cứ trên đặc điểm
tiếng Việt là phụ âm đầu ít phụ thuộc vào phần vần và thanh điệu. Trong đó, phụ âm đầu
được cắt rất ngắn chỉ còn lại âm bật. Phần vần cũng được cắt bỏ ở phần đầu một lượng
tưng ứng.
Phương pháp này cho chất lượng âm thanh tương đương so với phương pháp ghép từ
đơn. Theo phương pháp này ta tách được 28 phụ âm đầu và 650 phần vần. Với cách thu âm
như trước thì khối lượng lưu trữ sẽ là:
650 * 8000 * 1 * 1 * (0.8 - 0.15) + 28 * 8000 * 1 * 1 * 0.15 = 3,143,600 byte
 Nhận xét :

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Thông báo kết quả học tập của học sinh qua điện thoại -SƠ LƯỢC VỀ TIẾNG NÓI VÀ CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI - Pdf 71

Tài liệu, ebook tham khảo khác

Học thêm