ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP
NGUYỄN ĐỨC THỌ
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI
LUẬN VĂN THẠC SĨ KỸ THUẬT ĐIỆN TỬ
THÁI NGUYÊN 2013
BẢNG TÓM TẮT LUẬN VĂN CAO HỌC
Ngành : Kỹ thuật điện tử - Khóa 13
1. Tên luân văn
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI
2. Người thực hiện: KS.Nguyễn Đức Thọ
3. Thông tin liên quan
Email:
Điện thoại di động: 0982108055
4. Tóm tắt nội dung:
CHƯƠNG 1: TỔNG QUAN VÊ TỔNG HỢP TIẾNG NÓI
1.1.Giới thiệu về tổng hợp tiếng nói
1.1.1.khái niệm về tổng hợp tiếng nói
Tổng hợp tiếng nói là việc tạo ra tiếng nói con người từ đầu vào là văn bản
hay các mã hóa ngữ âm. Hệ thống tổng hợp tiếng nói cho phép chuyển đổi nội dung
văn bản của một ngôn ngữ nhất định trong thực tế thành tiếng nói tương ứng. Tổng
hợp tiếng nói là một phần trong bài toán xử lý ngôn ngữ tự nhiên - bao gồm cả nhận
dạng và tổng hợp tiếng nói.
Một hệ thống tổng hợp tiếng nói từ văn bản chuyển đổi ngôn ngữ viết sang
tín hiệu tiếng nói. Chất lượng của một bộ tổng hợp tiếng nói được đánh giá bằng
mức độ giống nhau của nó với giọng nói con người. Ứng dụng của Hệ thống tổng
hợp tiếng nói từ văn bản ngày càng trở nên phổ biến, chúng ta có thể thấy hệ thống
này trong các hệ thống, thiết bị sử dụng tương tác người máy bằng tiếng nói (robot
thông minh, hệ thống dẫn đường, hệ thống khai thác thông tin), hệ thống hỗ trợ cho
1.1.2.2. Thành phần xử tín hiệu số
Nói chung, mô đun xử lý tín hiệu số chọn các âm vị và thông tin ngôn điệu
từ đầu ra của mô đun xử lý ngôn ngữ tự nhiên và đưa chúng thành các tín hiệu
tiếng nói. Có hai kỹ thuật chính sử dụng trong mô đun xử lý tín hiệu số: tổng hợp
theo luật hoặc tổng hợp ghép dựa trên ghép nối.
* Tổng hợp dựa trên luật
- 3 -
Theo Dutoit thì tổng hợp dựa trên luật gồm dãy các luật mô tả ảnh hưởng
của các âm vị lên một âm vị khác và hầu như nó rất phù hợp với các nhà ngữ âm
học, chúng liên quan đến việc tích lũy kinh nghiệm, cách tiếp cận có khả năng
tạo ra máy phiên âm âm vị theo luật.
* Tổng hợp ghép nối
1.2. Lịch sử phát triển và ứng dụng tổng hợp tiếng nói
Tạo ra tiếng nói bằng máy là một ước mơ của loài người và là mục tiêu thách
thức các nhà khoa học trên thế giới nhiều thế kỉ qua. Máy nói đầu tiên do Wolfgang
Von Kempelen chế tạo năm 1791 mô phỏng bộ máy phát âm của người đã có thể
phát ra được một vài âm tố. Ở đầu thế kỉ này vào năm 1939, máy VODER của nhà
khoa học Dudley, phòng thí nghiệm AT&T BELL LABS đã thành công trong
việc mô hình hoá cộng hưởng của ống thanh bằng linh kiện điện tử. Hệ thống
điều khiển nhân công 10 bộ cộng hưởng bằng các phóm và chiết áp đã có thể tạo ra
một số câu nói có thể nghe được. Từ giữa những năm 1950 trở lại đây, sự ra đời của
máy tính điện tử đã cho phép tạo ra một cách có hệ thống các tham số để điều khiển
bộ tổng hợp tiếng nói. Cùng với sự phát triển như vũ bão của khoa học và công
nghệ thập kỉ 80, 90, kỹ thuật tổng hợp tiếng nói đã có những bước phát triển rất
quan trọng có sự đóng góp rất lớn của máy tính và xử lý tín hiệu số.
Các ứng dụng này tập trung ở các lĩnh vực sau:
• Học ngoại ngữ
• Trợ giúp người tàn tật
• Truyền thông tin bằng âm thanh
• Trong lưu trữ và khai thác dữ liệu
Tokenizer. Tokenizer sử dụng dấu cách để phân biệt các token. Sau đó văn bản lúc
- 6 -
này là các token đã được phân tách sẽ được đưa qua bộ Splitter để chia các token
phức ra thành các token nhỏ hơn. Khi các token đã được phân tách hoàn toàn.
3.2.2 Đặc điểm văn bản tiếng Việt
Tuy rất hiệu quả cho tiếng Anh, mô hình chuẩn hóa văn bản tiếng Anh chưa áp
dụng ngay được cho tiếng Việt vì một số khác biệt giữa tiếng Anh và tiếng Việt đã
trình bày ở chương 1 là cấu tạo từ, bản chất ngôn ngữ khác nhau, sự nhập nhằng cao
và sự không có quy chuẩn thống nhất trong văn bản tiếng Việt, cộng với cách viết
tắt khác nhau của tiếng Việt và tiếng Anh. Nhưng trình tự và thành phần các mô-
đun trong mô hình này có thể được tham khảo và sửa đổi để ứng dụng phù hợp cho
tiếng Việt, vừa giải quyết được các vấn đề chung của bài toán chuẩn hóa văn bản,
vừa đáp ứng được những yêu cầu riêng trong tiếng Việt.
3.2.3.Sự tổ chức không có quy chuẩn của một token
Trong văn bản tiếng Việt có nhiều trường hợp một tổ hợp chữ (hay một
token) biểu diễn một ngữ nghĩa lại bị viết tách rời nhau. Ví dụ như trong các loại số
điện thoại “090 434 3443”, trong số đếm “100 000”, cũng có một số token do lỗi
trình bày bị viết tách nhau ra như “ngày 1/ 5”… Do đó không thể áp dụng việc
dùng dấu cách để xác định các token ngay được. Những trường hợp như trên cần
phải được nhóm lại thành một token theo cách “0904343443” hoặc “090.434.3443”
3.2.3.1 Sự phức tạp của NSW
Trong văn bản tiếng Việt có những trường hợp phải tách một token ra để có
thể đọc lên được bằng các luật phiên âm hay so khớp từ điển. Đó là thời gian (có thể
là 12h00 hoặc 12:00 hoặc 12 giờ 00), tiền tệ (975$ hoặc $975, 1.000.000vnd), đơn
vị đo (1m75 hoặc 1.75m, 1.5kg, 1m2…), ta gọi những trường hợp phải tách ra như
thế trong tiếng Việt là NSW phức. Dù hình thái các NSW loại này có khác và ít
phong phú hơn tiếng Việt, trong mô hình chuẩn hóa văn bản tiếng Anh có mô-đun
Split Token. Nhiệm vụ của mô-đun này là chia các token vốn là sự kết hợp của
nhiều thành phần ra thành các thành phần nhỏ hơn gọi là subtoken để có thể phiên
- 7 -
trường hợp còn lại xác định cách đọc dựa vào luật mở rộng. Vì cùng một từ viết tắt
nhưng nó viết tắt cho các từ khác nhau, cho nên cần phải chú ý giải quyết vấn đề
này. Để thuận tiện cho việc xử lý, bộ chuẩn hóa văn bản tiếng Việt sẽ tách công
đoạn này thành một bước riêng.
Tổng hợp lại từ các phân tích trên có thể dẫn đến một mô hình chuẩn hóa
phù hợp cho văn bản tiếng Việt như sẽ trình bày ở mục 2.3 sau đây.
3.3.Giải pháp đề xuất
Giải pháp cho bài toán chuẩn hóa văn bản tiếng Việt phải giải quyết được
những vấn đề chung của bài toán chuẩn hóa văn bản nói chung và những vấn đề đặc
thù trong tiếng Việt. Đó là phải xử lý được những trường hợp không thể áp dụng
luật phiên âm để đưa ra thông tin về ngữ âm. Cụ thể là thao tác với các loại NSW là
số (số điện thoại, số đếm, phân số, địa chỉ, thời gian … ), các từ viết tắt, các từ đọc
như một dãy kí tự (WTO, NATO, TP, TS…), các từ mượn (karaoke, auto,
version…), các từ phức như 1m75, các kí tự Hi Lạp, các địa chỉ mail và địa chỉ
URL…
3.3.1.Phân loại các từ chưa chuẩn hóa cho tiếng Việt
- Nhóm số được bao gồm những token có chứa ký tự là số. Nó bao gồm các loại
nhỏ hơn là:
- NTIM cho việc biểu diễn giờ (“9:30” hay “9.30” hay “9h30” tương ứng với “chín
giờ ba mươi phút”)
- NDAT chỉ ngày tháng năm đầy đủ (“17/3/1987”, “17/03/1987”, “17/03/87” tương
ứng với “ngày mười bảy tháng ba năm một nghìn chin trăm tám mươi bảy/một chin
tám bảy/tám bảy”)
- NDAY chỉ ngày và tháng (“17/03” hay “17/3” tương ứng với “ngày mười bảy tháng
- 9 -
ba”)
- NMON chỉ tháng và năm (“03/87” hay “3/87” tương ứng với “tháng ba năm tám
mươi bảy”)
- NNUM là số số học (“200.000” hay “200 000” tương ứng với “hai trăm nghìn”)
- NTEL cho số điện thoại (“38.68.39.39”, “38 683 939” tương ứng với “ba tám (nghỉ)
Harvard)”
Kết quả sau khi được xử lý chuẩn hóa và gán thẻ:
<Infomation>
Các hoạt động mít tinh ngày
<W NSW="LABB" FULL="Nhà Giáo Việt Nam">NGVN</W>
<W NSW="NDAY" FULL="hai mươi tháng mười một">20/11</W>
sẽ diễn ra tại sân nhà
<SPLIT>
<W NSW="NCODE" FULL="xê">C</W>
<W NSW="NNUM" FULL="hai">2</W>
</SPLIT>
, lúc 8h30 . . Trong số khách mời có giáo sư
<W NSW=" LWRD " ="Mai cơn">Micheal</W>
- 11 -
<W NSW="PUNC" FULL="mở ngoặc đơn">(</W>
<W NSW="LABB" FULL="Đại học">ĐH</W>
<W NSW=" LWRD " ="Ha vớt"> Harvard </W>
<W NSW="PUNC" FULL="đóng ngoặc đơn">)</W>
</Infomation>
Hình 3-2 Mô hình chuẩn hóa văn bản tiếng Việt
- 12 -
Chuẩn phân tách
Tách các token
Tách câu
Tách NSW phức
Phát hiện NSW
So khớp với các từ điển
Phân loại NSW
Phân nhóm
Phân loại nhóm số
3.4.Các kỹ thuật và giải thuật
Biểu thức chính quy có những cú pháp nhất định phải tuân theo và một tập
các tập hợp đã được định nghĩa sẵn.Các tập định nghĩa sẵn này khác nhau cho
- 13 -
những dạng mãy khác nhau của văn bản. Kỹ thuật biểu thức chính quy được hỗ trợ
trong nhiều ngôn ngữ lập trình như PHP, .NET, Java, Pearl
3.4.1.Tổng quan về cây quyết định
- 14 -
cókhông
>40
Xuất sắc
Trung
bình
<=30
Tuổi
?
Tuổi
?
có
có
Điểm số?
Điểm số?
Sinh
viên?
Sinh
viên?
có
có
khôn
g
- Mỗi đường đi từ gốc đến lá là một luật mẫu. Đơn giản luật mẫu bằng cách bỏ dần
điều kiện mà không ảnh hưởng tới độ chính xác của luật.
- 16 -
3.4.2.6.Áp d ng cây quy t nhụ ế đị
- Mô hình ngôn ngữ bắt đầu ý tưởng tính xác suất xuất hiện một cụm từ S gồm m từ
w
i
trong một văn bản (ở đây hiểu từ theo cách viết người Anh, tức là một token
được phân tách bởi dấu cách).
3.4.3.Mô hình ngôn ngữ chữ cái (Letter Language Modeling)
Mô hình ngôn ngữ chữ cái dựa trên những ý tưởng về mô hình ngôn ngữ
nhưng co hẹp phạm vi. Trong mô hình ngôn ngữ tính xác suất xuất hiện một cụm từ
thì mô hình ngôn ngữ chữ cái tính xác suất xuất hiện một từ (từ được hiểu theo cách
gọi của người Anh, trong bài này được hiểu là một token được phân cách bởi dấu
cách).
3.4.4.Kỹ thuật làm trơn mô hình Kneser-Ney cải tiến
Các tác giả ở trường đại học Harvard bằng thực nghiệm đã kết luận rằng
phương pháp làm trơn mô hình ngôn ngữ Kneser-Ney cho kết quả tối ưu nhất. Theo
phương pháp này, 3 tham số D1, D2, D3+ sẽ được lựa chọn để làm trọng số cho 3
mô hình monogram, digram và trigram:
3.5.Kết chương
Trong chương 3 trình bày về giải pháp cho bài toán chuẩn hóa văn bản tiếng
Việt. Quy trình chuẩn hóa được chia làm bốn bước chuẩn phân tách, phát hiện
NSW, phân loại NSW và mở rộng cách đọc. Chương tiếp theo sẽ cài đặt thử nghiêm
modul chuẩn hóa văn bản cho tiếng Việt
- 17 -
CHƯƠNG 4
CÀI ĐẶT THỬ NGHIỆM MODUL CHUẨN HÓA VĂN BẢN CHO
TIẾNG VIỆT
4.1 Cài đặt và thử nghiệm
LETTERS 65% 58,3%
OTHERS 8% 1,2%
Phân bố của NSWs trong tập test
Bảng 4-2 Phân bố cụ thể của các loại thuộc kiểu NUMBERS
4.2.Kết quả thử nghiệm
Kết quả thử nghiệm là độ chính xác của việc gán nhãn được đánh giá dựa trên công
thức sau
Accuracy of a subcategory =
Độ chính xác trong nhóm LETTERS
Đánh giá kết quả
Precision Recall F-score
98,55% 96,13% 97,32%
Đánh giá theo các độ
- 19 -
Bảng 4-3 Phân bố của NSWs trong tập OTHERS
KẾT LUẬN VÀ HƯƠNG PHÁT TRIỂN
Kết quả đạt được
Qua thời gian nghiên cứu và cài đặt, luận văn đã đóng góp được những vấn đề
sau:
- Giúp người đọc hiểu được chi tiết các thành phần cơ bản của hệ tổng hợp tiếng
nói,
- Giới thiệu và đánh giá một số phương pháp tổng hợp tiếng nói hiện nay,
- Trình bày được các cách phương pháp nâng cao chất lượng tiếng nói tổng hợp,
đặc biệt giới thiệu các kỹ thuật phân tích ngôn điệu thường sử dụng để cải tiến chất
lượng tiếng nói,
-Thử nghiệm đưa ra được tập luật cho việc thay đổi biên độ, năng lượng, trường
độ và tần số cơ bản trong hệ tổng hợp tiếng Việt, cải thiện đáng kể chất lượng của
TTS
Hướng phát triển
Do thời gian làm luận văn có hạn nên chưa thực hiện được mọi khía cạnh để có