Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
MỤC LỤC
MỤC LỤC 1
DANH MỤC HÌNH 3
DANH MỤC BẢNG BIỂU 5
CÁC TỪ VIẾT TẮT 6
CHƯƠNG 1 MỞ ĐẦU 8
1.1 GIỚI THIỆU 9
1.2 TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC 9
1.2.1 Tình hình ngoài nước: 9
1.2.2 Tình hình trong nước: 10
1.2.3 Khảo sát hiện trạng 11
1.3 MỤC TIÊU CỦA ĐỀ TÀI 15
1.4 PHẠM VI CỦA ĐỀ TÀI 15
1.5 ĐIỂM MỚI NỔI BẬC CỦA ĐỀ TÀI 15
1.6 PHÂN TÍCH ƯU NHƯỢC ĐIỂM CỦA HÌNH THỨC GIAO TIẾP BẰNG GIỌNG NÓI 16
1.7 NỘI DUNG ĐỀ TÀI : 16
CHƯƠNG 2 NGHIÊN CỨU LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI 18
2.1 NHẬN DẠNG TIẾNG NÓI 18
2.1.1 Bài toán nhận dạng tiếng nói 18
2.1.2 Bài toán nhận dạng tiếng nói tiếng việt trên môi trường mạng Viễn Thông 22
2.2 RÚT TRÍCH ĐẶC TRƯNG TIẾNG NÓI 23
2.2.1 Giới Thiệu 23
2.2.2 Nghiên cứu cách thức rút trích đặc trưng tiếng nói 25
2.3 MÔ HÌNH MARKOV ẨN 33
2.3.1 Chuỗi Markov 33
2.3.2 Mô hình Markov ẩn HMM- (HIDDEN MARKOV MODELS ) 33
Giới thiệu 33
Ba bài toán của mô hình HMM 34
Bài toán 1: Tính toán khả suất (computing Likelihood): 34
Bài toán 2: Tìm chuỗi trạng thái ẩn ( Decoding) : 37
Khối truy vấn thông tin kết quả : 64
4.3 NGHIÊN CỨU XÂY DỰNG CẤU HÌNH TỔNG ĐÀI GOLDEN SONG 64
4.3.1 Giới thiệu tổng đài Asterisk 64
4.3.2 Kiến trúc tổ chức Asterisk 66
4.3.3 Xây dựng hệ thống tương tác thoại IVR 69
4.4 THIẾT LẬP DIALPLAN CHO ỨNG DỤNG 71
4.5 NGHIÊN CỨU THIẾT KẾ MODULE GIAO TIẾP GIỮA TỔNG ĐÀI VỚI MẠNG PSTN, DI
ĐỘNG, WIFI 72
4.5.1 Cấu hình với luồng truyền dẫn số E1 72
4.5.2 Cấu hình giao tiếp với hệ thống IPCC của Viễn thông Tp. Hồ Chí Minh 75
Trình bày cấu hình phía IPCC 75
Cấu hình phía tổng đài nhận dạng tiếng nói 77
4.6 HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT 78
4.6.1 Nhiệm của các khối chức năng trong hệ thống nhận dạng: 78
4.6.2 Chi tiết cấu hình và mã nguồn các phân hệ trong hệ thống 80
Mô hình ngữ âm (theo phụ lục 1) 80
Mô hình ngôn ngữ (theo phu lục 4) 80
Khối hệ thống IVR tiếp nhận, xử lý và trả kết quả (theo phu lục 2) 80
Khối nhận dạng tiếng nói (chi tiết theo phụ lục 3) 80
CHƯƠNG 5 ĐÁNH GIÁ KẾT QUẢ CỦA ĐỀ TÀI 81
5.1 XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ SỐ TIẾNG NÓI TIẾNG VIỆT 82
5.2 MÔ TẢ DỮ LIỆU 83
5.3 KẾT QUẢ NHẬN DẠNG OFFLINE 84
5.4 KẾT QUẢ NHẬN DẠNG ONLINE 85
5.5 ĐÁNH GIÁ KẾT QUẢ 86
5.6 KẾT QUẢ CỦA ĐỀ TÀI 87
5.7 ĐÁNH GIÁ MỘT SỐ CÔNG CỤ SỬ DỤNG TRONG ĐỀ TÀI 87
CHƯƠNG 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 89
6.1 KẾT LUẬN 89
6.2 HƯỚNG PHÁT TRIỂN 90
Hình 2.21: Nhận dạng tiếng nói với hướng tiếp cận NSR 49
Hình 2.22 : Nhận dạng tiếng nói với hướng tiếp cận DSR 49
Hình 3.1: Nhận dạng tiếng nói với công cụ HTK 52
Hình 3.2: Kiến trúc bộ công cụ HTK 53
Hình 3.3 : Các công đoạn xây dựng bộ nhận dạng tiếng nói HTK 54
Hình 3.4: xử lý mã hóa tiếng nói 57
Hình 3.5: mô tả các bước huấn luyện với công cụ HTK 59
Hình 4.1: Sơ đồ tổng quát tổng đài nhận dạng yêu cầu bằng giọng nói 61
Hình 4.2: Sơ đồ khối hệ thống nhận dạng yêu cầu bằng giọng nói 62
Hình 4.3: Thiết bị trung kế số E1 giao tiếp với mạng PSTN 63
Hình 4.4 : Thiết bị đầu cuối IP Phone 63
Hình 4.5: Sơ đồ tổng quát tổng đài Asterisk 65
Hình 4.6: Kiến trúc Asterisk 67
Hình 4.7: Hệ Thống IVR 69
Hình 4.8: Kế hoạch dialplan cho hệ thống 71
Hình 4.9: Kết nối trung kế E1 đến nhà cung cấp 72
4
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
Hình 4.10: Sơ đồ kết nối giao tiếp giữa IPCC và tổng đài nhận dạng tiếng nói. .75
Hình 4.11: Minh họa các khối chính trong hệ thống nhận dạng tiếng nói 78
DANH MỤC BẢNG BIỂU
Bảng 2.1 : Các chuẩn mã hóa tín hiệu âm thanh 50
Bảng 5.1 Tổ chức dữ liệu nhận dạng 84
Bảng 5.2 Bảng chi tiết kết quả test nhận dạng 86
5
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
CÁC TỪ VIẾT TẮT
Ký hiệu Thuật ngữ Tạm dịch
-
HTK Hidden Markov Model Toolkit Công cụ nhận dạng tiếng nói
PDF Probability Density Function Hàm phân bố mật độ xác suất
SGMM Subspace Gaussians Mixture Model
SI Speaker Independent Độc lập người nói
SD Speaker Dependent Phục thuộc người nói
WCR Word Correct Rate Tỉ lệ chính xác từ
7
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
CHƯƠNG 1 MỞ ĐẦU
8
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
1.1 GIỚI THIỆU
Hệ thống nhận dạng tiếng nói tự động(automatic Speech Recognition - ASR)
chuyển đổi tiếng nói dạng âm thành thành văn bản text(Speech-To-Text) là bài
toán khó được phát triển từ những thập niên 50 của thế kỷ trước, qua thời gian có
nhiều phương pháp đã được áp dụng để cải thiện kết quả nhận dạng, đến thời
điểm hiện tại công nghệ áp dụng giải quyết bài toán nhận dạng được sử dụng phổ
biến là sử dụng phương pháp rút trích đặt trưng MFCC và mô hình HMM[10].
Trong đề tài nghiên cứu này nhóm tác giả tập trung vào nghiên cứu công
nghệ nhận dạng tiếng nói, bao gồm các lý thuyết liên quan như phương thức rút
trích đặc trưng, cách xây dựng mô hình ngữ âm và mô hình ngôn ngữ từ đó ứng
dụng vào việc xây dựng hệ thống tổng đài nhận dạng chữ số tiếng nói tiếng việt
trên môi trường mạng viễn thông (nhận diện yêu cầu của khách hàng bằng giọng
nói thay vì nhấn phím thông thường).
Thử nghiệm trên hệ thống tổng đài nghe nhạc Golden Song (Nghe nhạc
qua tổng đài) bằng hình thức yêu cầu những bản nhạc cần nghe bằng giọng nói,
bước đầu sẽ nhận dạng yêu cầu bằng chữ số tiếng nói tiếng việt.
1.2 TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC
1.2.1 Tình hình ngoài nước:
Hình 1.1 : Sơ đồ nhận dạng tiếng nói cơ bản trên mạng viễn thông
việt trên mạng viễn thông.
1.2.2 Tình hình trong nước:
Tại Việt Nam, có 2 nhóm nghiên cứu chính về bài toán nhận dạng tiếng
nói liên tục với bộ từ vựng lớn (Large vocabulary Continuous Speech
Recognition -LVCSR). Nhóm đầu tiên thuộc Viện Công nghệ Thông tin do
10
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
PGS.Lương Chi Mai đứng đầu, với phương pháp ANN và công cụ CSLU [13]
được sử dụng.
Nhóm thứ hai thuộc trường Đại học Khoa học Tự nhiên thành phố Hồ Chí
Minh do PGS. Vũ Hải Quân đứng đầu, với phương pháp HMM và công cụ
HTK được sử dụng, các nghiên cứu của nhóm tập trung vào bài toán truy vấn
thông tin tiếng Việt, nhận dạng tiếng nói, hệ thống giao tiếp giữa người và máy,
tìm kiếm bằng giọng nói, Phòng trí tuệ nhân tạo trường đại học KHTN TP.Hồ
Chí Minh đã thực hiện thành công công nghệ nhận dạng tiếng nói tiếng việt trên
iPhone đó là phần mềm iSago, đây là tiền đề cho việc nghiên cứu vào thực tiễn
công nghệ nhận dạng tiếng nói tiếng việt trên môi trường mạng Viễn thông.
Trung tâm sở hữu trí tuệ và chuyển giao công nghệ ĐHQG TPHCM
chuẩn bị chuyển giao phần mềm tìm kiếm sử dụng công nghệ nhận dạng tiếng
nói cho một tập đoàn Viễn thông (báo Đất Việt, 12/04/2012)
Do đó việc nghiên cứu công nghệ nhận dạng tiếng nói để áp dụng vào các
dịch vụ của VNPT là điều cấp thiết, mở ra hướng phát triển công nghệ nhận dạng
tiếng nói vào thực tiễn tại VNPT TPHCM cũng như cho toàn VNPT.
Một số sản phẩm trong nước về nhận dạng tiếng nói Tiếng Việt có thể ứng
dụng thực tế như: iSago, VIS của trường Đại học KHTN TP.HCM.
1.2.3 Khảo sát hiện trạng
Hiện nay VNPT TP.Hồ Chí Minh là đơn vị cung cấp các dịch vụ thông tin
cho khách hàng bao gồm các nhóm dịch vụ như:
1. Thông tin hằng ngày: Hộp thư thông tin hằng ngày, thể thao, kinh tế :
- 80111161 Tour Du lịch
- 80111162 Đọc lời bài hát
- 80111146 Giải trí (sân khấu và phim)
- 80111148 Giới thiệu phim
- 80111164 Giới thiệu ngôi sao nghệ thuật Việt Nam và Thế giới
- 80111171 Trò chuyện với chị Thủy Tiên
- 80111129 Góc tâm hồn
- 80111109 Chương trình phát thanh
- 80111110 Chương trình truyền hình
3. Hộp thư đài phát thanh
- 80111155 Làn sóng xanh
- 80111163 Từ Album đến Album
- 80111165 Topten FM 99.9MHz
- 80111173 Ca khúc bất hủ
- 80111174 Ca khúc Tiếng Hoa
- 80111175 Quà tặng âm nhạc FM 99.9
- 80111855 Nốt nhạc Thứ 7
- 80111865 MTV
- 80111875 Quà tặng nửa đêm và Thứ 7
4. Thông tin Giáo Dục và KHKT
- 108600 Tin nóng Tuyển sinh
12
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
- 108601 Kết quả học tập
- 80111144 Chương trình dạy tiếng Anh (THCS)
- 80111147 Nội trợ và ẩm thực
- 80111150 Lịch sử và danh nhân Việt Nam - Thế giới
- 80111151 Ý nghĩa các ngày lễ hội
- 80111160 Phần mềm và địa chỉ Internet
5. Tra cứu thông tin
- 80111192 Bệnh về da - Các bệnh lây truyền qua đường tình dục
- 80111193 Sắc đẹp thẩm mỹ
- 80111194 Bướu - Ung thư - Bệnh về máu
- 80111195 Sơ cấp cứu tai nạn và ngộ độc
- 80111196 Bệnh trẻ em - Chủng ngừa
13
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
- 80111197 Đông dược
- 80111198 Dinh dưỡng
- 80111199 AIDS - Ma túy và các chất gây nghiện
- 80111180 Hộp thư y học báo Người Lao Động
8. Truyện thiếu nhi
- 19001511 Giải trí thiếu nhi
- 80111112 Kể chuyện cổ tích
- 80111113 Kể chuyện cổ tích
- 80111114 Kể chuyện cổ tích
- 80111115 Kể chuyện cổ tích
- 80111116 Kể chuyện cổ tích
- 80111117 Kể chuyện cổ tích
- 80111118 Kể chuyện cổ tích
- 80111119 Kể chuyện cổ tích
- 80111120 Kể chuyện cổ tích
- 80111122 Kể chuyện cổ tích
- 80111123 Kể chuyện cổ tích
- 80111124 Kể chuyện cổ tích
- 80111126 Kể chuyện cổ tích
- 80111128 Kể chuyện cổ tích
- 80111137 Kể chuyện cổ tích
- 80111121 Kể chuyện cổ tích Grimm
- 80111125 Kể chuyện cổ tích 1001 đêm
từ trên 90%.
1.4 PHẠM VI CỦA ĐỀ TÀI
Đề tài tập trung ứng dụng được công nghệ nhận dạng tiếng nói vào bài
toán nhận dạng tiếng nói tiếng việt trên mạng viễn thông, một hệ thống cung cấp
truy vấn thông tin tự động bằng giọng nói, khách hàng yêu cầu thông tin bằng
giọng nói song song với phương pháp nhấn phím truyền thống. Tổng đài nhận
dạng tiếng nói độc lập người nói, tách biệt từ(nhận dạng từ đơn), với tập từ vựng
chữ số tiếng nói Tiếng việt. Ứng dụng thử nghiệm xây dựng tổng đài nghe nhạc
truy vấn thông tin bằng giọng nói.
1.5 ĐIỂM MỚI NỔI BẬC CỦA ĐỀ TÀI
Hiện nay trên thị trường chưa có sản phẩm nhận dạng tiếng nói tiếng việt
trên mạng viễn thông.
15
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
Đề tài mở ra hướng phát triển trong lĩnh vực ứng dụng công nghệ nhận
dạng tiếng nói để truy vấn thông tin tự động trên thị trường viễn thông của Việt
Nam.
Nhiều ứng dụng, dịch vụ truy vấn thông tin tự động bằng giọng nói sẽ
được phát triển dựa trên kết quả nghiên cứu của đề tài này.
Đây là hình thức giao tiếp quen thuộc với người sử dụng, là hình thức mới
bổ trợ cho hình thức truy vấn thông tin theo cách truyền thống là nhấn phím.
Đem đến cho khách hàng một sự trãi nghiệm mới, một sự lựa chọn hình
thức truy vấn thông tin mới.
1.6 PHÂN TÍCH ƯU NHƯỢC ĐIỂM CỦA HÌNH THỨC GIAO TIẾP
BẰNG GIỌNG NÓI
Ưu điểm: Dịch vụ hướng đến tất cả các đối tượng người sử dụng bởi đây
là hình thức bổ trợ chứ không phải là hình thức thay thế, một hình thức giao tiếp
quen thuộc với người sử dụng, đem đến cho khách hàng một sự trãi nghiệm mới,
một sự lựa chọn hình thức truy vấn thông tin mới. từ đó nâng cao sự quan tâm
của khách hàng đến các dịch vụ giao tiếp trả lời tự động của VNPT.
2.1 NHẬN DẠNG TIẾNG NÓI
2.1.1 Bài toán nhận dạng tiếng nói
Bài toán nhận dạng tiếng nói bao gồm: nhận dạng lời nói (speech
recognition), nhận dạng người nói (speaker recognition), nhận dạng ngôn ngữ nói
(language recognition), nhận dạng giới tính (Sex recognition)… Trong bài toán
nhận dạng lời nói lại bao gồm 2 loại là nhận dạng độc lập người nói (Speaker
18
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
Independent) và nhận dạng phụ thuộc người nói (Speaker Dependent). Trong đề
tài này thực hiện nhận dạng độc lập người nói.
Hệ thống nhận dạng độc lập người nói là hệ thống cho phép nhận dạng
được nhiều giọng nói khác nhau, nhiều cách phát âm khác nhau trên cùng một
ngôn ngữ, do vậy hệ thống nhận dạng độc lập người nói cần một lượng lớn dữ
liệu huấn luyện để có thể nhận dạng được tiếng nói của nhiều người khác nhau.
Tổng quát nhất nhận dạng tiếng nói là quá trình chuyển đổi ngôn ngữ
tiếng nói thành văn bản ( speech to text ) [9], nhận dạng tiếng nói ứng dụng rất
nhiều trong cuộc sống như điều khiển giao tiếp với máy tính, quay số tự động,
19
Tiếng nói
Nhận dạng
lời nói
Nhận dạng
người nói
Nhận dạng
ngôn ngữ
Xử lý tiếng
nói
Nhận dạng
Miền
Thời gian
Gauss
HMM
Gaussian
Model
Gaussian
Mixture
Model
…
HMM
rời rạc
HMM
liên tục
Gaussian
HMM
Mixture of
Gaussians HMM
Hình 2.2 : Phân loại mô hình Markov ẩn.
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
Hình 2.3: Khối chức năng của hệ thống nhận dạng tiếng nói
Đặc trưng tiếng nói: Tiếng nói được biến đổi thành các vector đặc trưng,
phương pháp rút trích đặc trưng phổ biến hiện nay là MFCC (Mel-frequency
cepstral coefficients).
Mô hình ngữ âm: sử dụng mô hình HMM, biểu diễn tri thức cho tín hiệu
ngữ âm, âm vị…ánh xạ tiếng nói đến nhãn tương ứng.
Mô hình ngôn ngữ: liên quan đến việc biểu diễn tri thức của các từ, chuỗi
từ, hình thành nên câu. Mô hình ngôn ngữ canh chỉnh lại kết quả nhận dạng để
cho kết quả chính xác hơn.
Thuật toán tìm kiếm: chọn lựa chuỗi từ ứng với tín hiệu ngữ âm, cho kết
quả nhận dạng tốt nhất có thể.
Tiếng nói cần nhận dạng sẽ được rút trích đặc trưng, những đặc trưng này
2.1.2 Bài toán nhận dạng tiếng nói tiếng việt trên môi trường mạng Viễn
Thông
Đề tài nghiên cứu là giải quyết bài toán nhận dạng tiếng nói tiếng việt trên
môi trường mạng viễn thông.
Tiếng nói từ đầu cuối điện thoại truyền đi trên mạng viễn thông đến tổng
đài nhận dạng tiếng nói Voice Server, tại đây tiếng nói sẽ được nhận dạng và
chuyển thành văn bản (Speech - To - Text) [7].
Hình 2.4: Nhận dạng tiếng nói trên mạng viễn thông
Quá trình chuyển đổi tiếng nói thành văn bản được thực hiện bởi bộ nhận
dạng tiếng nói tự động ASR (Automatic Speech Recognition).
Đề tài nghiên cứu xây dựng tổng đài nhận dạng chữ số tiếng nói tiếng việt
trên môi trường mạng viễn thông (voice server), tiếng nói từ đầu cuối điện thoại
sẽ được mã hóa và truyền đi trên môi trường mạng viễn thông, đến tổng đài nhận
22
[ ]
)()/(maxarg
ˆ
WPWOPw
W
=
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
dạng, tín hiệu tiếng nói sẽ được giải mã, rút trích đặc trưng và tiến hành nhận
dạng trả về kết quả.
Hình 2.5: Tổng đài nhận dạng tiếng nói voice server
2.2 RÚT TRÍCH ĐẶC TRƯNG TIẾNG NÓI
2.2.1 Giới Thiệu
Rút trích đặc trưng được hiểu như là một quá trình biến đổi từ vector có
kích thước lớn sang vector có kích thước nhỏ hơn. Như vậy, về mặt hình thức,
rút trích đặc trưng có thể được định nghĩa như một ánh xạ f:
được sử dụng là MFCC (Mel-Frequency Cepstral Coefficients), LSP (Line
Spectral Pairs)… Đề tài này chỉ tập trung vào đặc trưng MFCC cho bài toán nhận
dạng tiếng nói.
24
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng
2.2.2 Nghiên cứu cách thức rút trích đặc trưng tiếng nói
Hình 2.7 thể hiện các bước rút trích đặc trưng MFCC. Tín hiệu thô sẽ trải
qua các bước xử lý chính: chia frame, biến đổi Fourier, áp dụng các Mel filter-
banks, lấy log và biến đổi cosin rời rạc.
Hình 2.7: Các bước rút trích đặc trưng MFCC.
Chia frame (enframing)
25
Voice
Signal
Voice
Frames
Power
Spectrum
FFTChia Frames
Hamming
Window
Apply Mel Filter Banks
Lấy logDCT
MFCC
Vectors