BỘ KHOA HỌC VÀ CÔNG NGHỆ BỘ GIÁO DỤC VÀ ĐÀO TẠO
CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC03
BÁO CÁO TỔNG HỢP
KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI
NGHIÊN CỨU THIẾT KẾ CHẾ TẠO CÁC THIẾT BỊ VÀ HỆ
THỐNG TỰ ĐỘNG HÓA THÔNG MINH SỬ DỤNG TƯƠNG
TÁC NGƯỜI MÁY BẰNG TIẾNG NÓI TRONG ĐIỀU KHIỂN
MÃ SỐ: KC.03.15/06-10
Cơ quan chủ trì đề tài/dự án: Trường Đại học Bách Khoa Hà Nội
Chủ nhiệm đề tài/dự án: GS. TS. Phạm Thị Ngọc Yến Hà N
ội
Hà Nội - 2010
1
MỤC LỤC
DANH MỤC CÁC BẢNG 8
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 10
DANH MỤC CÁC TỪ VIẾT TẮT 17
Chương 1.
Mở đầu 19
1.1
Các thông tin chung về đề tài 19
1.2
Các vấn đề chung 20
1.2.1
Đánh giá sự phát triển của hệ thống thiết bị tự động hóa sử dụng
giao tiếp người máy bằng tiếng nói trên thế giới và Việt nam 20
1.2.2
Sản phẩm KHCN của đề tài 24
2.2
Sơ đồ kiến trúc liên kết các khối cấu thành của lớp tương tác người-máy
trên các hệ thống giám sát điều khiển 55
2.2.1
Xây dựng giải pháp tích hợp và tổ chức các khối chức năng phần
cứng cấu thành 55
2
2.2.2
Xây dựng giải pháp tích hợp và tổ chức các khối chức năng phần
mềm cấu thành 63
2.3
Khối giao tiếp thu thập tín hiệu và truyền tin 67
2.3.1
Khối giao tiếp người máy bằng tiếng nói 67
2.3.2
Khối thu thập tín hiệu âm thanh 71
2.3.3
Hệ chuyên gia phân tích xử lý câu lệnh 119
2.5
Phòng thông minh điều khiển bằng tiếng nói 129
2.5.1
Phân tích thiết kế phòng thông minh điều khiển bằng tiếng nói 129
2.5.2
Kịch bản triển khai điều khiển các thiết bị trong phòng thông minh
130
2.5.3
Điều khiển cửa bằng tiếng nói 132
2.5.4
Điều khiển điều hòa bằng tiếng nói 133
2.5.5
Điều khiển vô tuyến bằng tiếng nói 134
2.5.6
Điều khiển đèn bằng tiếng nói 134
Phương pháp tương tác 146
2.6.5
Chỉ tiêu kỹ thuật của hệ thống 148
2.6.6
Ưu điểm nổi trội của phương pháp so với các phương pháp khác . 149
Tài liệu tham khảo 152
Chương 3.
Thiết kế, xây dựng các thiết bị sử dụng tương tác người máy bằng
tiếng nói trên hệ thống nhúng 161
3.1
Đặc điểm chung của thiết bị sử dụng tương tác người máy bằng tiếng
nói trên hệ thống nhúng 161
3.2
Cấu trúc hệ thống 161
3.3
Khối giao tiếp, thu thập dữ liệu và truyền tin 163
Mô đun tổng hợp tiếng Việt phục vụ bài toán tương tác người máy
bằng tiếng nói 173
3.5
Mô đun quản lý CSDL tiếng nói trên DSP 179
3.5.1
Phân tích, phân nhóm CSDL theo kích thước và theo các yếu tố đặc
thù của các tương tác người máy trong các ứng dụng nhúng 179
3.5.2
Thiết kế, xây dựng không gian bộ nhớ quản lý lưu trữ cơ sở dữ liệu
trên ứng dụng nhúng 180
3.6
Rô bốt BIOLOID điều khiển bằng tiếng nói 183
3.6.1
Giới thiệu chung 183
3.6.2
Sơ đồ điều khiển 185
3.6.3
3.7.4
Chỉ tiêu kỹ thuật 197
3.7.5
Thử nghiệm/Đánh giá 197
Tài liệu tham khảo 198
Chương 4.
Phần mềm quản lý cơ sở dữ liệu tiếng nói 200
4.1
Giới thiệu chung về quá trình xây dựng CSDL 200
4.2
Các vướng mắc trong quá trình thu thập cơ sở nhập liệu (CSNL) 200
5
4.3
Các yêu cầu quản lý CSNL 201
4.3.1
Hiển thị dữ liệu 207
4.5
Giao diện mẫu chương trình 208
4.6
Thiết kế hệ thống 210
4.6.1
Mô hình của hệ thống 210
4.6.2
Thiết kế sơ bộ các chức năng của hệ thống 211
4.6.3
Cơ sở dữ liệu 213
4.7
Kết quả thực hiện 214
4.8
Kiểm thử và đánh giá 215
Phương pháp sử dụng kỹ thuật tách nguồn mù (Blind source
separation) 220
5.2.4
Phương pháp sử dụng kỹ thuật phân tích dựa trên mô hình thính giác
CASA (Computational Auditory Scene Analysis) 221
5.3
Phương pháp chuẩn hóa vec-tơ đặc trưng 221
5.3.1
Phương pháp chuẩn hoá trung bình hệ số giả phổ CMN (Cepstral
Mean Normalization) 222
5.3.2
Chuẩn hóa phương sai hệ số giả phổ CVN (Cepstral variance
normalization) 223
5.3.3
Chuẩn hóa biểu đồ giả phổ CHN (Cepstral Histogram
Normalization) 223
5.3.4
Xác định tiếng nói VAD (Voice Activity Detection) 224
6.1.1
Về sản phẩm 230
6.1.2
Về tài liệu khoa học 231
7
6.1.3
Về đào tạo 231
6.2
Đánh giá hiệu quả của đề tài 231
6.2.1
Hiệu quả kinh tế 231
6.2.2
Hiệu quả xã hội 232
6.2.3
Hiệu quả về khoa học công nghệ 232
Bảng 2-2: Các thông số của mạch chuẩn hóa 73
Bảng 2-3: so sánh đặc tính cơ bản các phương thức truyền tin không dây
Bluetooth, Zigbee,Wifi 75
Bảng 2-4: Các từ trong CSDL điều khiển 101
Bảng 2-6: Các loại đơn vị âm trong tiếng Việt 103
Bảng 2-7: Tỉ sổ tín hiệu trên nhiễu phân đoạn cải thiện được của 3 phương
pháp: trừ phổ, MMSE và OMLSA ở 0dB 118
Bảng 2-8: Tỉ sổ tín hiệu trên nhiễu phân đoạn cải thiện được của 3 phương
pháp: trừ phổ, MMSE và OMLSA ở 5dB 118
Bảng 2-8: Tương tác người – máy điều khiển mở cửa 132
Bảng 2-10: Hệ thống tương tác người-máy điều khiển điều hòa 133
Bảng 2-11: Hệ thống tương tác người-máy điều khiển vô tuyến 134
Bảng 2-12: Hệ thống tác người-máy điều khiển đèn chiếu sáng 135
Bảng 2-13: Hệ thống tương tác người-máy điều khiển camera 135
Bảng 3-3: Phân nhóm CSDL theo tài nguyên sử dụng 179
Bảng 3-4: Các đặc tính của động cơ AX-12 183
Hình 2-1: Các hoạt động nhận thức, trí não, vật lý của người vận hành
[Villemeur 88] 30
Hình 2-2: Ba hệ thống lưu giữ thông tin 31
Hình 2-3: Mô hình của bộ nhớ con người [Card 83] 32
Hình 2-4: Mô hình ACT* 33
Hình 2-5: Mô hình thang ra quyết định 36
Hình 2-6: Ba dạng phối hợp cơ bản 37
Hình 2-7: Bảy bước của lý thuyết hành động Norman đã được thích nghi cho
bối cảnh giám sát 38
Hình 2-8: Hai cách xây dựng hướng dẫn ergonomie và hướng dẫn về cách trình
bày 45
Hình 2-9: Một số định dạng hiển thị 47
Hình 2-10: Phân chia màn hình thành 4 vùng chiến lược 47
Hình 2-11: Các hình thức biểu diễn thông thường trong cuộc sống hàng ngày . 49
Hình 2-12: Ví dụ về cách biểu diễn đúng và sai các hàm động có cùng đơn vị và
cùng dải đo 49
Hình 2-13: Các chức năng chính của hệ thống 56
Hình 2-26: Mô hình MVC 66
Hình 2-27: Kiến trúc của một hệ thống tương tác bằng các đối tượng PAC 66
Hình 2-28: Sơ đồ khối tổng quát của khối tương tác người-máy bằng tiếng nói
của một hệ thống giám sát 67
Hình 2-29: Các mô-đun con của mô-đun tương tác người – máy đa phương thức
68
Hình 2-30: Các mô hình trong mô-đun tương tác nhận thức 69
Hình 2-31: Sơ đồ mạch tiền khuếch đại với microphone 72
Hình 2-32: Mạch chuẩn hóa của micrphone 73
Hình 2-33: Kiến trúc hệ thống truyền tin hữu tuyến 74
Hình 2-34: Sơ đồ tích hợp khối thu thập số liệu và truyền tin 76
Hình 2-35: Sơ đồ của một bộ trích chọn đặc trưng 77
Hình 2-36: Nguyên lý tính hệ số MFCC 78
12
Hình 2-37: Cửa sổ Hamming 79
Hình 2-38: Minh họa các bộ lọc mel-scale tam giác (triangle mel-scale filters) 80
Hình 2-53: Biến đổi trường độ tín hiệu với TD-PSOLA trong trường hợp tăng
trường độ[Moulines 1995] 107
Hình 2-54: Sự không liên tục về pha [Huang 2001] 107
Hình 2-55: Ví dụ về sự không liên tục về phổ khi tổng hợp âm tiết /do/ từ các
đơn vị âm /_do/ và /o_/ 108
13
Hình 2-56: Đánh dấu đỉnh 108
Hình 2-57: Ghép nối đơn vị âm để tổng hợp câu nói “Tôi tên là Hương” 109
Hình 2-58: Tín hiệu dạng sóng, spectrogram và đường cong F0 của câu nói tổng
hợp “Tôi tên là Hương” 109
Hình 2-59: Tính toán các điểm đánh dấu cao độ theo phương pháp biến đổi tần
số cơ bản (β = 3/2) [Moulines 1995] 110
Hình 2-60: Biến đổi trường độ của tiếng nói 111
Hình 2-61: Biến đổi cao độ tín hiệu với TD-PSOLA trong trường hợp β>1
[Moulines 1995] 112
Hình 2-62: Biến đổi trường độ tín hiệu với TD-PSOLA trong trường hợp tăng
trường độ [Moulines 1995] 112
Hình 2-63: Biến đổi trường độ của tiếng nói 113
Hình 2-76: Ví dụ màn hình giao diện trong phòng thông minh 132
Hình 2-77: Sơ đồ khối của bộ điều khiển điều hòa 133
Hình 2-78: Thuật toán xác định cự ly mục tiêu 139
Hình 2-79: Hệ tọa độ cầu 140
Hình 2-80: Hệ tọa độ Descartre 141
Hình 2-81: Sơ đồ hệ thống đo, tính toán ngoại suy cự ly 144
Hình 2-82: Sơ đồ hệ thống xác định số liệu đường đáy 145
Hình 3-1: Sơ đồ khối các mô-đun phần cứng hệ thống nhúng cho giao tiếp bằng
tiếng nói 163
Hình 3-2: Sơ đồ khối chức năng của bộ thu thập tín hiệu tiếng nói 166
Hình 3-3: Sơ đồ khối chức năng của hệ thống truyền tin cho khối xử lý trung
tâm 167
Hình 3-4: Sơ đồ khối củaTPS65950 168
Hình 3-5: Sơ đồ nguyên lý ghép nối giữa CODEC và xử lý số tín hiệu 169
Hình 3-6: Sơ đồ khối các mô-đun xử lý tín hiệu và trích chọn thông tin 170
Hình 3-7: Sơ đồ khối hệ thống nhận dạng 172
Hình 3-21: Sơ đồ điều khiển 193
Hình 3-22: Sơ đồ thuật toán 196
Hình 4-1: Biểu đồ ca sử dụng 203
Hình 4-2 : Biểu đồ phân cấp chức năng của hệ thống 203
Hình 4-3: Quy trình thực hiện tìm kiếm 204
Hình 4-4: Biểu đồ phân cấp chức năng tìm kiếm 205
Hình 4-5: Tổng quan về chương trình quản lý CSDL tiếng nói 205
Hình 4-6: Quy trình thực hiện chức năng thêm dữ liệu 205
Hình 4-7: Quy trình thực hiện chức năng sửa dữ liệu 206
Hình 4-8: Quy trình thực hiện chức năng xóa dữ liệu 207
Hình 4-9: Quy trình thực hiện chức năng xem và hiển thị dữ liệu 207
Hình 4-10: Giao diện màn hình đăng nhập 208
Hình 4-11: Giao diện màn hình thêm mới dữ liệu 208
16
Hình 4-12: Giao diện màn hình tìm kiếm dữ liệu 209
HMM Hidden Markov Model
IIS Internet Information Service
IMCRA Phương pháp điều khiển trung bình đệ quy cực tiểu cải tiến
IR Infra red
KHKT Khoa học kỹ thuật
LAN Local Area Network
Lnk Siêu liên kết
LP Linear Predictive
LPC Linear Predictive Coding
LPF Low pass filter
MAP Maximum A Posteriori
MFCC Mel-frequency cepstral coefficients
MLLR Maximum Likelihood Linear Regression
MMSE Minimum Mean Square Error
MOS
Mean Opinion Score
Msg Thông điệp
NSNN Ngân sách nhà nước
18
OM-LSA Phương pháp tối ưu hóa ước lượng phổ biên độ theo thang
logarithm
PC Personal computer
PDA Personal Digital Assistant
PLC Power Line Communication
PLP Perceptual Linear Predictive
PSOLA Pitch Synchronous Overlap and Add
PWM Pulse Width Modulation
RAM Random access memory
triệu đồng)
- Trong đó, từ Ngân sách nhà nước: 3.141.000 đồng (ba tỷ một
trăm bốn mươi mốt triệu đồng)
- Kinh phí từ các nguồn khác:
Tổ chức chủ trì thực hiện đề tài: Trường Đại học Bách Khoa Hà Nội
Địa chỉ: Số 1 Đại Cồ Việt, Quận Hai Bà Trưng, Thành phố Hà Nội
Điện thoại: (04) 38 68 30 87. Fax: (04) 38 68 35 51
Chủ nhiệm đề tài: Phạm Thị Ngọc Yến
Học hàm, học vị: GS.TS
Chức vụ: Giám đốc Trung tâm nghiên cứu quốc tế Thông tin đa phương
tiện, Truyền thông và ứng dụng (MICA), trường ĐHBK Hà Nội
Địa chỉ: tầng 8,9,10 – Nhà B1, Trường ĐHBK Hà nội
Tổ chức: (04) 38683087 Nhà riêng: (04)39840101 Mobile: 09132493 96
E-mail:
20
1.2 Các vấn đề chung
1.2.1 Đánh giá sự phát triển của hệ thống thiết bị tự động hóa sử dụng giao
tiếp người máy bằng tiếng nói trên thế giới và Việt nam
Trên thế giới , các hệ thống tương tác người máy bằng tiếng nói được phát
triển trong nhiều lĩnh vực khác nhau:
độ cao. NASA ứng dụng công nghệ nhận dạng tiếng nói trong các phòng điều
khiển đặt trên trạm vũ trụ ISS, qua đó hỗ trợ các nhà du hành giảm bớt việc di
chuyển trong dự án “Những khả năng tiên tiến trong các hệ thống giao tiếp ngôn
ngữ tự nhiên hội thoại bằng tiếng nói” (Advanced Capabilities for Spoken
Dialogue- natural language Interface Systems) [Hockey 2008]. Trong hệ thống
điều khiển ô tô của hãng Ford, công nghệ nhận dạng tiếng nói được ứng dụng
nhằm trợ giúp người lái điều khiển, giám sát một số chức năng bằng tiếng nói.
Ngoài ra công nghệ nhận dạng tiếng còn được sử dụng trong chế tạo rô bốt đồ
chơi của trẻ em.
Tại Việt Nam, lĩnh vực xử lý tiếng nói cho tiếng Việt mới thực sự được quan
tâm trong khoảng gần 10 năm trở lại đây với các nghiên cứu của [Nguyễn Quốc
Cường 2002], [Lê Xuân Hùng 2003], [Nguyễn P.B. 2003], [Lê Việt Bắc 2006]
[Nguyễn Việt Sơn 2003] [Vu Tat Thang 2005] [Trần Đỗ Đạt 2007], [Nguyễn
Hồng Quang 2008], và mới đây nhất là các đề tài Đề tài cấp nhà nước mã số KC
01-03 “Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ
Việt”.
22
Nghiên cứu của [Lê Xuân Hùng 2003] và [Trần Đỗ Đạt 2007] trình bày các
vấn đề về tổng hợp tiếng Việt từ văn bản. Trong [Trần Đỗ Đạt 2007] tác giả đã
phân tích những biến đổi tần số cơ bản của thanh điệu tiếng Việt không chỉ ở
trạng thái tĩnh mà còn cả trạng thái động (tức là trong lời nói liên tục). Những
mô hình về thanh điệu, và ngữ điệu và về trường độ của tiếng Việt đã được tác
giả xây dựng. Tuy nhiên nghiên cứu này vẫn chưa giải quyết triệt để các vấn đề
về đồng cấu âm thanh điệu, về ảnh hưởng của ngữ điệu lên thanh điệu.
Các nghiên cứu của [Nguyễn Quốc Cường 2002] [Nguyễn Phú Bình 2003]
[Lê Việt Bắc 2006] và [Vu Tat Thang 2005], tập trung vào việc nhận dạng tiếng
Việt. Trong đó nghiên cứu của [Nguyễn Quốc Cường 2002] [Nguyễn Phú Bình
2003] mới dừng lại ở mức nhận dạng các từ rời rạc. Trong nghiên cứu của
[Nguyễn Quốc Cường 2002], tác giả đã tập trung vào vấn đề thanh điệu của
Phần mềm này được phát triển trên nền tảng dựng sẵn của Microsoft (Microsoft
Recognition Engine) áp dụng cho tiếng Anh, thiếu những nghiên cứu cơ bản và
chuyên sâu về các đặc tính của tiếng Việt nhằm phục vụ cho việc mở rộng các
ứng dụng sau này cũng như là có thể phát triển thành hệ thống nhận dạng lời nói
liên tục, lượng từ vựng lớn.
Để có thể mở rộng các ứng dụng của xử lý tiếng nói (nhận dạng và tổng
hợp), các ứng dụng của công nghệ này không chỉ được phát triển trên máy tính
mà cần phải được phát triển trên các hệ nhúng. Tuy nhiên tại Việt Nam, vấn đề
này cũng chưa thực sự phát triển, mới chỉ có những nghiên cứu thực hiện dưới
dạng đề tài sinh viên, hay những đề tài khoa học cấp khoa hay cấp trường của
trường đại học.
Qua những phân tích trên đây, có thể thấy các trang thiết bị điều khiển giám
sát bằng tiếng nói sẽ là một xu hướng phát triển tất yếu trong xã hội hiện đại sau
này. Chính vì vậy việc nghiên cứu chế tạo các thiết bị giao tiếp bằng tiếng nói là
những yêu cầu đòi hỏi cấp thiết đối với các nhà khoa học. Đề tài “Nghiên cứu
thiết kế chế tạo các thiết bị và hệ thống tự động hoá thông minh sử dụng tương