nghiên cứu và xây dựng hệ thống voice server ứng dụng cho các dịch vụ cung cấp thông tin qua mạng điện thoại - Pdf 14

LỜI CẢM ƠN
Chúng em xin chân thành cảm ơn khoa Công nghệ Thông tin trường Đại học
Khoa Học Tự Nhiên đã tạo điều kiện thuận lợi và giúp đỡ chúng em hoàn thành tốt
khóa luận tốt nghiệp này.
Chúng em xin chân thành cảm ơn thầy Vũ Hải Quân đã tận tình chỉ dạy, giúp
đỡ chúng em trong quá trình làm khóa luận.
Chúng em xin chân thành cảm ơn các Thầy, Cô khoa Công nghệ Thông tin đã
tận tình chỉ dạy, trang bị kiến thức nền tảng cho chúng em trong suốt những năm
học qua.
Chúng con xin chân thành cảm ơn ông bà, cha mẹ đã tạo điều kiện thuận lợi
cho chúng con hoàn thành khóa luận này.
Chúng em xin cảm ơn những Anh, Chị đi trước đã để lại những kiến thức rất
bổ ích để chúng em tiếp nối. Cám ơn các Anh, Chị và các bạn trong nhóm nghiên
cứu “tiếng nói Phương Nam” đã giúp đỡ chúng em rất nhiều trong quá trình làm
khóa luận.
Mặc dù chúng em đã cố gắng hoàn thành khóa luận với khả năng cho phép
nhưng chắc chắn sẽ không tránh khỏi những sai xót. Kính mong Thầy, Cô và các
bạn góp ý để khóa luận có thể được hoàn thiện hơn.
Nhóm thực hiện
Nguyễn Thị Mỹ Dung – Dương Chí Trưởng
03/2010
LỜI NÓI ĐẦU
Ngày nay, công nghệ kết hợp giữa máy tính và mạng điện thoại (CTI –
Computer Telephony Integration) đang được phát triển rộng rãi làm giảm
đáng kể chi phí nhân công cho các dịch vụ trả lời thông tin. Ví dụ việc sử
dụng điện thoại để truy cập các dịch vụ tự động như kiểm tra tài khoản ngân
hàng, lịch chuyến bay, tra cứu thông tin về điểm thi đại học, các thông tin về
thời tiết, giá vàng, giá chứng khoán… không còn là điều mới mẻ. Người
dùng có thể gửi tin nhắn hoặc gọi điện thoại trực tiếp tới hệ thống và hệ
thống sẽ tự động đáp lại người dùng những thông tin mà người dùng cần
biết. Quá trình xử lý thông tin là hoàn toàn tự động và người dùng có thể

TAPI 3.0 so với các phiên bản trước 11
Chương 4. Phân tích thiết kế và triển khai hệ thống qua ứng dụng minh họa 11
TỔNG QUAN 13
1.4 Giới thiệu sơ lược việc truy cập thông tin qua âm thanh 13
1.5 Thế nào là một ứng dụng âm thanh (Voice Application) 14
1.6 Khái niệm Voice Server 15
1.7 Cấu trúc Voice Server 16
1.7.1 Công cụ phát triển ứng dụng 16
1.7.2 Bộ nhận dạng tiếng nói tự động(Automatic Speech Recognition) 16
1.7.3 Bộ tổng hợp tiếng nói(Text-To-Speech) 17
1.7.4 Bộ kết nối giữa ứng dụng và hệ thống điện thoại 18
1.8 Hệ thống trả lời điện thoại tự động 19
1.8.1 Khái niệm 19
1.8.2 Các dịch vụ điển hình của IVR 21
1.8.3 Các ưu điểm của hệ thống IVR 21
Chương 2. CƠ SỞ LÝ THUYẾT 22
ii
1.9 Công nghệ TAPI 22
1.9.1 TAPI là gì? 22
1.9.2 Lịch sử phát triển của TAPI 24
1.9.3 TSP là gì? 25
1.9.4 Mối quan hệ giữa TSP và phần cứng TAPI 26
1.9.5 Khả năng tương thích ngược và tới của TAPI và TSP 26
1.9.6 Kiến trúc TAPI 27
1.9.7 Mô hình của TAPI 2.x 28
1.9.8 TAPI 3.0 và các cải tiến so với TAPI 2.x 30
1.9.8.1 Kiến trúc TAPI 3.0 30
1.9.8.2 Tính năng mới của TAPI 3.0 32
1.9.8.3 Điều khiển truyền thông 34
1.9.8.4 Giao diện COM cải tiến 35

1.12.1.2 Thiết kế cơ sở dữ liệu 63
1.12.1.3 Mô hình use case 63
Sơ đồ Use Case 63
Danh sách các người dùng 64
STT 64
Tên người dùng 64
Ý nghĩa / Ghi chú 64
1 64
iii
Khách hàng 64
Đại điện cho nhóm người sử dụng gọi điện trực tiếp đến hệ thống, có thể thực
hiện các chức năng sau: 64
Quay số đến hệ thống 64
Nhấn phím điện thoại 64
2 64
Nhân viên 64
Đại diện cho nhóm người sử dụng trực tiếp giao diện hệ thống, có thể thực hiện
các chức năng sau: 64
Xem thông tin nhật ký cuộc gọi 64
Xem thông tin dữ liệu 64
Xem thông tin thiết bị 64
Danh sách các Use Case 64
STT 64
Tên Use Case 64
Ý nghĩa / Ghi chú 64
1 65
Quay số đến hệ thống 65
Người sử dụng quay số đến hệ thống 65
2 65
Nhấn phím điện thoại 65

người sử dụng có thể nghe được lời chào và hướng dẫn sử dụng chương trình. Nếu
không thì trạng thái hệ thống đang bận 66
Điểm mở rộng: Use Case này vẫn có thể thực hiện khi hệ thống đang bận nếu ta
tăng số lượng đường truyền 66
2. Use Case “Nhấn phím điện thoại”: 66
Tóm tắt: Use-case này mô tả cách một người sử dụng tương tác với hệ thống bằng
việc nhấn phím điện thoại theo hướng dẫn. Nếu thành công thì người sử dụng có
thể nghe được những thông tin đã yêu cầu 66
Dòng sự kiện : 66
Dòng sự kiện chính: Use-case này bắt đầu khi một người sử dụng nhấn phím trên
điện thoại 66
Các dòng sự kiện khác: Hệ thống kiểm tra thời gian từ khi kết thúc một tập tin
âm thanh đến lúc bắt được sự kiện nhấn phím. Nếu không thấy sự kiện nhấn phím
xảy ra thì hệ thống sẽ tự động ngắt kết nối 66
Các yêu cầu đặc biệt: Không có 66
Trạng thái hệ thống trước khi thực hiện Use Case: Người dùng đã kết nối thành
công với hệ thống 66
Trạng thái hệ thống sau khi thực hiện Use Case: Nếu Use Case thành công thì
người sử dụng có thể nghe thông tin đã yêu cầu hoặc lời hướng dẫn và có thể tiếp
tục thực hiện các thao tác khác 66
Điểm mở rộng: Không có 67
1.12.1.4 Tổ chức kịch bản dịch vụ 67
1.12.1.5 Giao diện 68
1.12.2 Mô đun TTS 73
1.13 Cài đặt 73
Chương 4. TỔNG KẾT 77
1.14 Một số kết quả đạt được 77
1.15 Khả năng phát triển của hệ thống 77
Tổng đài dịch vụ điện thoại 77
Tổng đài chăm sóc khách hàng 77

Hình 3.7 Mô hình thiết kế TAPI 29
Hình 3.8 Kiến trúc TAPI 3.0 30
Hình 3.9 Các loại địa chỉ của TAPI 3.0 33
Hình 3.10 Phương thức truy vấn loại địa chỉ của TSP 33
Hình 3.11 Các giao thức của TAPI 3.0 33
Hình 3.12 Mô hình đối tượng chủ yếu của TAPI 3.0 36
Hình 3.13 Hệ thống Text-To-Speech đơn giản 38
Hình 3.14 Quy trình tổng hợp bằng phương pháp ghép nối-lựa chọn đơn vị 51
Hình 3.15 Minh họa quá trình chọn cụm từ thích hợp 53
Hình 3.16 Tính chi phí Unit 55
Hình 3.17 Tính trực tiếp Connection Cost 56
Hình 3.18 Tính gián tiếp Connection Cost 56
Hình 4.19 Sơ đồ hệ thống ứng dụng 60
Hình 4.20 Mô hình cơ sở dữ liệu 63
Hình 4.21 Sơ đồ tổ chức kịch bản ứng dụng 67
Hình 4.22 Màn hình giao diện chính 69
Hình 4.23 Màn hình ghi chú trên giao diện chính 70
Hình 4.24 Màn hình khi nhấn chuột vào icon của màn hình chính 70
viii
Hình 4.25 Màn hình khi có cuộc gọi đến 71
Hình 4.26 Màn hình xem thông tin thiết bị 71
Hình 4.27 Màn hình xem nhật ký cuộc gọi 72
Hình 4.28 Màn hình xem thông tin chứng khoán 72
Hình 4.29 Màn hình thông tin nhóm 73
Hình 4.30 Cài đặt bước 1 74
Hình 4.31 Cài đặt bước2 74
Hình 4.32 Cài đặt bước 3 75
Hình 4.33 Cài đặt bước 4 75
Hình 4.34 Cài đặt bước 5 76
ix

thống sẽ cung cấp thông tin ở mức cơ bản về tỷ giá cổ phiếu và thông tin thị
trường chứng khoán. Áp dụng bộ tổng hợp tiếng nói Text-To-Speech vào hệ
thống, bộ Text-To-Speech này tự động chuyển nội dung văn bản thành âm thanh
tương ứng.
1.3 Nội dung khoá luận:
Nội dung khoá luận gồm 5 chương:
Chương 1. Mở đầu: Trình bày nhu cầu thực tế, lý do thực hiện đề tài và
các mục tiêu cần đạt được.
Chương 2. Tổng quan: Giới thiệu chung về hệ thống Voice Server, hệ
thống trả lời tự động.
Chương 3. Cơ sở lý thuyết: Trình bày về công nghệ TAPI, công nghệ TTS
(Text-To-Speech).
+ Trình bày khái niệm, lịch sử phát triển, kiến trúc TAPI. Trình bày
điểm cải tiến của TAPI 3.0 so với các phiên bản trước.
+ Trình bày khái niệm, quy trình và các phương pháp thực hiện tổng
hợp tiếng nói.
+ Giới thiệu quy trình xử lý văn bản thành dạng chuẩn để có thể tổng
hợp thành dạng âm thanh tương ứng.
+ Giới thiệu phương pháp tổng hợp ghép nối - tổng hợp lựa chọn đơn
vị (Unit selection)
Chương 4. Phân tích thiết kế và triển khai hệ thống qua ứng dụng
minh họa
+ Sơ đồ tổng quát và nguyên lý hoạt động của hệ thống cung cấp thông
tin chứng khoán tự động qua mạng điện thoại.
+ Các bước xây dựng hệ thống IVR(Interactive Voice Respone).
+ Hướng dẫn cài đặt, sử dụng.
Chương 5. Tổng kết: Tóm tắt lại kết quả đã đạt được, hướng phát triển của
đề tài.
11
Chương 1. Mở đầu

Chương 2. Tổng quan
Ngoài việc tra cứu thông tin, ứng dụng dạng này còn được sử dụng phổ biến
trong các giao dịch trực tuyến như mua bán cổ phiếu, chuyển tiền giữa các tài
khoản. Bước đầu tiên, ứng dụng chứng thực khách hàng thông qua bộ xử lý định
danh và sau đó sử dụng các tập tin âm thanh hướng dẫn khách hàng cung cấp
thông tin (ví dụ: tài khoản gửi và tài khoản nhận để thực hiện thao tác chuyển
tiền). Hệ thống phát ra những chỉ dẫn, lời nhắc và những tùy chọn được ghi âm
trước hay qua bộ phận Text-To-Speech và khách hàng cũng tương tác với hệ
thống cũng bằng giọng nói tự nhiên. Một khi dữ liệu đã được tập hợp và kiểm
tra hợp lệ, hệ thống thực hiện việc chuyển tiền và thông báo kết quả cho khách
hàng.
1.5 Thế nào là một ứng dụng âm thanh (Voice Application)
Là ứng dụng có thể thực hiện tương tác giữa máy tính và con người bằng âm
thanh nó cung cấp cho người dùng khả năng truy cập thông tin bằng âm thanh.
Nó có thể tạo nên những ứng dụng thương mại tương tác với khách hàng bằng
âm thanh thay cho tương tác truyền thống bằng phím và chuột.
Ứng dụng âm thanh có thể được cài đặt trên hệ thống cục bộ hoặc từ xa và
người dùng có thể tương tác với hệ thống bằng các thiết bị cầm tay như điện
thoại
Một ứng dụng âm thanh tiêu biểu sẽ gồm các tương tác sau:
 Khách hàng dùng điện thoại gọi vào hệ thống, hệ thống tự động trả lời
cuộc gọi đồng thời thực thi các ứng dụng tương ứng khác. Ứng dụng sẽ phát ra
câu chào và thông tin cần thiết để hướng dẫn cho khách hàng.
 Ứng dụng có thể chờ đáp ứng trong một khoảng thời gian. Người gọi
có thể tương tác với hệ thống bằng cách nói trực tiếp yêu cầu hoặc có thể thực
hiện thông qua các phím trên điện thoại.
14
Chương 2. Tổng quan
 Hệ thống sẽ xử lý các yêu cầu tương ứng và hồi đáp cho khách hàng.
Ví dụ, nó có thể cập nhật thông tin trong cơ sở dữ liệu hay truy xuất thông tin và

là Telephony API.
Sử dụng các tập lệnh trong thư viện TAPI 3.0 được cung cấp bởi hệ
điều hành Windows để tương tác và điều khiển thiết bị, để trao đổi thông
tin(tín hiệu, âm thanh) giữa hệ thống và người gọi qua hệ thống điện thoại.
1.7.2 Bộ nhận dạng tiếng nói tự động(Automatic Speech Recognition)
Bộ nhận dạng tiếng nói thực chất là một bộ phần mềm tự động chuyển
tín hiệu tiếng nói thành dạng văn bản mà đơn vị cơ sở của nó là từ. Các từ
16
Chương 2. Tổng quan
nhận dạng được có thể là kết quả cuối cùng cho các ứng dụng như điều khiển
hệ thống bằng giọng nói, trả lời điện thoại tự động. Chúng cũng có thể là
những kết quả trung gian, đóng vai trò là đầu vào cho những chương trình xử
lí ngôn ngữ tiếp theo như dịch máy, tìm kiếm thông tin…

Hình 2.3 Quá trình xử lý nhận dạng tiếng nói
Như mô tả trong hình 2.3, con người sẽ quyết định chuỗi từ định nói. Sau
đó bộ phận phát âm sẽ sinh ra các tín hiệu giọng nói ở dạng sóng âm. Dạng
sóng âm này là đầu vào cho thành phần xử lí tín hiệu số của hệ thống nhận
dạng. Cuối cùng thành phần giải mã sẽ chuyển các tín hiệu ngữ âm này sang
dạng chuỗi từ sao cho gần giống với chuỗi từ mà ta nói ban đầu nhất.
1.7.3 Bộ tổng hợp tiếng nói(Text-To-Speech)
Bộ tổng hợp tiếng nói là bộ phần mềm chuyên dụng chuyển đổi chuỗi ký
tự thành âm thanh với nội dung tương ứng. Các ứng dụng của tổng hợp tiếng
nói đang áp dụng đã có hiệu quả trên một số lĩnh vực như: các ứng dụng hỗ
trợ người khiếm thị, hệ thống trả lời tự động…
17
Chương 2. Tổng quan
Hình 2.4 Quá trình tổng hợp tiếng nói

Bộ tổng hợp tiếng nói có 2 mức xử lý chính:

Hình 2.5 Mô hình hệ thống IVR
19
Chương 2. Tổng quan
Hệ thống IVR cho phép khách hàng có thể truy cập thông tin của một tổ
chức thông qua việc sử dụng bàn phím điện thoại để “ nói chuyện” hoặc nói
trực tiếp bằng giọng nói, và IVR “nghe” các phím bấm hoặc nhận dạng giọng
nói đó rồi đọc lại cho khách hàng các thông tin được yêu cầu.
Nếu hệ thống cần cung cấp thông tin động, thông tin không cố định thì
phải sử dụng bộ tổng hợp tiếng nói(TTS) để tổng hợp thành các tập tin âm
thanh. Nếu hệ thống chỉ cung cấp các chỉ dẫn hay những thông tin cố định thì
chỉ cần ghi âm trước nội dung rồi đáp ứng người gọi. Ví dụ, dạng tổng đài
Vina 900 trong thực tế dùng để nạp tiền điện thoại trả trước cung cấp các chỉ
dẫn được ghi âm trước và nhận các con số được cung cấp từ điện thoại và
sau đó thao tác với cơ sở dữ liệu. Nhưng nếu là hệ thống cung cấp thông tin
tỷ giá cổ phiếu mà nhóm sẽ xây dựng với nội dung luôn được cập nhật thì
ngoài các câu hướng dẫn được ghi âm trước, hệ thống phải sử dụng thêm bộ
phận tổng hợp tiếng nói(TTS) để tổng hợp nội dung thay đổi cung cấp cho
khách hàng.
Lấy một ví dụ, một vài tổ chức sử dụng hệ thống IVR cho phép khách
hàng lấy thông tin về tài khoản được cập nhật ngay thời điểm hiện tại (24 giờ
trong ngày) mà không phải giao dịch trực tiếp với một nhân viên chăm sóc
khách hàng nào. Hệ thống thông tin tự động sẽ bao gồm những chức năng
như: là nơi những thông tin về tài khoản khách hàng có thể được đưa ra một
cách tự động theo từng lĩnh vực phù hợp với yêu cầu của khách hàng. Người
sử dụng chỉ việc chọn loại thông tin cần biết và nhận thông tin đó bằng giọng
nói được ghi âm sẵn hoặc qua bộ TTS (Text-To-Speech) trong hệ thống.
Công nghệ IVR cũng có thể được sử dụng vào mục đích thu thập thông tin,
ví dụ như những cuộc khảo sát qua điện thoại. Người sử dụng sẽ được hướng
dẫn để trả lời những câu hỏi bằng cách nhấn phím số trên điện thoại hoặc
thông qua giọng nói.

Chương 2. CƠ SỞ LÝ THUYẾT
Để liên kết máy tính và mạng điện thoại ta cần phải có một thiết bị cho phép nối
ghép hai loại giao thức này với nhau. Chúng em đã sử dụng một Modem quay số có
hổ trợ lập trình tương tác âm thanh để kết nối trực tiếp máy tính và một đường dây
điện thoại cố định. Modem giao tiếp với máy tính dựa trên nền tảng TAPI
(Telephony Application Programming Interface) được Microsoft cung cấp cùng với
hệ điều hành Windows. TAPI dùng để chia sẻ các thiết bị điện thoại dùng cho các
ứng dụng chạy trên Windows.
Khi người dùng gọi điện đến hệ thống, người dùng có thể nhấn phím trên điện
thoại hoặc bằng giọng nói để nghe các thông tin được yêu cầu. Nếu người dùng sử
dụng cách nhấn phím thì hệ thống sẽ nhận tín hiệu phím nhấn, sau đó sẽ truy vấn cơ
sở dữ liệu và lấy về các thông tin cần thiết ở dạng chuỗi ký tự, sau đó chuỗi ký tự
này sẽ được Mô đun TTS(Text-To-Speech) chuyển thành âm thanh để trả lời cho
người dùng. Nếu người dùng sử dụng giọng nói thì hệ thống sẽ chuyển nội dung ghi
âm được tới Mô đun ASR(Automatic Speech Recognition), Mô đun ASR phân tích,
nhận dạng giọng nói rồi chuyển thành chuỗi ký tự. Sau đó, hệ thống sẽ truy vấn cơ
sở dữ liệu và lấy về thông tin cần thiết ở dạng chuỗi ký tự. Thông qua Mô đun Text-
To-Speech chuyển chuỗi ký tự này thành âm thanh để trả lời người dùng. Trong
chương này chúng em sẽ trình bày lý thuyết cơ sở về công nghệ TAPI, công nghệ
tổng hợp giọng nói.
1.9 Công nghệ TAPI
1.9.1 TAPI là gì?
TAPI (Telephony Application Programming Interface) là một giao diện
lập trình chuẩn có thể làm cho bạn và máy tính “nói chuyện” với nhau qua
điện thoại. Được phát triển bởi Microsoft và Intel, TAPI được tích hợp trong
hệ điều hành Windows 95/98 và Windows NT và các hệ điều hành đồ họa
22
Chương 3. Cơ sở lý thuyết
sau này. Sử dụng TAPI, các lập trình viên có thể tận dụng các hạ tầng hệ
thống điện thoại khác nhau bao gồm: PSTN (Public Switching Telephone

o
TAPI cung cấp khả năng truy cập những tính năng đặc trưng của bất
kỳ nhà cung cấp dịch vụ nào, với khả năng mở rộng được xây dựng
sẵn để cung cấp cho mạng điện thoại cũng như các tính năng truyền
thống.
o
TAPI cho phép người dùng thực hiện các cuộc gọi âm thanh và hình
ảnh qua mạng truyền thông dựa trên giao thức IP(Internet Protocol) sử
dụng giao thức H.323 và đàm thoại rộng lớn.
o
TAPI bao gồm QoS(Quality of Service) hỗ trợ cải tiến chất lượng
đàm thoại và khả năng quả lý mạng.
Các khả năng trên giúp TAPI có thể đồng nhất truyền thông điện thoại
truyền thống và truyền thông IP, nó hỗ trợ các chương trình làm việc hiệu quả
trên Internet hay Intranet giống như trên mạng điện thoại truyền thống. Hơn
nữa, phiên bản của TAPI hiện tại còn cung cấp khả năng tương thích với
phiên bản trước để hỗ trợ các chương trình được xây dựng trước đây.
Ứng dụng “HyperTerminal” được cung cấp trong hệ điều hành
Windows và các kết nối mạng là các chương trình truyền thông sử dụng
TAPI và chúng được cung cấp cùng với họ Microsoft Window Server 2003.
Dịch vụ fax, một chương trình truyền thông khác sử dụng TAPI hỗ trợ hầu
hết các tùy chọn cơ bản.
1.9.2 Lịch sử phát triển của TAPI
Phiên bản TAPI đầu tiên 1.3 được cài đặt thêm trên Windows 3.1
nhưng hiện nay nó không còn được hỗ trợ nữa mặc dù ta vẫn có thể tìm thấy
nó trên các đĩa thư viện MSDN.
24

Trích đoạn Hệ thống tổng hợp tiếng nói TTS (Text-To-Speech) Các phương pháp xử lý văn bản trong bài toán cụ thể Tổng hợp bằng phương pháp ghép nối Chọn lựa cụm từ thích hợp nhất Các thành phần của hệ thống
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status