BÀI GIẢNG XỬ LÝ TIẾNG NÓI
CAO QUYẾT THẮNG Trang 1
CNT45DH
GROUP
TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM
KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG MÔN HỌC
XỬ LÝ TIẾNG NÓI
CAO QUYẾT THẮNG Trang 3
CNT45DH
GROUP
MỞ ĐẦU
Tiếng nói là phƣơng tiện giao tiếp cơ bản nhất của loài ngƣời, nó hình thành và
phát triển song song với quá trình tiến hóa của loài ngƣời. Đối với con ngƣời, sử dụng lời
nói là một cách diễn đạt đơn giản và hiệu quả nhất. Ƣu điểm của việc giao tiếp bằng tiếng
nói trƣớc tiên là ở tốc độ giao tiếp, tiếng nói từ ngƣời nói đƣợc ngƣời nghe hiểu ngay lập
tức sau khi đƣợc phát ra. Bên cạnh đó, tiếng nói là cách giao tiếp đƣợc sử dụng rộng rãi
nhất – bất cứ ai (dĩ nhiên là trừ những ngƣời khuyết tật) cũng có thể nói đƣợc. Ngày nay,
nhờ sự phát triển của khoa học kỹ thuật, máy móc dần dần thay thế các lao động tay
chân. Tuy nhiên để điều khiển máy móc, con ngƣời phải làm khá nhiều thao tác tốn nhiều
thời gian và cần phải đƣợc đào tạo. Điều này gây trở ngại không ít đối với việc sử dụng
các máy móc, thành tựu khoa học kỹ thuật. Trong khi đó, nếu điều khiển máy móc thiết bị
bằng tiếng nói sẽ dễ dàng hơn. Nhu cầu điều khiển máy móc thiết bị bằng tiếng nói càng
bức thiết hơn đối với các thiết bị cầm tay, nhƣ: điện thoại di động, PC,…
Để cho máy tính có thể nghe đƣợc nhiều ngƣời đã vật lộn với tín hiệu âm thanh
trong hơn nửa thế kỷ qua trong lĩnh vực nhận dạng tiếng nói. Quá trình này đƣợc đánh
dấu bằng các kết quả nghiên cứu đặc sắc trong lĩnh vực phân tích và xử lý tiếng nói, các
ứng dụng thực tế khá hữu ích. Nhƣng dù sao, khả năng của máy vẫn vẫn còn trong
khoảng giới hạn, còn cần phát triển hơn nữa để có thể thật sự đáp ứng nhu cầu thực sự
của cuộc sống.
BÀI GIẢNG XỬ LÝ TIẾNG NÓI
quả cuối cùng là dạng sóng âm chứa thông tin trong thông báo gốc.
Thông tin đƣợc thông báo bằng tiếng nói về bản chất là rời rạc, có thể biểu diễn
bởi việc dán các phần tử ở một tập hợp hữu hạn các ký hiệu. Các ký hiệu mà mỗi âm có
thể đƣợc phân loại ra gọi là các âm vị (phoneme). Mỗi ngôn ngữ có tập hợp các âm vị
riêng của nó, con số mẫu mực là khoảng từ 30 đến 50. Ví dụ, tiếng Anh có thể biểu diễn
bằng khoảng 42 âm vị (chƣơng 3); tiếng Việt khoảng 33 âm vị (a, ă, â, b, c, d, đ, e, ê, f, g,
h, i, j, k, l, m, n, o, ô, ơ, p, q, r, s, t, u, ƣ, v, w, x, y, z; 12 nguyên âm, 21 phụ âm).
Trong lý thuyết thông tin ngƣời ta còn xét tốc độ truyền thông tin. Với tiếng nói, lƣu
ý đến các giới hạn vật lý của tốc độ chuyển động của bộ máy phát âm, đánh giá thô của
tốc độ thông tin là con ngƣời tạo ra tiếng nói với tốc độ trung bình khoảng 10 âm vị trong
1 giây. Nếu mỗi âm vị biểu diễn bằng một số nhị phân thì mã số 6 bit là quá đủ để biểu
diễn tất cả các âm vị tiếng Anh. Với tốc độ trung bình 10 âm vị trên giây và bỏ qua tƣơng
tác giữa các cặp âm vị liền kề, ta có ƣớc lƣợng 60 bit/giây cho tốc độ thông tin trung bình
của tiếng nói. Nói cách khác là lƣợng viết ra của tiếng nói chứa thông tin tƣơng đƣơng
với 60 bit/gy ở tốc độ nói chuẩn. Dĩ nhiên, cận dƣới của nội dung thông tin xác thực trong
tiếng nói đƣợc coi là cao hơn tốc độ này. Ƣớc lƣợng trên không tính đến các nhân tố nhƣ
trạng thái của ngƣời nói, tốc độ nói, âm hƣởng của tiếng nói, v. v... .
BÀI GIẢNG XỬ LÝ TIẾNG NÓI
CAO QUYẾT THẮNG Trang 5
CNT45DH
GROUP
Trong hệ thống truyền tiếng nói, tín hiệu tiếng nói đƣợc truyền đi, lƣu giữ và xử lý
bằng nhiều cách. Các giải pháp kỹ thuật cho ta nhiều cách biểu diễn tín hiệu tiếng nói. Có
2 cách chính:
- Lƣu giữ nội dung thông báo trong tín hiệu tiếng nói
- Biểu diễn tín hiệu tiếng nói dƣới dạng thuận tiện để truyền đi hoặc lƣu giữ, hoặc
dƣới dạng linh động để có thể sửa chữa mà không ảnh hƣởng đến nội dung thông báo.
Biểu diễn tín hiệu tiếng nói phải làm sao cho nội dung thông tin có thể dễ dàng lĩnh
Hình 1.1. Các bài toán thao tác và xử lý thông tin
Nhƣ vậy, xử lý các tín hiệu tiếng nói, nói chung, gồm 2 việc. Thứ nhất là phƣơng
tiện để nhận đƣợc biểu diễn tín hiệu tiếng nói nói chung, hoặc dƣới dạng sóng âm hoặc
dƣới dạng tham số. Thứ hai là xử lý tín hiệu, thực hiện việc chuyển tín hiệu thành các
dạng khác ít tổng quan hơn nhƣng thích hợp hơn cho các ứng dụng.
Nguồn Thông tin
Trích ra và Sử dụng Thông tin
Đo đạc hoặc Quan sát
Biểu diễn tín hiệu
Biến đổi tín hiệu
hiÖuTÝn
lýXö
BÀI GIẢNG XỬ LÝ TIẾNG NÓI
CAO QUYẾT THẮNG Trang 6
CNT45DH
GROUP
§3. XỬ LÝ TÍN HIỆU SỐ
Mục đích của môn học là khám phá vai trò của kỹ thuật số trong xử lý các tín hiệu
tiếng nói. Xử lý tín hiệu số tập trung vào 2 việc là nhận đƣợc các biểu diễn rời rạc của tín
hiệu và lý thuyết, thiết kế, thực hiện các thủ tục số để xử lý các biểu diễn rời rạc này. Đối
tƣợng của xử lý tín hiệu số là nhận biết các đối tƣợng trong xử lý tín hiệu tƣơng tự. Vì
vậy, một câu hỏi có lý là vì sao các kỹ thuật xử lý tín hiệu số lại đƣợc dùng để nghiên cứu
thông tin tiếng nói? Có thể nêu ra nhiều lý do để trả lời. Đầu tiên và quan trọng nhất là các
BÀI GIẢNG XỬ LÝ TIẾNG NÓI
CAO QUYẾT THẮNG Trang 7
CNT45DH
GROUP
§4. XỬ LÝ TIẾNG NÓI BẰNG SỐ
Khi xem xét ứng dụng của ký thuật xử lý tín hiệu số vào các bài toán truyền tiếng
nói, ta phải chú ý đến 3 chủ đề chính: biểu diễn các tìn hiệu tiếng nói dƣới dạng số, thực
hiện các kỹ thuật xử lý phức tạp và các lớp các ứng dụng dựa chủ yếu vào Xử lý tín hiệu
số.
Dĩ nhiên, việc biểu diễn các tín hiệu tiếng nói dƣới dạng số là chủ đề cơ bản. Về
việc này, chúng ta đƣợc hƣớng dẫn bằng định lý lấy mẫu (Sampling Theorem, H. Nyquist,
1928) phát biểu là: tín hiệu giới hạn dải (bandlimited) có thể được biểu diễn bởi các mẫu
lấy tuần hoàn theo thời gian, miễn là các mẫu được lấy ở tỷ lệ đủ cao. Nhƣ vậy, việc xử
lý mẫu nằm trọn trong lý thuyết và ứng dụng của xử lý tiếng nói bằng số. Có nhiều cách
biểu diễn rời rạc các tín hiệu tiếng nói. Nhƣ biểu diễn ở hình vẽ, các biểu diến này có thể
phân thành 2 nhóm lớn gọi là biểu diễn dạng sóng (waveform representation) và biểu
diễn tham số (parametric representation). Biểu diễn dạng sóng, nhƣ tên gọi chỉ ra,
quan tâm đến việc bảo toàn đơn giản "dạng sóng" của tín hiệu tiếng nói tƣơng tự
qua mẫu và xử lý về lƣợng. Các biểu diễn tham số, mặt khác, biểu diễn tín hiệu tiếng nói
nhƣ đầu ra của mô hình tạo tiếng nói. Bƣớc thứ nhất để nhận đƣợc biểu diễn tham số
Tổng hợp từ
Văn bản in
(Không mã hoá nguồn)
Biểu diễn Dạng Sóng
(Mã hoá nguồn)
Các biểu diễn Tham số
Hình 1. 3. Thứ hạng các tốc độ bits cho một số kiểu biểu diễn tiếng nói.
BÀI GIẢNG XỬ LÝ TIẾNG NÓI
CAO QUYẾT THẮNG Trang 8
CNT45DH
GROUP
Hình 1. 3 so sánh bằng số các biểu diễn khác nhau của tín hiệu tiếng nói theo tốc
độ dữ liệu. Đƣờng ngăn cách là ở tốc độ dữ liệu khoảng 15000 tách biểu diễn dạng sóng
tốc độ cao với các dạng tham số tốc độ thấp.
Các ứng dụng của
Thông tin tiếng nói
Truyền và
Lƣu giữ
bằng số
Tổng hợp
tiếng nói
Kiểm tra và
Nhận biết
dùng để nhận dạng tiếng nói hoặc nhận ra ngƣời nói trong một tập hợp lớn những ngƣời
nói có thể có. Khi có một tiếng nói phát ra, ngƣời ta dựa vào các dữ liệu đã có để kiểm tra
và nhận biết nguồn hoặc ngƣời phát ra tiếng nói.
4.4. Các hệ thống đoán nhận (recognition) tiếng nói: đƣợc D. R. Reddy đề nghị năm
1976. Việc đoán nhận tiếng nói, dƣới dạng chung nhất của nó, là chuyển đổi từ dạng
sóng âm thành bản viết của thông tin thông báo. Bài toán đoán nhận tiếng nói phụ thuộc
rất nhiều vào các ràng buộc đặt cho ngƣời nói, tình trạng nói và nội dung thông báo. Các
ứng dụng lớn của các hệ thống đoán nhận tiếng nói rất nhiều và đa dạng, chẳng hạn nhƣ
máy chữ điều khiển bằng tiếng nói, thông tin nói với các máy tính, v. v...Một hệ thống
đoán nhận tiếng nói kết hợp với một hệ thống tổng hợp tiếng nói tạo ra một hệ thống
truyền thông có tỉ lệ bit thấp tối đa (the ultimate low bit rate communica- tion system).
4.5. Các hệ thống giúp đỡ người tàn tật (Aids-to-the handicapped): Ứng dụng này tập
trung vào quá trình xử lý tín hiệu tiếng nói làm thông tin có dạng thích hợp với các ngƣời
BÀI GIẢNG XỬ LÝ TIẾNG NÓI
CAO QUYẾT THẮNG Trang 9
CNT45DH
GROUP
tàn tật, nhƣ ghi âm cho ngƣời mù; hiển thị hình ảnh của TTin tiếng nói để dạy cho ngƣời
điếc do H. Levitt đề nghị năm 1973.
4.6. Tăng cường chất lượng tín hiệu (Enhancement of signal quality): Ở nhiều tình huống,
tín hiệu tiếng nói bị suy giảm theo hƣớng hạn chế hiệu quả việc truyền đi, hoặc phải loại
bỏ tiếng vang, tiếng ồn khi nói. Ở các tình huống này các kỹ thuật xử lý tín hiệu số đƣợc
sử dụng để cải thiện chất lƣợng tiếng nói. Các ví dụ là khử bỏ nhiễu (hay tiếng ồn, tạp
âm) trong tiếng nói hoặc khôi phục các âm.
hiệu x
a
(nT). Hình 2.1 cho ví dụ tín hiệu tiếng nói biểu diễn ở cả 2 dạng tín hiệu tƣơng tự
(analog) và dạng dãy các mẫu (samples) có tỉ lệ mẫu 8 kHz.
Hình 2.1. Các biểu diễn của tín hiệu tiếng nói.
Khi nghiên cứu các hệ thống xử lý tín hiệu tiếng nói ta sẽ sử dụng một số dãy số
đƣợc vẽ ở hình 2.2. Mẫu đơn vị (unit sample) hay dãy xung đơn vị (unit impulse
sequence) đƣợc định nghĩa (định nghĩa) là: (n) =
00
01
n
n
Dãy bước đơn vị (unit step sequence) là: u(n) =
00
01
<n
n
Dãy luỹ thừa (exponential sequence) có dạng: x(n) = a
n
Nếu a là số phức, t. l. a = r.
0
j
e