Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T - Engine SH7760 - Pdf 12

Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 1
LỜI NÓI ĐẦU 3
PHẦN I 4
GIỚI THIỆU T-ENGINE SH7760 4
1.1 Đặc tả T-Engine. 5
1.2 Mô hình tổng quan. 6
1.3 Giao diện của SH7760. 8
PHẦN II 9
TÔNG QUAN VỀ TÍN HIỆU TIẾNG NÓI 9
2.1 Quá trình phát âm. 10
2.2 Biểu diễn tín hiệu tiếng nói. 11
2.3 Âm vị trong tiếng nói. 13
2.4 Kết luận. 15
PHẦN III 16
NHẬN DẠNG TIẾNG NÓI TRÊN T-ENGINE 16
3.1 Tổng quan. 16
3.2 Phân tích tham số đặc trưng của tín hiệu tiếng nói. 19
3.2.1 Ghi âm và tiền xử lý tín hiệu. 20
3.2.2 Loại bỏ khoảng lặng. 22
3.2.3 Phân khung và hàm cửa sổ. 24
3.2.4 Tách tham số đặc trưng. 26
3.2.5 Đánh giá năng lượng. 30
3.2.6 Các tham số tức thời (tham số động). 31
3.2.7 Hiệu chỉnh kết quả. 33
3.2.8 Kết luận. 34
3.3 Ứng dụng mô hình Markov trong nhận dạng tiếng nói. 34
3.3.1 Tổng quan về HMM. 35
3.3.2 Lựa chọn mô hình Markov cho ứng dụng nhận dạng tiếng nói. 47
PHẦN IV 53
TỔNG HỢP TIẾNG NÓI TRÊN T-ENGINE 53
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 2

Xây dựng hệ tổng hợp và nhận dạng tiếng Việt trên hệ nhúng để thực hiện, với
mong muốn những nghiên cứu của mình sẽ đóng góp một phần trong quá trình
phát triển của các ứng dụng tương tác người-máy, cũng như là một tài liệu tham
khảo tốt đối với các đề tài khác về sau. Bên cạnh việc tìm tòi, tối ưu hóa các giải
thuật đã được chứng minh và sử dụng rộng rãi trong các bài toán nhận dạng và
tổng hợp tiếng Việt, trong đề tài của mình tác giả cũng đề ra cách tiếp cận mới
trong bài toán tổng hợp nhằm nâng cao chất lượng của tiếng Việt tổng hợp,
đồng thời cũng đưa ra phương án xây dựng hệ thống kết hợp nhận dạng và tổng
hợp tiếng Việt trên hệ nhúng T-Engine được sử dụng cho các ứng dụng tương tác
người – máy sử dụng tiếng nói. Với các nhiệm vụ được đề ra , bản thuyết minh đề
tài được tác giả trình bày theo bố cục sau:
Phần I: Giới thiệu T-Engine SH7760 Trong phần này tác giả sẽ giới thiệu
tổng qua về các thành phần của hệ nhúng T-Engine SH7760
Phần II: Tổng quan về tín hiệu tiếng nói Trong phần này tác giả trình bày
các lý thuyết cơ sở về tiếng nói và xử lý tín hiệu tiếng nói
Phần III: Nhận dạng tiếng nói trên T-Engine Phần này sẽ cung cấp các
lý thuyết về phân tích đặc trưng tín hiệu tiếng nói và mô hình nhận dạng
mẫu được sử dụng, đồng thời cũng đưa ra mô hình thực thi một hệ thống
nhận dạng với phần cứng và phần mềm trên hệ nhúng T-Engine và các vấn
đề cân khắc phục khi cài đặt hệ trên T-Engine.
Phần IV: Tổng hợp tiếng nói trên T-Engine Phần IV sẽ mô tả giải thuật
PSOLA được sử dụng trong tổng hợp tiếng Việt, tác giả cũng chỉ ra trong
phần này các vấn đề khi áp dụng PSOLA đối với tiếng Việt, trên cơ sở đó
đề ra phương án để nâng cao chất lượng tổng hợp với tiếng Việt.
Phần V: Đánh giá kết quả và hướng phát triển Trong phần này tác giả sẽ
đánh giá những công việc đã đạt được, những hạn chế và giải pháp khắc
phục.
Hà Nội, ngày 7 tháng 11 năm 2007-11-07
Thực hiện đề tài
Lã Thế Vinh

(x 12)
(External): 66MHz (x 4)
Mạch: 256-pin BGA
Flash memory
Dung lượng: 8MB
MBM29DL640E90TN (Fujitsu) x 1
SDRAM
Dung lượng: 64MB
EDS2516APTA-75 (ELPIDA) x 2
PC Card I/F
Một khe
Controller: MR-SHPC-01 V2T
(Marubun)
Mạch: 144pin TQFP
Serial I/F Controller gồm 2 kênh:
ST16C2550CQ48 (EXAR)
Package: 48pin TQFP
-Kênh A:
H8/3048F-
ONE I/F
-Kênh B: Theo
dõi việc gỡ lỗi
Sound Tên model: UDA1342TS (Philips)
Mạch: 28pin SSOP
SSI tích hợp
trên SH7760
được sử dụng
để vận chuyển
dữ liệu. IIC
trên SH7760

H8/3048F-
ONE
Mạch: 10pin SSOP-G
Màn hình cảm
ứng I/F
Tên Model: ADS7843 (TI) Package:
16pin SSOP
Thông qua
H8/3048F-
ONE (Được
gắn trên bảng
mạch LCD)
Serial EEPROM
Dung lượng: 512 bytes Thông qua
H8/3048F-
ONE
Tên model: S-29391AFJA (SII)
Điều khiển từ xa
hồng ngoại
Bộ phát: Thông
quaH8/3048F-
ONE
Tên model: GL100MN0MP (SHARP)
Sóng mang: 38KHz
Bộ thu:
Tên model: GP1UC101 (SHARP)
Sóng mang: 38KHz
1.2Mô hình tổng quan.
Sơ đồ khối tổng quan của T-Engine được chỉ ra như ở hình dưới đây:
Hình 1.1 – Sơ đồ khối tổng quan của T-Engine

Hình 2.1 – Quá trình giao tiếp bằng tiếng nói
Người nói Người nghe
Hình thành nội dung
Phát âm
Tín hiệu tiếng nói
DE. Cảm nhận và diễn dịch
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 10
Sơ đồ trên có thể được mô tả như sau: trước tiên người nói hình thành nội dung hội
thoại trong não bộ (A), những thông tin này sẽ tạo ra các xung thần kinh điều
khiển bộ phận phát âm (dây thanh, khoang miệng, khoang mũi ) để tạo ra tín hiệu
tiếng nói(B), thực chất là sự lan truyền của áp suất thay đổi trong không gian (C),
trong quá trình lan truyền trong không gian, tín hiệu tiếng nói có thể cộng hưởng
hoặc triệt tiêu với các tín hiệu khác tạo ra một tín hiệu có nhiễu với dạng sóng
tương đối phức tạp, tín hiệu truyền đến tai người nghe tạo ra sự dao động màng nhĩ
nhờ đó người nghe cảm nhận được tiếng nói (D) tiếp theo là quá trình phân tích
ngữ nghĩa diễn ra tại não bộ(E).
Từ các phân tích nêu trên, ta thấy rằng một vấn đề đặt ra trong nhận dạng tiếng nói
đó là: làm thế nào ta có thể mô phỏng quá trình cảm nhận tiếng nói của con người
bắt đầu từ khâu thu nhận tín hiệu(D) đến khâu phân tích ngữ nghĩa(E). Một vấn đề
cần được chú ý đó là quá trình cảm nhận của con người là hoàn toàn không tuyến
tính, chi tiết hơn ta sẽ nói ở trong phần sau.
2.1 Quá trình phát âm.
Hình 2.2 – Cơ quan phát âm
Khi con người phát âm, không khí được đẩy từ phổi qua khí quản, luồng không khí
chuyển động làm cho dây thanh rung kết hợp với hình dạng của tuyến âm, môi,
lưỡi đóng vai trò như các bộ cộng hưởng và các bộ lọc sẽ tạo ra các âm thanh
khác nhau. Người ta có thể mô hình hóa toàn bộ quá trình phát âm bởi các mô hình
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 11
toán học khác nhau. Dưới đây là một ví dụ mô hình toàn điểm cực được dùng
nhiều trong nghiên cứu tiếng nói:

thu được nhiều thông tin nhất từ hình biểu diễn. Một trong những phương pháp
biểu diễn được dùng nhiều nhất và đó là cách biểu diễn tín hiệu trên miền kết hợp
thời gian và tần số. Thực chất của cách biểu diễn này là biểu diễn tín hiệu trên
miền tần số (2) nhưng được thực hiện với các đoạn tín hiệu ổn định (thời gian đủ
ngắn) theo thời gian. Các giá trị biên độ được thể hiện bằng màu sắc.
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 13
Hình 2.6 – Biểu diễn tín hiệu tiếng nói trên miền kết hợp
2.3 Âm vị trong tiếng nói.
Chúng ta biết rằng khi con người kết thúc việc hình thành nội dung cần phát
âm, một câu nói hoàn chỉnh sẽ được xây dựng bằng cách chọn và tổng hợp các đơn
vị cơ bản của tiếng nói để hình thành nên các từ phát âm hoàn chỉnh. Về mặt hình
thức điều này có thể ví dụ như cách đánh vần của trẻ khi học bắt đầu học chữ. Các
đơn vị cơ bản đó được gọi là các âm vị. Trong tiếng Việt hiện có khoảng 23 âm vị
là phụ âm và 16 âm vị là nguyên âm. Âm vị có thể xem như một trong những
phương pháp mà con người biểu diễn các phần khác nhau của một tín hiệu tiếng
nói liên tục và nó chia tín hiệu tiếng nói thành các đoạn con, điều đó có thể sẽ
mang lại những thuận lợi nhất định khi thực hiện các nghiên cứu về tiếng nói ví dụ
như trong các bộ nhận dạng tiếng nói với số lượng từ lớn hoặc trong tổng hợp
tiếng nói.
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 14
Hình 2.7 – Bảng các âm vị là phụ âm
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 15
Hình 2.8 – Bảng các âm vị là nguyên âm
2.4 Kết luận.
Trong phần này chúng ta đã tìm hiểu một cách sơ bộ về tiếng nói và một số
vấn đề liên quan đến tín hiệu tiếng nói như: sự hình thành, biểu diễn và các thành
phần. Những hiểu biết cơ bản trên đặc biệt là những đặc điểm của hệ thống cảm
thụ tiếng nói của con người (tính không tuyến tính) và sự hợp thành của các âm
vị để tạo ra tiếng nói hoàn chỉnh sẽ là một trong những nền tảng quan trọng để tiếp
cận đến các nghiên cứu sâu hơn về tiếng nói.

• Phương pháp ứng dụng trí tuệ nhân tạo.
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 17
Phương pháp âm học - ngữ âm học
Phương pháp này dựa trên lý thuyết về âm học - ngữ âm học cho rằng tồn tại các
đơn vị ngữ âm xác định, có tính phân biệt trong lời nói và các đơn vị ngữ âm đó
được đặc trưng bởi một tập các đặc tính tín hiệu tiếng nói. Bước đầu tiên trong
nhận dạng tiếng nói theo phương pháp này là phân đoạn và gán nhãn. Bước này
chia tín hiệu tiếng nói thành các đoạn có đặc tính âm học đặc trưng cho một (hoặc
một vài) đơn vị ngữ âm, đồng thời gán cho mỗi đoạn âm thanh đó một hay nhiều
nhãn ngữ âm phù hợp. Bước tiếp theo (bước nhận dạng) dựa trên một số điều kiện
ràng buộc về từ vựng, ngữ pháp, để xác định ra một từ hoặc một chuỗi từ đúng
trong số một chuỗi các nhãn ngữ âm được tạo ra sau bước thứ nhất.
Phương pháp nhận dạng mẫu
Phương pháp này không cần xác định đặc tính âm học hay phân đoạn tiếng nói mà
sử dụng trực tiếp các mẫu tín hiệu tiếng nói trong quá trình nhận dạng. Các hệ
thống nhận dạng tiếng nói theo phương pháp này được phát triển theo 2 bước. Ở
bước thứ nhất, hệ thống sử dụng một tập mẫu tiếng nói (cơ sở dữ liệu tiếng nói) để
huấn luyện tạo ra các mẫu tiếng nói đặc trưng (mẫu tham chiếu). Bước thứ hai hệ
thống nhận các mẫu tiếng nói từ bên ngoài, so sánh chúng với các mẫu đặc trưng
để nhận dạng.
Trong phương pháp này, nếu cơ sở dữ liệu tiếng nói dùng cho huấn luyện có đủ
các phiên bản của mẫu cần nhận dạng thì quá trình huấn luyện có thể xác định
chính xác các đặc tính âm học của mẫu (mẫu ở đây có thể là âm vị, từ, cụm từ, ).
Trước đây, đối với các hệ thống nhận dạng tiếng nói là các từ rời rạc, vốn từ vựng
cỡ nhỏ thì người ta thường áp dụng các kĩ thuật nhận dạng mẫu đơn giản như :
lượng tử hóa vector, hiệu chỉnh thời gian động, Hiện nay có hai kĩ thuật nhận
dạng mẫu được áp dụng khá thành công trong lĩnh vực nhận dạng tiếng nói, đó là
mô hình Markov ẩn và mạng Neural.
Một số đặc điểm của phương pháp nhận dạng mẫu :
 Hiệu năng của hệ thống rất nhạy cảm đối với số dữ liệu mẫu đưa vào

3.2 Phân tích tham số đặc trưng của tín hiệu tiếng nói.
Trong các phần trên chúng ta đã tìm hiểu cơ chế phát âm của con người qua đó ta
biết rằng để phát ra một âm con người phải phối hợp nhịp nhàng nhiều cơ quan
khác nhau bắt đầu từ não cho đến dây thanh, khoang miệng, khoang mũi, môi,
trong số đó nhiều cơ quan đóng vai trò như các bộ cộng hưởng hay các bộ lọc
thông cao (môi) do đó hình dạng vị trí của các cơ quan này sẽ đóng vai trò quyết
định đến âm được tao ra, như vậy có thể hiểu một cách nôm na là mỗi một âm phát
ra đều có một cấu hình về hình dạng và bố trí các cơ quan phát âm khác nhau, đó
là cái đặc trưng cho mỗi âm. Trong phần này chúng ta sẽ trình bày một số phương
pháp phân tích các tham số đặc trưng của tín hiệu tiếng nói, các tham số đặc trưng
này sẽ là một phần không thể thiếu của một hệ thống nhận dạng tiếng nói (nhận
dạng nội dung, nhận dạng người nói ). Có rất nhiều phương pháp phân tích tham
số đặc trưng khác nhau, tuy nhiên có thể mô tả tổng quát các phương pháp này bởi
sơ đồ sau:
T-Engine
SH7760
Micro
Huấn luyện và
tạo CSDL trên
PC
Mô hình
Đối sánh mẫu
Tách tham số
đặc trưng
CSDL mẫu
Tách tham số
đặc trưng
Quyết định nhận dạng
PHA HUẤN LUYỆN
PHA

MIC
Tín
hiệu
tiếng
nói sau
khi lấy
mẫu lại
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 21
Hình 3.4 – Ghi âm trên T-Engine sử dụng UDA1342
Chờ ngắt Idle từ SSI
Kết thúc
Dừng SSI, ngắt dữ liệu,
ngắt lỗi, cho phép ngắt Idle
Đọc dữ liệu từ thanh ghi nhận
dữ liệu
Sử dụng các bit trong SSISR để
tổ chức lại dữ liệu sau khi tràn
Bắt đầu
Thoát t/thái thiết lập lại, cấu
hình các bit trong SSICR
Truyền tiếp?
Đúng
Sai
Chờ ngắt từ SSI
Cho phép SSI, ngắt dữ liệu,
các ngắt lỗi
Ngắt
dữ liệu?
Đúng
Sai

một đoạn tín hiệu tiếng nói hay nói cách khác là bài toán loại bỏ khoảng lặng trong
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 23
tín hiệu. Những kết quả tồi tệ của bài toán loại bỏ khoảng lặng, ví dụ như: tín hiệu
tiếng nói bị cắt cụt quá nhiều hoặc có lẫn quá nhiều khoảng lặng sẽ làm sai lệch
kết quả nhận dạng. Bài toán này thoạt nghe có vẻ tầm thường nhưng thực tế lại là
một trong những bài toán rất khó trong thực tế đặc biệt là trong những môi trường
có độ ồn cao, mặt khác tốc độ cũng là một vấn đề khi thực hiện các giải thuật loại
bỏ khoảng lặng thời gian thực, để không xảy ra khả năng bị mất mẫu khi ghi âm có
kết hợp dò tìm khoảng lặng thì tốc độ thực thi của giải thuật phải không được phép
chậm hơn tốc độ lấy mẫu, tức là không quá 1 giây xử lý 44100 mẫu trên T-Engine,
đây thực sự cũng là một trong những bài toán tối ưu tương đối khó khăn so
với việc cài đặt các hệ nhận dạng trên máy tính PC.
Thông thường bài toán này được giải quyết nhờ sử dụng hàm năng lượng ngắn hạn
hoặc tần suất vượt điểm không của tín hiệu. Các đại lượng này được tính như sau:
2
1
2
1
1
1
( ) ( ) (3.2)
( ) ( ) (3.3)
1 | sgn[ ( )] - sgn[s(n-1)]
( ) (3.4)
2
m
S
n m L
m
S


Các đại lượng nói trên được tính cho mỗi khung tín hiệu có độ dài trong khoảng
vài chục ms (thông thường chọn 20-30 ms). Các giá trị năng lượng ngắn hạn E sẽ
lớn trong khoảng tín hiệu tiếng nói và nhỏ trong khoẳng tín hiệu lặng. Trong khi
đó giá trị Z hay tần suất vượt điểm không đánh giá số lần chuyển đổi của tín hiệu
qua giá trị 0 có xu hướng lớn trong khoảng tín hiệu lặng. Với giả thiết rằng 10
khung tín hiệu đầu tiên là khoảng lặng, giải thuật loại bỏ khoảng lặng được tiến
hành như sau:
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 24
s
W ( ) ( )(1 ( )) (3.6)
s s c
m P m Z m S
= −
Với giá trị S
c
cỡ khoảng 1000.
Ngưỡng kích hoạt cho hàm W được tính bởi:
W w w
t
µ αδ
= +
, trong đó
µ
,
δ
tương
ứng là giá trị trung bình và phương sai của W tính cho 10 khung tín hiệu đầu tiên,
α là một hằng số được định nghĩa bởi:
0.8

chồng nhau khoảng 1/3 độ dài.
Hình 3.8 – Phân khung tín hiệu
Tuy nhiên vấn đề khi phân khung đó chính là sai số của các phép biến đổi so với
tín hiệu gốc, do đó người ta cố gắng sử dụng hàm cửa sổ để hạn chế các sai số do
độ dài hữu hạn của tín hiệu gây ra trong các phép biến đổi. Hàm cửa sổ thường
được dung là Hamming được cho bởi công thức sau:
2 k
w(k) = 0.54 - 0.46cos( ) (3.8)
K - 1
π
Hình 3.9 – Hàm cửa sổ Hamming

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T - Engine SH7760 - Pdf 12

Tài liệu, ebook tham khảo khác

Học thêm