tìm hiều lý thuyết nhận dạng tiếng nói và mô phỏng trên matlab - Pdf 26

TRƯӠNG ĐҤI HӐC SƯ PHҤM KӺ THUҰT TP.HCM
KHOA ĐiӊN_ĐiӊN TӰ
BӜ MÔN ĐiӊN TӰ ViӈN THÔNG
BÁO CÁO ĐӖ ÁN 2
Đ͘ TÀI:
TÌM HIӆU LÝ THUYӂT NHҰN DҤNG TIӂNG NÓI TÌM HIӆU LÝ THUYӂT NHҰN DҤNG TIӂNG NÓI
VÀ MÔ PHӒNG TRÊN MATLABVÀ MÔ PHӒNG TRÊN MATLAB
GVHD : Ths. Lê Minh Thành
SVTH : NguyӉn Minh Phú 07117043
Lê Hùng Dũng 07117014
CHƯƠNG I: LÝ THUYӂT
PHҪN 1: TӘNG QUAN Vӄ NHҰN DҤNG TIӂNG NĨI
1. Vấn đề nhận dạng tiếng nói là một vấn đề
lớn, nhiều nghiên cứu đã thực hiện trong vài
thập niên gần đây.
2. Nhận dạng tiếng đã được nghiên cứu hơn 40
năm qua.
3. Những nỗ lực đầu tiên được thực hiện từ
những năm 1950.
4. Từ đó đến nay, cùng với sự phát triển của
máy tính, kó thuật nhận dạng tiếng nói đã có
những sự tiến bộ vượt bậc, được thực hiện
CHƯƠNG I: LÝ THUYӂT
PHҪN 2: PHÂN LOҤI
1. Theo cách thức người nói, nói chung chia làm hai
loại:
- Nhận dạng từ rời rạc
- Nhận dạng từ liên tục
2. Dựa trên bộ từ vựng:
- Hệ thống từ vựng nhỏ
- Hệ thống mà các từ được đọc rời rạc

CHƯƠNG I
PHҪN 4: LÝ THUYӂT NHҰN DҤNG TIӂNG NĨI
- Nhận dạng tiếng nói là kỹ thuật nhận ra các
thành phần lời nói của con người.
- Việc nghiên cứu nhận dạng tiếng nói đã được
bắt đầu từ cuối thập niên 40, trong đó sự phát
triển nhanh chóng của máy tính đã đóng góp một
phần rất quan trọng.
- Trong công nghiệp, khi tay và mắt của con người
đã được tận dụng một cách triệt để, thì việc điều
khiển bằng giọng nói có một lợi thế rất lớn.
CHƯƠNG II:XӰ LÝ SӔ TÍN HIӊU
PHҪN 1: LҨY MҮU TÍN HIӊU
- Hàm lấy mẫu là cầu nói giữa các hệ thống
rời rạc và các hệ thống liên tục. Nó còn được gọi
là hàm Dirac Delta.
- Đối với máy tính, lấy mẫu chỉ dơn giản là cứ
theo chu kỳ thời gian (đối với tín hiệu âm thanh và
các dạng tương tự), hay là chu kỳ không gian (đối với
tín hiệu là ảnh và các dạng tương tự) ta đo tín hiệu
một lần.
- Quá trình trên sẽ tạo ra một chuỗi các số biểu
CHƯƠNG II:XӰ LÝ SӔ TÍN HIӊU
PHҪN 2: BӜ LӐC TÍN HIӊU
Bộ lӑc có vai trò rất quan trọng trong xử lý tiếng nói,
chúng được dùng với 2 mục đích chính:
- Tách tín hiệu cần thiết.
- Khôi phục các tín hiệu bò biến dạng.
. Bộ lọc đáp ứng xung hưu hạn (Finite
Impulse Répóne ± FIR).

từng frame.
- Cửa sổ chữ nhật dài 10-30ms là phù hợp cho
mục đích này.
CHƯƠNG III:TRÍCH ĐҺC TRƯNG
TIӂNG NĨI
PHҪN 2: PHÁT HIӊN ĐIӆM ĐҪU, ĐIӆM CUӔI CӪA MӜT TӮ
- Một trong những vấn đề cơ bản của xử lý tiếng
nói là xác đònh điểm bắt đầu và kết thúc
của một từ.
- Chúng ta sử dụng thuật toán phát hiện điểm đầu
điểm cuối của một từ căn cứ vào hàm năng
lượng thời gian ngắn.
- Phương pháp này tuy đơn giản nhưng có nhược
điểm là không xác đònh được chính xác được mẫu
nào trong FRAME là mẫu thực sự bắt đầu cho tín
hiệu tiếng nói và tương tự cho điểm cuối.
- Phương pháp này không còn chính xác nêu môi
CHƯƠNG III:TRÍCH ĐҺC TRƯNG
TIӂNG NĨI
PHҪN 3: TIӄN NHҨN (PREEMPHASIS)
- Chúng ta biết rằng phổ tiếng nói hữu thanh có
khuynh hướng suy giảm toàn bộ -6dB/octave khi tần
số tăng lên.
- Do đó cần phải bù +6dB/octave trên toàn bộ
băng tần. Điều này được gọi là preemphasis tín hiệu.
- Trong xử lý tín hiệu số, chúng ta dùng bộ lọc
thông cao có tần số cắt 3dB ở tần số trong phạm vi
từ 100Hz đến 1kHz.
CHƯƠNG III:TRÍCH ĐҺC TRƯNG
TIӂNG NĨI

biến đổi rời rạc.
CHƯƠNG III:TRÍCH ĐҺC TRƯNG
TIӂNG NĨI
PHҪN 5: WINDOWING (CӰA SӘ HĨA)
3. Lọc qua bộ lọc Melscale:
- Tín hiệu (của một frame) sau khi nhân với hàm
cửa sổ, được chuyển sang miền tần số bằng biến
đổi rời rạc.
- Là số phức, tuy nhiên thành phần pha không quan
trọng nên ta chỉ quan tâm đến thành phần thực.
4. Tính log năng lượng phổ:
- Sau khi qua bộ lọc mel, phổ tín hiệu Yt(m) sẽ được
tính Log10
CHƯƠNG III:TRÍCH ĐҺC TRƯNG
TIӂNG NĨI
PHҪN 5: WINDOWING (CӰA SӘ HĨA)
5. Biến đổi Fourier ngược-IDFT
- Bước cuối cùng để thu được các hệ số MFCC là
lấy biến đổi Fourier ngược của kết qua.
- Thông thường số điểm rời rạc k của biến đổi
ngược này được chọn.
- Các hệ số MFCC này rất ổn đònh theo các
segment nên nếu được chọn làm đặc trưng để nhận
dạng thì sẽ cho kết quả tốt.
CHƯƠNG IV:LƯӦNG TӰ VECTOR
- Khi phân tích đặc trưng tiếng nói, chúng ta nhận được
các vector đặc trưng là đặc tính phổ biến thiên theo
thời gian của tín hiệu tiếng nói.
- Do mô hình HMM rời rạc được sử dụng để nhận dạng
nên các vector phổ này phải được ước lượng

- Mỗi vector là phổ là 24 hệ số MFCC của 1 frame
tiếng nói.
- Các từ được ghi âm bởi 1 người nói trong điều kiện
phòng yên tónh.
CHƯƠNG IV:LƯӦNG TӰ VECTOR
PHҪN 3: ĐO ĐӜ MÉO
- Thành phần quan trọng nhất của các thuật toán đối
sánh mẫu là độ đo giữa 2 vector đặc tính.
- Trong nhận dạng tiếng nói, người ta thường sử dụng
độ đo Euclidean
- Độ đo này dùng trong khâu phân lớp, gắn nhãn
vector phổ.
CHƯƠNG IV:LƯӦNG TӰ VECTOR
PHҪN 4: PHÂN NHĨM CÁC VECTOR ĐO HUҨN LUYӊN
1. Giải thuật cụm thông tin (Cluster Algorithm):
- Khởi tạo
- Tìm lân cận gần nhất
- Cập nhật nhân
- Đệ qui
Điều bất lợi của thuật toán này là chúng ta phải
ước lượng thật tốt điểm khởi đầu của các vector
codeword. Đây là vấn đề khó khăn.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status