TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
--------------------*-------------------
BÁO CÁO
ĐỒ ÁN TỐT NGHIỆP
ĐỀ TÀI
NHẬN DẠNG TIẾNG NÓI RỜI RẠC DÙNG MÔ HÌNH MARKOV ẨN VÀ MẠNG NƠ-RON NHÂN TẠO
NỘI DUNG CHÍNH
1.
2.
3.
4.
5.
6.
7.
8.
9.
Đặt vấn đề
Mục tiêu của đồ án
Tổng quan về nhận dạng tiếng nói
Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói
Mô hình Markov ẩn trong nhận dạng tiếng nói
Mạng nơ-ron nhân tạo
Thực hiện nhận dạng tiếng nói rời rạc dùng mô hình Markov ẩn
Giới thiệu công cụ Kaldi
Tìm hiểu công cụ Kaldi để thực hiện nhận dạng tiếng nói.
4
3. TỔNG QUAN VỀ NHẬN DẠNG TiẾNG NÓI
Nhận dạng tiếng nói:
o
o
Là làm cho máy hiểu, nhận biết được ngữ nghĩa của lời nói.
Là quá trình biến đổi tín hiệu âm thanh thành một chuỗi các từ
5
3. TỔNG QUAN VỀ NHẬN DẠNG TiẾNG NÓI
Cấu trúc của một hệ thống nhận dạng tiếng nói:
Có 3 phương pháp:
Mô hình LPC
)
Phân khung tín hiệu:
Lấy cửa sổ tín hiệu
Hiệu chỉnh tín hiệu:
8
4. Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói
a)
)
Mô hình LPC
)
Phân tích LPC
Phân tích tự tương quan:
Dùng thuật toán Levinson – Durbin
4. Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói
b)
)
)
Phương pháp MFCC
Dựa trên việc chuyển đổi dữ liệu âm thanh đầu vào về thang đo tần số mel
Quá trình trích rút đặc trưng:
11
4. Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói
b)
)
Phương pháp MFCC:
)
Chuyển đổi tấn số mel, tạo các bộ lọc tam giác
Biến đổi Fourier nhanh:
12
4. Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói
b)
)
)
Ma trận xác suất khởi tạo:
Tập các trạng thái:
Tập các quan sát:
Chuỗi các trạng thái có thể xảy ra:
Chuỗi các quan sát có thể quan sát được:
Ma trận chuyển đổi:
Một mô hình HMM được ký hiệu :
14
5. Mô hình markov ẩn trong nhận dạng tiếng nói
b)
)
Các vấn đề của HMM
Vấn đề 1:
o
o
Cho chuỗi quan sát
và mô hình
o
Cho chuỗi quan sát
và mô hình
, chọn chuỗi
tối ưu theo nghĩa xác suất.
Thuật toán Viterbi: với
17
5. Mô hình markov ẩn trong nhận dạng tiếng nói
b)
)
Các vấn đề của HMM
Vấn đề 3: Xác định các tham số λ = (A, B, π) để P(O|λ) đạt cực đại?
18
6. Mạng nơ-ron nhân tạo
Mạng nơ-ron nhân tạo (Artificial neural network – ANN)
Các trọng số: wji
o
Độ lêch: cj
o
Đầu vào tổng thể
(net - input): aj
o
Hàm tác động: g(x)
o
Đầu ra của nơ-ron: hj
Hàm tác động:
o
Thường là hàm sigmoid:
20
Lỗi học gây ra bởi vector trọng số w đối với toàn bộ tập học D:
22
6. Mạng nơ-ron nhân tạo
Mạng nơ-ron nhiều tầng và giải thuật lan truyền ngược:
Có thể biểu diễn một hàm phân tách phi tuyến phức tạp
Giải thuật học lan truyền ngược được sử dụng để học trong một mạng:
o
o
Cấu trúc mạng cố định
Hàm tác động phải có đạo hàm liên tục
Giải thuật lan truyền ngược áp dụng chiến lược gradient descent
Giải thuật học lan truyền ngược tìm kiếm một vector các trọng số giúp cực tiểu lỗi tổng thể của hệ thống đối với tập học.
23
6. Mạng nơ-ron nhân tạo
Bước 3: Tính toán lỗi đầu ra của mạng và tín hiệu lỗi δiQ của mỗi nơ-ron ở tầng ra:
Bước 4: Lan truyền ngược lỗi để cập nhật các trọng số và tính toán các tín hiệu lỗi δiq-1 cho các tầng phía trước:
25