Tài liệu Nhận dạng tiếng nói bằng mạng Nơron - Pdf 97

Nhận dạng tiếng nói bằng mạng Nơron nhân tạo
Mạng nơ ron (Neuron Netwok) là một công cụ có khả năng giải quyết
được nhiều b
ài toán khó, thực tế những nghiên cứu về mạng nơ ron
đưa ra một cách tiếp cận khác với những cách tiếp cận truyền thống
trong lý thuyết nhận dạng. Trong khuôn khổ bài báo này tác giả mong
muốn được thảo luận về 1 phương pháp nhận dạng tiếng nói sử dụng
mạng nơ ron.
Mở đầu
Đã có nhiều công trình nghiên cứu về lĩnh vực nhận dạng tiếng nói (Speech
recognition) trên cơ sở lý thuyết các hệ thống thông minh nhân tạo, nhiều kết
quả đã trở thành sản phẩm thương mại như ViaVoice, Dragon , các hệ
thống bảo mật thông qua nhận dạng tiếng nói các hệ quay số điện thoại bằng
giọng nói Triển khai những công trình nghiên cứu và đưa vào thực tế ứng
dụng vấn đề này là một việc làm hết sức có ý nghĩa đặc biệt trong giai đoạn
công nghiệp hoá hiện đại hoá hiện nay của nước nhà.
M
ạng nơ ron (Neuron Netwok) là một công cụ có khả năng giải quyết được
nhiều bài toán khó, thực tế những nghiên cứu về mạng nơ ron đưa ra một
cách tiếp cận khác với những cách tiếp cận truyền thống trong lý thuyết nhận
dạng. Trong khuôn khổ bài báo này tác giả mong muốn được thảo luận về 1
phương pháp nhận dạng tiếng nói sử dụng mạng nơ ron với:
- Phương pháp mã dự đoán tuyến tính LPC (Linear Predictive Coding) được
sử dụng trong việc trích trọn những đặc trưng cơ bản của tiếng nói.
- Mạng nơ ron lan truyền ngược hướng (Back-propagation Neural Network)
được sử dụng để học mẫu và ra quyết định đối tượng nhận dạng.
Xử lý tín hiệu tiếng nói
Quá trình tiền xử lý tín hiệu là chuyển tiếng nói từ dạng sóng (wave form
representation) sang dạng biểu diễn tham số (parametric form
representation). Các tham số biểu diễn tín hiệu tiếng nói có thể là: năng
lượng thời gian ngắn (short ti

Trong đó u(n) là nguồn kích thích đã chuẩn hoá và G là hệ số khuyếch đại
kích thích. Nguồn kích thích đã chuẩn hoá đem nhân tỷ lệ với hệ số khuyếch
đại G và đưa vào hệ thống toàn điểm cực để tạo ra tín hiệu tiếng nói. Mặt
khác, ta biết rằng hàm kích thích phải là xung tuần hoàn (đối với âm hữu
thanh) hoặc là nguồn nhiễu ngẫu nhiên (đối với âm vô thanh). Đối với mô
hình này, nguồn kích thích là một công tắc được điều khiển bởi đặc tính hữu
thanh/vô thanh của tiếng nói tương ứng cho phép chọn xung tuần hoàn hoặc
nhiễu ngẫu nhiên. Mức khuếch đại kích thích G được đánh giá trực tiếp từ
tín hiệu tiếng nói. Đối với mô hình LPC, các tham số là sự phân lớp âm hữu
thanh/âm vô thanh, vị trí đỉnh âm tiết và các hệ số bộ lọc {a
k
}.
N
ếu gọi là tổ hợp tuyến tính của các mẫu quá khứ:
thì sai số tiên đoán tuyến tính được định nghĩa:
e(n)=
Vấn đề cơ bản của phương pháp LPC là xác định các hệ số tiên đoán sao cho
các đặc tính phổ của bộ lọc số trong mô h
ình tổng hợp tiếng nói phù hợp với
dạng sóng tiếng nói trong cửa sổ phân tích. Do đặc tính biến thiên theo thời
gian của phổ tín hiệu tiếng nói nên các hệ số tiên đoán tại thời điểm n phải
được đánh giá trong khoảng thời gian ngắn gần với n. Do đó, cách tiếp cận
cơ bản để xác định các hệ số tiên đoán là tối thiểu hoá sai số b
ình phương
tiên đoán tuyến tính trong một đoạn sóng tiếng nói ngắn. Thông thường,
trong xử lý tiếng nói phép phân tích phổ thời gian ngắn được thực hiện trên
các khung ti
ếng nói liên tiếp với khoảng cách mỗi khung là 10 ms.
Lý thuyết nhận dạng và mạng nơ ron
Nhận dạng (Pattern Recognition)

, x
n
), cácx
i

R (thuộc tập số)
Gọi  là không gian biểu diễn đối tượng:
 = {X
1
, X
2
, , X
m
}
G
ọi  là không gian diễn dịch, hay là tập các tên gọi của các lớp c
1
,c
2
, ,c
n
:
= {w
1
, w
2
, , w
n
}
Như vậy quá trình nhận dạng đối tượng là tìm qui luật ánh xạ từ không gian

nhận cùng một vector vào X để xử lý tại cùng một thời điểm. Việc sản sinh
ra tín hiệu ra của mạng xuất hiện cùng một lúc. Vì mỗi nơ ron có một tập
trọng số khác nhau nên có bao nhiêu nơ ron sẽ sản sinh ra bấy nhiêu tín hiệu
ra khác nhau. Một nhóm các nơ ron như vậy được gọi là một lớp mạng.
Chúng ta có thể kết hợp nhiều lớp mạng tạo ra một mạng có nhiều lớp, lớp
nhận tín hiệu đầu vào (vector tín hiệu vào x) được gọi là lớp vào (input
layer). Trên th
ực tế chúng thực hiện như một bộ đệm chứa tín hiệu đầu vào.
Các tín hi
ệu đầu ra của mạng được sản sinh ra từ lớp ra của mạng (output
layer). Bất kỳ lớp nào nằm giữa 2 lớp mạng trên được goi là lớp ẩn (hidden
layer) và nó là thành phần nội tại của mạng và không có tiếp xúc nào với
môi trường b
ên ngoài. Số lượng lớp ẩn có thể từ 0 đến vài lớp. Mô hình nơ
ron nhân tạo đòi hỏi 3 thành phần cơ bản sau:
- Tập trọng số liên kết đặc trưng cho các khớp thần kinh.
- Bộ cộng (Sum) để thực hiện phép tính tổng các tích tín hiệu vào với trọng
số liên kết tương ứng
- Hàm kích hoạt (squashing function) hay hàm chuyển (transfer function)
thực hiện giới hạn đầu vào của neuron.
Trong mô hình nơ ron nhân tạo mỗi nơ ron được nối với các nơ ron khác và
nhận được tín hiệu xi từ chúng với các trọng số w
i
. Tổng thông tin vào có
tr
ọng số là: Net =

w
j
x

- Phương án lựa chọn số nút của từng lớp trong mạng: theo kinh nghiệm của
các chuyên gia về mạng nơ ron trong các bài toán phân lớp có sử dụng mạng
lan truyền ngược hướng, sử dụng 1 lớp tính toán là lớp mạng Kohonen làm
l
ớp ẩn. Ta xác định số nơ ron cho từng lớp.
+ Số nơ ron lớp vào = số chiều của vector vào, ở đây ta chọn 12 hệ số
cepstral là đặc trưng của mẫu, mỗi mẫu được xử lý trong L khung tiếng nói,
thì số nơ ron của lớp vào sẽ là 12*L, ví dụ sử dụng 5 frames/mẫu thì số nơ
ron lớp vào là 60
+ S
ố nơ ron lớp Kohonen = số giá trị các tập trả lời. Ví dụ cần nhận dạng 10
từ mỗi từ được mô tả bởi vector vào 60 thành phần, tại lớp ẩn cần lưu trữ lời
giải là 600, cần số nơ ron lớp ẩn là 625 nơ ron (ma trận nơ ron kích thước
25x25)
+ Số nơ ron lớp ra = số lượng kết quả đầu ra, sử dụng phương pháp mã hoá
b
ằng số bit biểu diễn số lượng kết quả, ví dụ cần nhận dạng 128 từ cần 7 nơ
ron ở lớp ra, 7 nơ ron này cho phép mã hoá 2
7
= 128 giá trị
- Phương pháp học cạnh tranh của lớp ẩn và quá trình học có chỉ đạo tại lớp
ra của mạng theo các bước sau:
+ Khởi tạo trọng số: các thành phần ma trận trọng số được khởi tạo bởi giá
trị ngẫu nhiên
+ Đọc tín hiệu vào cho mạng: dữ liệu trong file mẫu chứa thông tin mẫu học
và cho kết quả gồm 2 thành phần: mảng 1 chiều chứa vector tín hiệu vào và
m
ảng 2 chiều chứa ma trận trọng số liên kết ban đầu của lớp Kohonen
+ Hiệu chỉnh ma trận trọng số lớp Kohonen: hiệu chỉnh trọng số liên kết nơ
ron lớp ẩn Kohonen sao cho mạng có thể học mẫu tốt nhất. Từ mảng một

àm
cơ sở cho việc nhận dạng tiếng nói bằng cách tra cứu topo mạng để đưa ra
kết luận về tiếng nói cần nhận dạng đưa vào hệ thống. Thực tế hệ thống thử
nghiệm có thể nhận dạng được 1 số nguyên âm tiếng việt. Phương pháp LPC
được áp dụng khá rộng r
ãi trong xử lý tiếng nói bởi nó cung cấp mô hình lý
tưởng cho tín hiệu tiếng nói. Hơn nữa, LPC tương đối đơn giản, dễ thực hiện
cả bằng phần cứng lẫn phần mềm mà vẫn đảm bảo độ chính xác. Tuy nhiên
nhược điểm của phương pháp này là không giải quyết được vấn đề các tính
chất động của thanh môn, làm giảm hiệu năng của hệ thống nhận dạng, đặc
biệt là các hệ thống độc lập người nói.
Đề xuất hướng phát triển:
Để nâng cao hiệu suất nhận dạng của hệ thống, theo sự phát triển của tin học
hiện đại, hướng nghiên cứu này có thể tiếp tục mở rộng phát triển theo các
hướng sau:
- Đề xuất mạng nơ ron mờ: phát triển theo 3 hướng đó là
+ Mạng nơ ron với các đầu vào, trọng số mờ
+ Mạng nơ ron dùng để xác định hàm thuộc
+ Suy diễn mờ với mạng neuron.
- Đề xuất dùng giải thuật di truyền để tối ưu hoá cấu trúc mạng neuron.
Những hướng phát triển tiếp theo được đánh giá theo đúng mô hình về các
hệ thống thông minh lai, đó là: Hybrid Intelegent System = Neural nerworks
+ Expert System + Genetic Algorithms + Fuzzy Logich.
-
Đề xuất các phương pháp xử lý tín hiệu số khác, để có cơ sở cải tiến hệ
thống nâng cao chất lượng nhận dạng của hệ thống. Đề xuất các hướng dùng
mô hình Makov
ẩn, sử dụng phương pháp lượng tử hoá vector để bổ xung
vào hệ thống./.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Tài liệu Nhận dạng tiếng nói bằng mạng Nơron - Pdf 97

Tài liệu, ebook tham khảo khác

Học thêm