Nghiên cứu mạng nơron nhân tạo và ứng dụng nhận dạng tiếng nói - Pdf 33

MỤC LỤC
MỤC LỤC......................................................................................................................................1
CHƯƠNG I : TÌM HIỂU VỀ MẠNG NƠRON NHÂN TẠO...................................................................2
1. Lịch sử phát triển..................................................................................................................2
2. Khái niệm mạng nơron.........................................................................................................4
2.1 Mạng nơron sinh học :....................................................................................................4
2.2 Mạng nơron nhân tạo :...................................................................................................4
3. Cấu trúc mạng Nơron...........................................................................................................6
4. Kiến Trúc Mạng.....................................................................................................................7
4.1 Mạng Một Tầng...............................................................................................................8
4.2 Mạng Đa Tầng.................................................................................................................9
5. Các luật học..........................................................................................................................9
6. Các tính chất của mạng nowrron nhân tạo.........................................................................13
7. Mô hình toán học mạng nơron truyền thẳng và mạng nơron hồi quy................................13
7.1.Mạng nơ ron truyền thẳng...........................................................................................13
7.2.Mạng nơron hồi quy.....................................................................................................17
8. Quá trình huấn luyện mạng nhiều lớp................................................................................18
8.1 Quá trình thực hiện.....................................................................................................19
8.2 Qui tắc chuỗi.................................................................................................................20
8.3 Độ chính xác của thuật toán lan truyền ngược.............................................................21
8.4 Biến thể của thuật toán lan truyền ngược....................................................................22
8.5 Tổng quát (Phép nội suy và ngoại suy)..........................................................................22
9. Ứng dụng............................................................................................................................25
CHƯƠNG 2: LÝ THUYẾT ÂM THANH VÀ TIẾNG NÓI.....................................................................26
2.1 Âm thanh..........................................................................................................................26

1

2.1.1 Nguồn gốc âm thanh:................................................................................................26
2.1.2 Các đại lượng đặc trưng cho âm thanh:.....................................................................26

biết nơron có thể mô hình hoá như thiết bị ngưỡng (Giới hạn) để thực hiện
các phép tính logic và mô hình mạng nơron của Mc Culloch - Pitts cùng
với giải thuật huấn luyện mạng của Hebb ra đời năm 1943.
 Giai đoạn 2: Vào khoảng gần những năm 1960, một số mô hình noron
hoàn thiện hơn đã được đưa ra như: Mô hình Perceptron của Rosenblatt
(1958), Adalile của Widrow (1962). Trong đó mô hình Perceptron rất
được quan tâm vì nguyên lý đơn giản, nhưng nó cũng có hạn chế vì như
Marvin Minsky và Seymour papert của MIT ( Massachurehs Insritute of
Technology) đã chứng minh nó không dùng được cho các hàm logic phức
(1969). Còn Adaline là mô hình tuyến tính, tự chỉnh, được dùng rộng rãi
trong điều khiển thích nghi, tách nhiễu và phát triển cho đến nay.
 Giai đoạn 3: Có thể tính vào khoảng đầu thập niên 80. Những đóng góp lớn
cho mạng nơron trong giai đoạn này phải kể đến Grossberg,Kohonen,
Rumelhart và Hopfield. Trong đó đóng góp lớn của Hopfield gồm hai mạng
phản hồi: Mạng rời rạc năm 1982 và mạng liên tục năm 1984. Đặc biệt,
ông đã dự kiến nhiều khả năng tính toán lớn của mạng mà một nơron
không có khả năng đó. Cảm nhận của Hopfield đã được Rumelhart,
Hinton và Williams đề xuất thuật toán sai số truyền ngược nổi tiếng để
huấn luyện mạng noron nhiều lớp nhằm giải bài toán mà mạng khác
không thực hiện được.
 Giai đoạn 4: Tính từ năm 1987 đến nay, hàng năm thế giới đều mở hội
nghị toàn cầu chuyên ngành nơron IJCNN (International Joit Conference
on Neural Networks). Rất nhiều công trình được nghiên cứu để ứng dụng
mạng nơron vào các lĩnh vực như: Kỹ thuật tính, điều khiển, bài toán tối
ưu, y học, sinh học, thống kê, giao thông, hoá học,...Cho đến nay mạng
nơron đã tìm và khẳng định được vị trí của mình trong rất nhiều ứng dụng
khác nhau.

3

Sau đây là mô hình của một nơron nhân tạo

Nơron này sẽ hoạt động như sau: giả sử có N inputs, nơron sẽ có N trọng
số tương ứng với N đường truyền inputs. Nơron sẽ lấy tổng có trọng số của tất cả
các inputs. Nói như thế có nghĩa là nơron sẽ lấy input thứ nhất, nhân với weight
trên đường input thứ nhất, lấy input thứ hai nhân với weight của đường input thứ
hai v.v..., rồi lấy tổng của tất cả các kết quả thu được. Đường truyền nào có trọng
số càng lớn thì tín hiệu truyền qua đó càng lớn, như vậy có thể xem weight là đại
lượng tương đương với synapse trong nơron sinh học. Có thể viết kết quả lấy
tổng của nơron như sau:

Kết quả này sẽ được so sánh với threshold t của nơron, nếu nó lớn hơn t thì
nơron cho output là 1, còn nếu nhỏ hơn thì output là 0. Ngoài ra ta cũng có thể
trừ tổng nói trên cho t, rồi so sánh kết quả thu được với 0, nếu kết quả là dương
thì nơron cho ouput bằng 1, nếu kết quả âm thì output là 0. Dưới dạng toán học ta
có thể viết output của nơron như sau:

5

Trong đó f là hàm Heaviside:

f được gọi là ngưỡng chức năng hay chuyền chức năng của nơron, còn giá trị (-t)
còn được gọi là bias hay offset của nơron.Nếu chúng ta đưa thêm một input nữa
vào, input thứ 0, có giá trị luôn luôn bằng 1 và weight luôn luôn bằng bias (-t) thì
output của nơron còn có thể viết dưới dạng:

Lưu ý là chỉ số của tổng bây giờ bắt đầu từ 0 chứ không phải bằng 1 như trước
nữa.
3. Cấu trúc mạng Nơron

Có thể xem các trọng số là phương tiện để lưu trữ thông tin dài hạn trong
mạng neural và nhiệm vụ của quá trình huấn luyện của mạng là cập nhật các
trọng số khi có thêm thông tin về mẫu học. Hay nói một cách khác, các trọng số
đều được điều chỉnh sao cho dáng điệu vào ra của mạng sẽ mô phỏng hoàn toàn
phù hợp với môi trường đang xem xét.

7

4.1 Mạng Một Tầng
Mạng một tầng với S nơron được minh họa trong hình 4.1.1. Chú ý rằng
với mỗi một đầu vào trong số R đầu vào sẽ được nối với từng nơron và ma trận
trọng số bây giờ sẽ có S hàng.Một tầng bao gồm ma trận trọng số, các bộ cộng,
vector ngưỡng b, hàm chuyển và vector đầu ra a.
Mỗi phần tử của vector đầu vào p được nối với từng nơron thông qua ma
trận trọng số W. Mỗi nơron có một ngưỡng bi, một bộ cộng, một hàm chuyển f
và một đầu ra ai cùng với nhau, các đầu ra tạo thành một vector đầu ra a.Thông
thường thì số lượng đầu vào của tầng khác với số lượng nơ-ron.(R#S).
Ma trận trọng số cho các phần tử trong vector đầu vào W:

hình 4.1.1: Mô hình mạng 1 lớp.
Các chỉ số hàng của các phần tử trong ma trận W chỉ ra nơron đích đã kết
hợp với trọng số đó, trong khi chỉ số cột cho biết đầu vào cho trọng số đó. Vì
vậy, các chỉ số trong nói rằng đây là trọng số của đầu vào thứ 2 nối với nơron
thứ 3

8

4.2 Mạng Đa Tầng

tương ứng với đặc tính mong muốn. Từng cặp giá trị vào/ra phải được kiểm tra
và trọng lượng được điều chỉnh một vài lần. Sự thay đổi các hàm trọng của
mạng được dừng lại nếu tổng các bình phương sai số nhỏ hơn một giá trị đặt
trước hoặc đã chạy đủ một số lần chạy xác định (trong trường hợp này mạng có
thể không thoả mãn yêu cầu đặt ra do sai lệch còn cao).
Có hai kiểu học:
Học thông số :Tìm ra biểu thức cập nhật các thông số về trọng số, cập
nhật kết nối giữa các nơron.
Học cấu trúc :Trọng tâm là sự biến đổi cấu trúc của mạng nơron gồm số
lượng nút (node) và các mẫu liên kết
Nhiệm vụ của việc học thông số là bằng cách nào đó, tìm được ma trận
chính xác mong muốn từ ma trận giả thiết ban đầu với cấu trúc của mạng nơron
có sẵn.
Để làm được việc đó, mạng nơron sử dụng các trọng số điều chỉnh,
với nhiều phương pháp học khác nhau có thể tính toán gần đúng ma trận W cần
tìm đặc trưng cho mạng.
Có ba phương pháp học:
 Học có giám sát
Là quá trình học ở mỗi thời điểm thứ i khi đưa tín hiệu xi vào mạng nơ
ron,tương ứng sẽ có các đáp ứng mong muốn di của đầu ra cho trước ở thời điểm
10

đó. Hay nói cách khác, trong quá trình học có giám sát, mạng nơ ron được cung
cấp liên tục các cặp số liệu mong muốn vào - ra ở từng thời điểm (x1 ,d1 ),
(x2 ,d2 ),… (xk, dk ),…khi cho tín hiệu vào thực là xk sẽ tương ứng có tín hiệu đầu
ra cũng được lặp lại là dk giống như mong muốn. Kết quả của quá trình học có
giám sát là tạo được một hộp đen có đầu vào là véctơ tín hiệu vào X sẽ đưa ra
được câu trả lời đúng d.
Để đạt được kết quả mong muốn trên, khi đưa vào tín hiệu xk , thông

Hình 5.3.Mô hình học không có giám sát
Cấu trúc chung của quá trình học được mô tả như hình 5.4

Hình 5.4. Sơ đồ cấu trúc chung của quá trình học
Trong đó tín hiệu vào xj , j=1,2,3…,m, có thể được lấy từ đầu ra của các
nơron khác hoặc có thể được lấy từ bên ngoài. Tín hiệu mong muốn d i có
sẵn chỉ có trong phương pháp học có giám sát hoặc củng cố. Từ hai phương
pháp học trên, trọng số của nơ ron thứ i được thay đổi tuỳ theo tín hiệu ở đầu
vào mà nó thu nhận và giá trị đầu ra của nó. Trong phương pháp học không có
giám sát sự thay đổi của trọng số chỉ dựa trên cơ sở các giá trị đầu vào và đầu ra.
Dạng tổng quát của luật học trọng số của mạng nơ ron là cho biết gia số của véc
tơ wi là Δwi tỷ lệ với tín hiệu học r và tín hiệu đầu vào x(t):
Δw (t) = η.r.x(t)
η: Là hằng số học, xác định tốc độ học và là một số dương
r: Là tín hiệu học r = f r(wi ,x,di )
12

(1.8)
(1.9)

Biểu thức (1.8) là biểu thức chung để tính số gia của trọng số, ta thấy trọng
số wi = (wi1, wi2, …, wim)T có gia số tỷ lệ với tín hiệu vào x và tín hiệu học r. Từ
các biểu thức trên ta có véc tơ trọng số ở thời điểm (t+1) được tính là:
Wi(t+1) = wi(t) + η.fr {wi(t), x(t), di(t)}.x(t)
(1.10)
Vấn đề quan trọng trong việc phân biệt luật học cập nhật trọng số có giám
sát hay không có giám sát là tín hiệu học r như thế nào để thay đổi hoặc cập nhật
trọng số có trong mạng nơron.

-Véc tơ vào P có R phần tử P = [p1p2 … pr]
-Véc tơ vào n có S phần tử nT = [n1 n2 … ns
-Véc tơ ra a có S phần tử a = [a1a2 … as ]

Hình 7.1.Cấu trúc mạng nơ ron 1 lớp
Trong mạng này mỗi phần tử của véc tơ vào P liên hệ với đầu vào mỗi
nơron thông qua ma trận trọng lượng liên kết W. Bộ cộng của nơ ron thứ i thu
thập các trọng liên kết đầu vào và độ dốc để tạo thành một đầu ra vô hướng n i .
Các ni tập hợp với nhau tạo thành s phần tử của véctơ vào n. Cuối cùng ở lớp ra
nơ ron ta thu được véctơ a gồm s phần tử. Ta có thể thiết lập lớp đơn của các
nơron có các hàm chuyển khác nhau một cách dễ dàng bởi lẽ hai mạng được đặt
song song. Tất cả các mạng có thể có chung đầu vào và mỗi mạng có thể thiết
lập một vài đầu ra. Các phần tử của véc tơ đầu vào được đưa vào mạng thông
qua ma trận trọng W, với:

(1.12)

Trong đó: Chỉ số hàng trong các phần tử của ma trận W cho biết nơron
nơi đến còn chỉ số cột cho biết nơi xuất phát của trọng liên kết. Ví dụ: w 12 nói
lên sự có mặt của tín hiệu vào từ phần tử thứ hai đến nơ ron thứ nhất với trong
14

liên kết là w12. Để đơn giản ta ký hiệu mạng một lớp gồm S nơron, R đầu vào
như hình vẽ 7.2

Hình 7.2. Ký hiệu mạng một lớp R đầu vào và S nơron
Trong đó: véctơ vào P có kích thước R, ma trận trọng liên kết W có
kích thước S x R còn a và b là các véc tơ có kích thước S. Như chúng ta đã
biết, một lớp mạng bao gồm ma trận trọng liên kết, toán tử nhân, véc tơ

kết của ma trận W2 . Đầu vào của lớp 2 là véc tơ a 1 , đầu ra là véc tơ a2 . Các lớp
của mạng nhiều lớp đóng vai trò khác nhau. Lớp cuối cùng là kết quả ở đầu ra
của mạng, được gọi là lớp ra. Lớp đầu tiên thu thập tín hiệu vào được gọi là lớp
vào, các lớp khác được gọi là lớp ẩn. Mạng 3 lớp ở trên có 1 lớp ra (lớp 3) có
1lớp vào (lớp1) và 1 lớp ẩn (lớp 2). Đối với mạng 3 lớp ta cũng có thể sử dụng
ký hiệu tắt để biểu diễn (hình 7.5). Mạng nhiều lớp rất mạnh, ví dụ có mạng
2 lớp, trong đó lớp 1 có hàm chuyển sigmoid, lớp 2 có hàm chuyển linear
có thể được huấn luyện để làm xấp xỉ một hàm bất kỳ (với số điểm gián đoạn có
hạn chế).
Trong đó a3 là đầu ra của mạng, ta ký hiệu đầu ra này là y. Ta sẽ sử dụng
ký hiệu này để định rõ đầu ra của mạng nhiều lớp.

Hình 7.4. Cấu trúc mạng nơron 3 lớp

16

Hình 7.5. Ký hiệu tắt của mạng nơron 3 lớp
7.2.Mạng nơron hồi quy
Mạng hồi quy còn được gọi là mạng phản hồi là loại mạng tự liên kết
thành các vòng và liên kết hồi quy giữa các nơron. Mạng nơron hồi quy có trọng
số liên kết đối xứng như mạng Hopfield luôn hội tụ về trạng thái ổn định. Mạng
liên kết hai chiều (BAM) là mạng thuộc nhóm mạng nơron hồi quy hai lớp
nơron liên kết tay đôi, trong đó đảm bảo nơron của cùng một lớp không liên kết
với nhau, cũng hội tụ về trạng thái ổn định. Nghiên cứu mạng nơron hồi quy có
trọng số liên kết khôn đối xứng sẽ gặp nhiều phức tạp hơn so với mạng truyền
thẳng và mạng hồi quy đối xứng. Mạng nơron hồi quy có khả năng về
nhận mẫu, nhận dạng các hàm phi tuyến, dự báo … Một ưu điểm khác của
mạng nơron hồi quy là chỉ cần mạng nhỏ hơn về cấu trúc cũng có khả năng như
mạng truyền thẳng có cấu trúc lớp hơn.

Chúng ta đã biết, mạng nơron nhiều lớp có thể xấp xỉ gần đúng một hàm
bất kỳ, tiếp đó là thủ tục tính chọn các thông số của mạng (các hàm trọng lượng
và độ dốc) cho một đối tượng cụ thể được gọi là quá trình huấn luyện mạng.
Trong phần này chúng ta sẽ chỉ ra một phương pháp huấn luyện là phương
18

pháp lan truyền ngược. Kỹ thuật cơ bản của phương pháp lan truyền ngược là
cập nhật trọng số theo hướng giảm độ dốc.
Như đã nêu, mạng nhiều lớp có đầu ra của lớp trước là đầu vào của lớp
tiếp theo. Sơ đồ cấu trúc được cho như hình vẽ 7.5.
Biểu thức toán học mô tả sự hoạt động như (1.17):
am+1 = f m+1(wm+1 .am + bm+1 ). Với m = 0,1,2,…M-1.
(1.17)
Trong đó M là số lớp nơ ron trong mạng. Các nơ ron của lớp thứ nhất nhận
tín hiệu đầu vào từ bên ngoài:
a0 = p
(1.18)
Đầu ra của các nơ ron ở lớp cuối cùng của mạng được coi là đầu ra của
mạng:
y = am

(1.19)

8.1 Quá trình thực hiện.
Thuật toán lan truyền ngược của mạng nhiều lớp là một phương pháp làm
giảm độ dốc. Phương pháp này được dùng để cập nhật những thông số sao cho
giảm thiểu sai số của mô hình. Sai số được đo bằng phương pháp trung bình
bình phương sai lệch. Tập hợp mẫu vào ra được cho dưới dạng như (1.20):
(1.20)

ẩn, vì thế các phép đạo hàm sẽ tính khó khăn. Bởi vì sai lệch là hàm ẩn của các
trọng số ở các lớp ẩn nên chúng ta sẽ sử dụng qui tắc chuỗi toán học để tính đạo
hàm riêng trong các biểu thức (1.24) và (1.25)
(1.26)

(1.27)

Số hạng thứ hai trong mỗi công thức có thể được tính dễ dàng vì đầu vào
lớp mạng thứ m là hàm hiện của trọng số và độ dốc của lớp ấy:
(1.28)

20

(1.29)
Do đó
:
Nếu chúng ta định nghĩa:
(1.30)

thì công thức (1.26) và (1.27) có thể được đơn giản hoá như (1.31), (1.32):
(1.31)

(1.32)

Đến đây chúng ta có thể biểu diễn thuật toán xấp xỉ để giảm độ
dốc như (1.33), (1.34):
(1.33)
(1.34)
Khi đó ta có ma trận dạng (1.35), (1.36):

do để người ta gọi là thuật toán lan truyền ngược. Một sự khác biệt của thuật
toán là kết quả của các phép đạo hàm được sử dụng để cập nhật các trọng số.
8.5 Tổng quát (Phép nội suy và ngoại suy).
Chúng ta đã biết mạng nhiều lớp có khả năng làm xấp xỉ gần đúng các
hàm bất kỳ, nhưng chúng ta chưa đề cập đến vấn đề tính chọn số nơ ron và số
lớp cần thiết để đạt được một độ chính xác nhất định nào đó, chúng ta chưa đề
cập đến vấn đề huấn luyện theo dữ liệu mẫu phải được chọn như thế nào. Môt bí
quyết xác định đủ số lượng nơron để đạt được mức độ phức tạp của hàm biên mà
22

không cần quan tâm đến quá trình huấn luyện dữ liệu đó là trong trường hợp
không cập nhật trạng thái mới. Nếu không, chúng ta cần phải có đủ quá trình
huấn luyện dữ liệu để mô tả tương xứng hàm biên. Để minh hoạ cho việc chúng
ta có thể huấn luyện mạng, ta xét ví dụ tổng quát dưới đây.Quá trình huấn luyện
mạng được khái quát hoá theo biểu thức (1.40):
tq = g(pq ) + eq
(1.40)
Trong đó pq là tập hợp các đầu vào; g( ) là hàm biên mà chúng ta muốn xấp
xỉ gần đúng; eq là sai số đo của nhiễu và t q là tập hợp các đầu ra(đáp
ứng của mạng).

Hình 1.16a. Đáp ứng của mạng

Hình 1.16b. Đáp ứng của mạng

khi sử dụng thuật toán bình

khi sử dụng thuật toán Bayesian

Thêm một phương pháp kỹ thuật nữa làm cho mạng tổng quát hoá được gọi
là sự làm đúng theo quy tắc. Với phương pháp biểu diễn chỉ số so sánh làm thay
đổi đến số hạng đem đến sự phức tạp cho mạng, số hạng bất lợi đó là tổng bình
phương của các hàm trọng lượng :
(1.41)

Một bí quyết của phương pháp trên là sự lựa chọn đúng thông số ρ. Nếu giá
trị của nó lớn thì đáp ứng của mạng sẽ bằng phẳng và sẽ xấp xỉ không chính xác
được hàm biên. Nếu giá trị của ρ quá nhỏ thì mạng có sự quá điều chỉnh. Một
trong các phương pháp thành công nhất trong việc lựa chọn ρ tốt nhất là quy tắc
Bayesian ([Mack 92] và [FoHa 97]).
Trên hình 1.16b. cho thấy đáp ứng của mạng khi mạng được huấn luyện
theo quy tắc Bayesian.Chú ý rằng đáp ứng của mạng có độ chính xác phù hợp
không dài hơn các điểm dữ liệu huấn luyện. Nhưng nhìn chung đặc tính đầu ra
của mạng lại sát vào nhau hơn so với hàm biên trong phạm vi của dữ liệu huấn
luyện.
Tuy nhiên, với quy tắc Bayesian đáp ứng của mạng không tính toán
được ngoài phạm vi dữ liệu huấn luyện. Như chúng ta đã đề cập trước đây là
24

chúng ta không thể đòi hỏi mạng tính toán ngoại suy. Nếu chúng ta muốn đáp
ứng của mạng chính xác từ đầu đến cuối thì ta cần phải cung cấp dữ liệu huấn
luyện trong suốt phạm vi đó. Điều đó sẽ khó khăn hơn đối với trường hợp mạng
có nhiều đầu vào.
9. Ứng dụng
Trong quá trình phát triển, mạng nơron đã được ứng dụng thành công
trong rất nhiều lĩnh vực. Dưới đây liệt kê ra một số ứng dụng chính của mạng
nơron:
- Aerospace: Phi công tự động, giả lập đường bay, các hệ thống điều khiển

cần sự giải thích cho tri thức tiếp nạp.
- Curse of Dimensionality: Thách thức về việc tích hợp các mạng Neuron
cỡ lớn như não bộ của con người.
- Việc thiết kế, xác định một số thông số của mạng nơron đòi hỏi có nhiều
kinh nghiệm
- Việc thay đổi cấu trúc tương đối hạn chế gặp khó khăn khi lời giải đòi
hỏi phải có cấu trúc phức tạp hay biến đổi.
• Ưu điểm:
- Tính phi tuyến
- Mô hình tổng quát cho ánh xạ từ tập vào đến tập ra
- Tính thích ứng (adaptivity):
25

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu mạng nơron nhân tạo và ứng dụng nhận dạng tiếng nói - Pdf 33

Tài liệu, ebook tham khảo khác

Học thêm