TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
BÁO CÁO BÀI TẬP LỚN XỬ LÝ NGÔN NGỮ TỰ NHIÊN
NHẬN DẠNG CHỮ VIẾT
Giảng viên hướng dẫn: PGS. Lê Thanh Hương
Sinh viên thực hiện: Phạm Phương Bắc 20080176
Nguyễn Duy Hưởng 20081337
Lê Quốc Trung 20082778
Nguyễn Tuấn Vinh 20083174
Phạm Tuấn Việt 20083152
Hà Nội - 04/2012
Mục Lục
Mục Lục 1
1
Lời nói đầu 2
Chương I. Tổng quan về tài 3
I.1. Tổng quan về nhận dạng chữ viết 3
I.2. Các khái niệm liên quan 4
I.2.1 Mạng nơ ron 4
I.2.2. Mạng nơ ron nhân tạo 5
I.2.3. Mạng Perceptron 16
I.2.4. Phương pháp học máy back-propagation 21
I.2.5. Tập huấn luyện mạng 28
Chương II. Nội dung thực hiện 29
II.1 Các modun chương trình 29
II.1.1. Mô hình bài toán 29
II.1.2. Giao diện chương trình 34
II.2. Kết quả 36
II.3. Đánh giá 37
Kết luận 39
Tài liệu tham khảo 40
- Dendrites: là phần nhận tín hiệu đầu vào
- Soma: là hạt nhân
- Axon: là phần dẫn ra tín hiệu xử lý
- Synapses: là đường tín hiệu điện hóa giao tiếp giữa các nơron.
Kiến trúc cơ sở này của bộ não con người có một vài đặc tính chung. Một cách tổng quát,
thì một nơron sinh học nhận đầu vào từ các nguồn khác nhau, kết hợp chúng lại với nhau, thực
thi tổ hợp phi tuyến chúng để cho ra kết quả cuối cùng ở đầu ra. Hình 1.1 dưới đây chỉ ra mối
quan hệ giữa bốn phần từ của một nơron sinh học
Hình 1.1: Một nơron sinh học
Một nơron sinh học chỉ có một số chức năng cơ bản như vậy, ta nhận thấy khả năng xử lý
thông tin của nó là rất yếu. Để có được khả năng xử lý thông tin hoàn hảo như bộ não con người,
thì các nơron phải kết hợp và trao đổi thông tin với nhau. Ta hình dung sơ đồ liên kết, và trao đổi
thông tin giữa hai nơron như hình 1.2.
4
Hình 1.2. Sự liên kết các nơron
I.2.2. Mạng nơ ron nhân tạo
Mô hình toán học của mạng nơron sinh học được đề xuất bởi McCulloch và Pitts, thường
được gọi là nơron M-P, ngoài ra nó còn được gọi là phần tử xử lý và được ký hiệu là PE
(Processing Element).
Mô hình nơron có m đầu vào x
1
, x
2
,…, x
m
, và một đầu ra y
i
như sau:
Hình 1.3: Mô hình một nơron nhân tạo
Giải thích các thành phần cơ bản:
im
là các trọng số kết nối của
nơron thứ i, net
i
là hàm tổng, f là hàm truyền, Ө
i
là một ngưỡng, y
i
là tín hiệu đầu ra của
nơron.
Như vậy, tương tự như nơron sinh học, nơron nhân tạo cũng nhận các tín hiệu đầu
vào, xử lý (nhân tín hiệu này với trọng số liên kết, tính tổng các tích thu được rồi gửi kết
quả đến hàm truyền), và cho một tín hiệu đầu ra (là kết quả của hàm truyền).
● Hàm truyền có thể có các dạng sau:
- Hàm bước y = (1.6)
- Hàm giới hạn chặt (hay còn gọi là hàm bước)
y = sgn(x) = (1.7)
- Hàm bậc thang
y = sgn(x) = (1.8)
- Hàm ngưỡng đơn cực
6
y = với ⅄ > 0 (1.9)
-Hàm ngưỡng hai cực
y = – 1 với < 0⅄ (1.10)
●Đồ thị các dạng hàm truyền được biểu diễn như sau:
I.2.2.1. Cấu tạo và phương thức làm việc của mạng nơron
Dựa trên những phương pháp xây dựng mạng nơron đã trình bày ở mục trên, ta có thể
hình dung mạng nơron như là một hệ truyền đạt và xử lý tín hiệu. Đặc tính truyền đạt của nơron
phần lớn là đặc tính truyền đạt tĩnh.
mạng Multilayer Perceptrons (MLP – Network).
Mạng nơron khi mới được hình thành thì chưa có tri thức, tri thức của mạng sẽ được hình
thành dần dần sau một quá trình học. Mạng nơron được học bằng cách đưa vào những kích thích,
và mạng hình thành những đáp ứng tương ứng, những đáp ứng tương ứng phù hợp với từng loại
kích thích sẽ được lưu trữ. Giai đoạn này được gọi là giai đoạn học của mạng. Khi đã hình thành
tri thức mạng, mạng có thể giải quyết các vấn đề một cách đúng đắn. Đó có thể là vấn đề ứng
dụng rất khác nhau, được giải quyết chủ yếu dựa trên sự tổ chức hơp nhất giữa các thông tin đầu
vào của mạng và các đáp ứng đầu ra.
● Nếu nhiệm vụ của một mạng là hoàn chỉnh hoặc hiệu chỉnh các thông tin thu được
không đầy đủ hoặc bị tác động của nhiễu. Mạng nơron kiểu này được ứng dụng trong
lĩnh vực hoàn thiện mẫu, trong đó có một ứng dụng cụ thể là nhận dạng chữ viết.
● Nhiệm vụ tổng quát của một mạng nơron là lưu giữ động các thông tin. Dạng thông tin
lưu trữ giữ này chính là quan hệ giữa các thông tin đầu vào và các đáp ứng đầu ra tương
ứng, để khi có một kích thích bất kỳ tác động vào mạng, mạng có khả năng suy diễn và
8
đưa ra một đáp ứng phù hợp. Đây chính là chức năng nhận dạng theo mẫu của mạng nơ
ron. Để thực hiện chức năng này, mạng nơron đóng vai trò như một bộ phận tổ chức các
nhóm thông tin đầu vào, và tương ứng với mỗi nhóm là một đáp ứng đầu ra phù hợp.
Như vậy, một nhóm bao gồm một loại thông tin đầu vào và một đáp ứng đầu ra. Các
nhóm có thể được hình thành trong quá trình học, và cũng có thể không hình thành trong
quá trình học.
Hình 1.6 là một số liên kết đặc thù của mạng nơron. Nơron được vẽ là các vòng tròn xem như
một tế bào thần kinh, chúng có các mối liên hệ đến các nơron khác nhờ các trọng số kiên kết.
Tập hợp các trọng số liên kết này sẽ lập thành các ma trận trọng số tương ứng.
Mạng nơron một lớp
Mỗi một nơron có thể phối hợp với các nơron khác tạo thành một lớp các trọng số. Mạng
một lớp truyền thẳng như hình 1.6a. Một lớp nơron là một nhóm các nơron mà chúng đều có
cùng trọng số, nhận cùng một tín hiệu đầu vào đồng thời.
Trong ma trận trọng số, các hàng là thể hiện nơron, hàng thứ j có thể đặt nhãn như một
vector w
i
được
đưa đến tất cả các nơron của lớp đầu vào. Thông thường, các nơron đầu vào không làm
biến đổi các tín hiệu vào x
i
, tức là chúng không có các trọng số hoặc không có các loại
hàm chuyển đổi nào, chúng chỉ đóng vai trò phân phối các tín hiệu.
● Lớp ẩn là lớp nơron sau lớp vào, chúng không trực tiếp liên hệ với thế giới bên ngoài
như các lớp nơron vào/ra.
● Lớp ra là lớp nơron tạo ra các tín hiệu ra cuối cùng.
Mạng nơron phản hồi
Mạng nơron phản hồi là mạng mà đầu ra của mỗi nơron được quay trở lại nối với đầu vào
của các nơron cùng lớp được gọi là mạng Laeral (như hình 1.6.b)
Mạng nơron hồi quy
Mạng nơron phản hồi có thể thực hiện đóng vòng được gọi là mạng nơron hồi quy (như
hình 1.6.d). Mạng nơron hồi quy có trọng số liên kết đối xứng như mạng Hopfield, mạng luôn
hội tụ về trạng thái ổn định (Hình 1.6.b). Mạng BAM thuộc nhóm mạng nơron hồi quy, gồm 2
lớp liên kết 2 chiều, không được gắn với tín hiệu vào/ra. Nghiên cứu mạng nơron hồi quy mà có
trọng số liên kết không đối xứng, thì sẽ gặp phải vấn đề phức tạp nhiều hơn so với mạng truyền
thẳng và mạng hồi quy có trọng số liên kết đối xứng.
Mạng Hopfield
Mạng Hopfield là mạng phản hồi một lớp, được chỉ ra trong hình 1.6.b. Cấu trúc chi tiết
của nó được thể hiện trong hình 1.7. Khi hoạt động với tín hiệu rời rạc, nó được gọi là mạng
Hopfield rời rạc, và cấu trúc của nó cũng được gọi là mạng hồi quy.
10
Như mạng Hopfield đã vẽ ở trên, ta thấy nút có một đầu vào bên ngoài x
j
và một giá trị
ngưỡng Ө
j
lớp y như sau:
y’ = a(wx) ; y’
i
= a(∑w
ij
x
j
); với i = 1,2,…,n (1.12)
Ở đó a(.) là hàm truyền, vector y’ bây giờ lại nuôi trở lại lớp nơron X và tạo nên đầu ra
như sau:
x’ = a(w
T
y’); x
j
= a( ); với j = 1,2,…,m (1.13)
Sau đó x’ nuôi trở lại đầu vào của lớp y và tạo ra hàm y’’ theo phương trình (1.12). Quá
trình này cứ tiếp tục, bao gồm các bước như sau:
y
(1)
= a(wx
(0)
) (truyền thẳng lần thứ nhất)
x
(2)
= a(w
(T)
y
(2)
) (truyền ngược lần thứ nhất)
y
nhiều.
I.2.2.2. Các luật học
12
Thông thường, mạng nơron được điều chỉnh hoặc được huấn luyện để hướng các đầu vào
riêng biệt đến đích ở đầu ra. Cấu trúc huấn luyện mạng được chỉ ra ở hình dưới. Ở đây, hàm
trọng số của mạng được điều chỉnh trên cơ sở so sánh đầu ra với đích mong muốn (target), cho
tới khi đầu ra của mạng phù hợp với đích. Những cặp vào/đích (input/ target) được dùng để giám
sát cho sự huấn luyện mạng.
Để có được một số cặp vào/ra, ở đó mỗi giá trị vào được gửi đến mạng và giá trị ra tương
ứng được thực hiện bằng mạng là sự xem xét và so sánh với giá trị mong muốn. Bình thường, nó
sẽ tồn tại một sai số vì giá trị mong muốn không hoàn toàn phù hợp với giá trị thực. Sau mỗi lần
chạy, ta có tổng bình phương của tất cả các sai số. Sai số này đuợc sử dụng để xác định các hàm
trọng số mới.
Sau mỗi lần chạy, hàm trọng số của mạng được sửa đổi với đặc tính tốt hơn tương ứng
với đặc tính mong muốn. Từng cặp giá trị vào/ra phải được kiểm tra và trọng số được điều chỉnh
một vài lần. Sự thay đổi các hàm trọng số của mạng sẽ được dừng lại, nếu tổng các bình phương
sai số nhỏ hơn một giá trị đặt trước, hoặc đã chạy đủ một số lần chạy xác định (trong trường hợp
này, mạng có thể không thỏa mãn yêu cầu đặt ra do sai lệch còn cao). Có hai kiểu học:
● Học tham số: là các tham số về trọng số cập nhật kết nối giữa các nơron.
● Học cấu trúc: trọng tâm là sự biến đổi cấu trúc của các mạng nơron gồm số lượng nút
và các loại liên kết.
Giả sử ma trận trọng số bao gồm tất cả các phần tử thích ứng của mạng nơron. Nhiệm vụ
của việc học tham số là tìm ra được ma trận chính xác mong muốn từ ma trận giả thiết ban đầu
(với cấu trúc của mạng nơron có sẵn). Để làm được điều này thì mạng nơron phải sử dụng các
trọng số điều chỉnh, với nhiều phương pháp học khác nhau để có thể tính toán gần đúng ma trận
W cần tìm đặc trưng cho mạng. Sau đây là 3 phương pháp học:
Học có giám sát
Học có giám sát: là quá trình học có tín hiệu chỉ đạo bên ngoài d (Hình 1.10). Trong học
có giám sát, thì tại mỗi thời điểm khi đầu vào được cung cấp tới mạng nơron, phản ứng đầu ra
mong muốn d tương ứng của hệ thống đươc đưa ra. Ở hình (1.10), khi mỗi đầu vào x
Hình (1.12) mô tả cấu trúc chung của quá trình học của ba phương pháp học đã nêu ở
trên. Trong tín hiệu vào x
j
(j = 1,2,…,m), có thể được lấy từ đầu ra của các nơron khác hoặc có
thể được lấy ra từ bên ngoài. Trọng số của nơron thứ i được thay đổi tùy theo tín hiệu ở đầu vào
mà nó thu nhận giá trị đầu ra của nó.
Dạng tổng quát của luật học trọng số của mạng nơron cho biết số gia của vector w
i
là Δw
i
tỉ lệ với tín hiệu học r và tín hiệu vào x(t).
Δw
i
(t) = ηr.x(t) (1.15)
14
η là một sô dương và được gọi là hằng số học dùng để xác định tốc độ học, r là tín hiệu
học và phụ thuộc: r = f
r
(w
i
, x, d
i
). (1.16)
Từ hình (1.12) ta thấy, vector trọng số w
i
= [w
i1,
w
i2
,…, w
Mạng perceptron một lớp do F.Rosenblatt đề xuất năm 1960 [1] là một mạng truyền
thẳng chỉ có một lớp vào và một lớp ra, không có lớp ẩn. Trên mỗi lớp này có thể có một hoặc
nhiều nơron. Mô hình mạng nơron của Rosenblatt sử dụng hàm ngưỡng đóng vai trò là hàm
chuyển. Do đó, tổng của các tín hiệu vào lớn hơn giá trị ngưỡng thì giá trị đầu ra của nơron sẽ là
1, còn trái lại sẽ là 0.
out
i
= với net
i
= ∑w
ij
x
j
là tổng thông tin đầu vào của nơron i.
Ngay từ khi mạng Perceptron một lớp được đề xuất nó đã được sử dụng để giải quyết bài
toán phân lớp. Một đối tượng sẽ được nơron i phân vào lớp A nếu:
Tổng thông tin đầu vào : ∑w
ij
x
j
> Ө
i
Trong đó w
ij
là trọng số liên kết từ nơron j tới nơron i, x
j
là đầu vào từ nơron j, và Ө là
ngưỡng của nơron i. Trong trường hợp trái lại đối tượng sẽ được phân vào lớp B.
Việc huấn luyện mạng dựa trên phương pháp học có giám sát với tập mẫu học là {(x
(k)
(với m là số đầu vào, n là số đầu ra và p là cặp mẫu đầu vào – đầu
ra dùng cho việc học). Như vậy chúng ra mong rằng sau quá trình học, đầu ra tính toán được y
(k)
= [y
1
(k)
, y
2
(k)
, …, y
n
(k)
]
T
sẽ bằng với đầu ra của mẫu học d
(k)
.
y
i
(k)
=g(w
i
T
x
(k)
) = g( = d
i
(k)
với i = 1,2, …, n; k = 1,2, …, p (1.19)
Hình 1.13 Mạng perceptron một lớp
là số gia của trọng số w
ij
(trọng số liên kết giữa đầu vào j tới nơron i)
theo công thức Δw
ij
= η trong đó η là tốc độ học ( 0 < η < 1)
◦ Hiệu chỉnh w
ij
(t+1)
= w
ij
(t)
+ Δw
ij
= w
ij
(t)
+ η trong đó w
ij
(t+1)
là trọng số
sau khi điều chỉnh ở lần học tại thời điểm t
Rosenblatt đã chứng minh rằng quá trình học của mạng Perceptron sẽ hội tụ tới bộ trọng
số W, biểu diễn đúng các mẫu học với điều kiện là các mẫu này biểu thị các điểm rời rạc của một
hàm khả tách tuyến tính nào đó ( f: R
n
R được gọi là khả tách tuyến tính nếu các tập {F
-1
(x
k
-0,5+x1+x2=0 và -1,5+x1+x2=0
Hay ta giải hệ bất phương trình:
Dễ thấy mỗi bất phương trình ở trên có thể được thực hiện bằng một nơ-ron và đầu ra của
hai nơron này (2 bất phương trình) là đầu vào của một hàm AND. Do vậy có thể sử dụng mạng
MLP sau để thực hiện chức năng của hàm XOR như sau:
Hình 1.14 Thực hiện hàm XOR bằng mạng MLP
2. Một số vấn đề cần chú ý khi sử dụng mạng MLP
Mạng nơron perceptron nhiều lớp là loại mạng nơron được sử dụng trong nhiều ứng dụng
thực tế. Tuy nhiên, để mạng có thể đưa ra kết quả tốt, chúng ta cần quan tâm đến một số vấn đề
có ảnh hưởng khá quan trọng đến hiệu quả làm việc của nó bao gồm: vấn đề chuẩn hóa số liệu
đầu vào, vấn đề học chưa đủ và học quá của mạng, vấn đề lựa chọn một cấu trúc mạng phù hơp
với bài toán.
2.1Vấn đề chuẩn hóa số liệu đầu vào
Mạng MLP thường sử dụng hàm chuyển là hàm sigmoid có dạng như sau
18
Hình 1.18 Hàm sigmoid g(x) = 1/(1 + )
Với dạng hàm này, giá trị ở đầu ra của mỗi nơ-ron nằm trong phạm vi khoảng (0,1) và
nó đạt các giá trị bão hoà ( xấp xỉ 0 hay 1 ) khi ⎢x ⎢ lớn. Do đó, khi đầu vào của mạng có giá trị
tuyệt đối lớn thì ta cần chuẩn hoá nó về khoảng có giá trị nhỏ, nếu không thì các nơ-ron tại các
lớp ẩn ngay ban đầu đã có thể đạt giá trị bão hoà và quá trình học của mạng không đạt kết quả
mong muốn. Với dạng hàm như trên thì giá trị đầu vào của mạng thường được chuẩn hoá về
khoảng thuộc đoạn [-3, 3] . Mặt khác, do tín hiệu đầu ra của nơ-ron nằm trong khoảng giá trị
(0,1) nên các giá trị đầu ra thực tế trong các mẫu học cũng cần chuẩn hoá về khoảng giá trị này
để có thể dùng cho quá trình luyện mạng. Do vậy trong quá trình tính toán, để có các giá trị thực
tế ở đầu ra của mạng chúng ta cần phải chuyển các giá trị trong khoảng (0,1) về miền các giá trị
thực tế.
2.2 Vấn đề học chưa đủ và học quá thuộc của mạng
Vấn đề mấu chốt khi xây dựng một mạng nơ-ron nhân tạo là làm thế nào mạng có khả
năng tổng quát hoá cao để đưa ra kết quả tốt cả với những trường hợp đầu vào của mạng không
mạng, hai tác giả Nelson và Illingworth [6] đã đưa ra giải pháp dừng học đúng
lúc để tránh hiện tượng học quá của mạng như sau:
◦ Tập mẫu được chia làm hai phần: một phần dùng để luyện mạng và phần
còn lại để kiểm thử.
◦ Sử dụng các giá trị khởi tạo nhỏ
◦ Sử dụng hằng số tốc độ học có giá trị thấp.
◦ Tính toán sự thay đổi lỗi kiểm thử trong quá trình luyện mạng.
◦ Dừng học khi thấy lỗi kiểm thử bắt đầu tăng
2.3 Lựa chọn kích thước mạng
20
Các công trình dựa trên định lý của Kolmogorov dự kiến rằng toàn bộ các ánh xạ liên tục
từ [0,1]
p
đến [0,1]
n
đều có thể được xấp xỉ bằng một mạng perceptron ba lớp có lớp vào gồm p
nơ-ron, lớp ra gồm n nơ-ron và lớp ẩn gồm (2p+1) nơ-ron.
Tuy nhiên không thể chỉ ra được chính xác số lượng nơ-ron tối ưu trong mạng, tính chất
của các nơ-ron, tức là dạng phi tuyến cụ thể thực hiện phép xấp xỉ này.
Một số công trình nghiên cứu về chủ đề này cho rằng số nơron tối ưu ở lớp ẩn thường
nhỏ hơn (2p+1).
Ngoài ra cũng cần phải nói cơ sở dữ liệu học phải có kích thước phù hợp với kiến trúc
mạng. Theo Vapnik và Chervonenkis, cơ sở dữ liệu học phải có số mẫu thoả mãn:
N ≈ 10.N
w
, ở đó N
w
là số trọng số của mạng. (1.36)
Gọi số nơ-ron thuộc lớp ẩn là L, số nơ-ron ở lớp vào là p thì trọng số của các kết nối giữa
lớp vào và lớp ẩn thứ nhất (kể cả ngưỡng) là:
ẩn dưới đây, đối với các mạng có kích thước lớn hơn thì thao tác cũng tương tự.
Mạng nơ-ron được xét có m nơ-ron ở lớp vào, l nơ-ron trong lớp ẩn và n nơ-ron ở lớp ra.
Đường kẻ liền thể hiện luồng tín hiệu được truyền từ đầu vào tới đầu ra còn các đường kẻ nét đứt
thể hiện luồng tín hiệu lỗi được truyền ngược trở lại từ đầu ra.
21
Hình 1.15 Lan truyền tín hiệu trong quá trình học theo phương pháp lan truyền ngược sai số
Chúng ta xét một cặp đầu vào - đầu ra để luyện mạng (x,d), để đơn giản chúng ta bỏ ký
hiệu mũ k thể hiện số thứ tự của cặp mẫu này trong bộ mẫu dùng để luyện mạng. Khi đưa vào
đầu vào x, nơ-ron thứ q trong lớp ẩn sẽ nhận tín hiệu vào của mạng là:
net
q
= (1.20)
nơron q ở lớp ẩn sẽ tính toán và tạo kết quả ở đầu ra của nó là:
z
q
= g(net
q
) = g( ) (1.21)
Do đó tín hiệu vào của nơron thứ i trên lớp ra sẽ là:
net
i
= (1.22)
Và cuối cùng, đầu ra của nơron i trên lớp ra sẽ là:
y
i
= g(net
i
) = g( ) = g( ) (1.23)
Công thức trên cho biết quá trình lan truyền tín hiệu từ đầu vào qua lớp ẩn tới đầu ra.
Tiếp theo chúng ta xét tín hiệu lỗi được lan truyền ngược lại từ lớp ra. Trước hết, đối với mỗi cặp
iq
= -η (1.26)
Do hàm sai số E là một hàm phức tạp và là hàm gián tiếp của trọng số w
iq
(công thức
1.24). Sử dụng nguyên tắc tính đạo hàm của hàm gián tiếp cho ta có:
Δw
iq
= -η[ ] ][ ] = η[d
i
- y
i
] [g’(net
i
)] [z
q
] ηδ
oi
z
q
(1.27)
Trong đó δ
oi
là tín hiệu sai số và chỉ số oi có nghĩa là nút thứ i trong trên lớp ra.
Tín hiệu sai số được tính như sau:
δ
oi
-[ ] = -[ ][ ] = [d
i
- y
Δw
qj
= η (1.30)
Sử dụng công thức (1.24) ta viết lại biểu thức (1.26) như sau:
Δw
qj
= η μδ
hq
x
j
(1.31)
Trong đó δ
hq
là tín hiệu lỗi của nơron thứ q trong lớp ẩn và được định nghĩa như sau:
δ
hq
- ]= - ] [ ] = g’(net
q
) (1.32)
Với net
q
là tín hiệu vào của nơron thứ q, như vậy tín hiệu lỗi của nơron trên lớp ẩn khác
với tín hiệu lỗi của nơron trên lớp ra (xem công thức 1.28 và 1.32). Vì sự khác nhau này, thủ tục
điều chỉnh trọng số được gọi là luật học delta mở rộng. Nhìn lại công thức (1.32) tín hiệu lỗi δ
hq
của nơron thứ q trong lớp ẩn được xác định từ các tín hiệu lỗi δ
oi
, của các nơron trên lớp ra.
Tổng quát đối với lớp bất kỳ, luật lan truyền ngược có dạng:
Δw
) | k =1,2,…,p} và vector đầu vào được bổ
sung thêm x
(k)
m+1
= -1.
Bước 0 (khởi tạo)
Chọn một hằng số η > 0 và E
max
(dung sai cho phép). Khởi tạo ngẫu nhiên các trọng số
trong khoảng giá trị nhỏ. Đặt E =0 và k = 1.
Bước 1 (thực hiện một quá trình lặp cho việc huấn luyện mạng)
Sử dụng mẫu học thứ k:
Tại lớp vào (q=1), với mọi i ta có:
q
y
i
=
1
y
i
= x
(k)
i
Bước 2 (lan truyền tín hiệu từ lớp vào tời lớp ra)
Bước 3 (Xác định tín hiệu lỗi
Q
δ
i
tại lớp ra)
hàng chục nghìn epoch mới hội tụ tới lời giải. Nếu tham số khởi tạo không phù hợp có thể làm
cho quá trình học không đạt kết quả mong muốn. Đối với mỗi epoch ta tính sai số trung bình của
mạng theo công thức sau:
RMS = (1.34)
Trong đó p là số mẫu được dùng để luyện mạng, n là số biến của véc-tơ đầu ra. Sai số
RMS thường được dùng để đánh giá kết quả học của mạng nơ-ron.
I.2.4.2. Một số yếu tố ảnh hưởng đến quá trình học theo phương pháp lan truyền ngược sai
số
Khởi tạo các trọng số
25