Chơng Bảy: nhận dạng ảnh
7
nhận dạng ảnh
Pattern recognition
Nh chỉ ra trong hình 1.1-a chơng Một, nhận dạng ảnh là giai đoạn cuối cùng của
các hệ thống xử lý ảnh. Nhận dạng ảnh dựa trên nền tảng lý thuyết nhận dạng (pattern
recognition) nói chung và đã đợc đề cập trong nhiều sách về nhận dạng. ở đây, ta không
nhắc lại mà chỉ trình bày mang tính chất giới thiệu một số khái niệm cơ bản và các phơng
pháp thờng đợc sử dụng trong kỹ thuật nhận dạng. Và cuối cùng sẽ đề cập đến một trờng
hợp cụ thể về nhận dạng đó là nhận dạng chữ viết, một vấn đề đã và đang đợc quan tâm
nhiều.
Trong lý thuyết nhận dạng nói chung và nhận dạng ảnh nói riêng có 3 cách tiếp cận khác
nhau:
- Nhận dạng dựa vào phân hoạch không gian.
- Nhận dạng cấu trúc.
- Nhận dạng dựa vào kỹ thuật mạng nơ ron.
Hai cách tiếp cận đầu là các kỹ thuật kinh điển. Các đối tợng ảnh quan sát và thu
nhận đợc phải trải qua giai đoạn tiền xử lý nhằm tăng cờng chất lợng, làm nổi các chi tiết
(chơng 4), tiếp theo là trích chọn và biểu diễn các đặc trng (chơng 5 và chơng 6), và cuối
cùng mới qua giai đoạn nhận dạng. Cách tiếp cận thứ ba hoàn toàn khác. Nó dựa vào cơ chế
đoán nhận, lu trũ và phân biệt đối tợng mô phỏng theo hoạt động của hệ thần kinh con ng-
ời. Do cơ chế đặc biệt, các đối tợng thu nhận bởi thị giác ngời không cần qua giai đoạn cải
thiện mà chuyển ngay sang giai đoạn tổng hợp, đối sánh với các mẫu đã lu trữ để nhận
dạng. Đây là cách tiếp cận có nhiều hứa hẹn. Các cách tiếp cận trên sẽ trình bày chi tiết
trong các phần dới đây.
Nhập môn xử lý ảnh số - ĐHBK Hà nội 164
Chơng Bảy: nhận dạng ảnh
7.1 tổng quan về nhận dạng
Nhận dạng là quá trình phân loại các đối tợng đợc biểu diễn theo một mô hình nào
đó và gán cho chúng vào một lớp (gán cho đối tợng một tên gọi) dựa theo những quy luật và
các mẫu chuẩn. Quá trình nhận dạng dựa vào những mẫu học biết trớc gọi là nhận dạng có
i
biểu diễn một đối tợng. Không gian này có thể là vô hạn. Để tiện xem xét
chúng ta chỉ xét tập X là hữu hạn.
Không gian diễn dịch
Không gian diễn dịch là tập các tên gọi của đối tợng. Kết thúc quá trình nhận
dạng ta xác định đợc
tên gọi cho các đối tợng trong tập không gian đối tợng hay nói là đã nhận dạng đợc đối tợng
Một cách hình thức gọi
là tập tên đối tợng:
= {w
1
, w
2
,...,w
k
} với w
i
, i = 1, 2,..., k là tên các đối tợng
Quá trình nhận dạng đối tợng f là một ánh xạ f: X --->
với f là tập các quy luật để
định một phần tử trong X ứng với một phần tử trong
. Nếu tập các quy luật và tập tên các
đối tợng là biết trớc nh trong nhận dạng chữ viết (có 26 lớp từ A đến Z), ngời ta gọi là nhận
Nhập môn xử lý ảnh số - ĐHBK Hà nội 165
Chơng Bảy: nhận dạng ảnh
=
1
1
N
i
N
=
y
i
là toạ độ tâm điểm. Nh vậy, moment trung tâm bậc p, q của đờng bao là:
à
pq
=
1
1
N
i
N
=
(x
i
-x
0
)
p
(y
i
-y
, một bộ kí hiệu không
kết thúc gọi là V
n
. Ngoài ra có dùng một tập các luật sản xuất để mô tả cách xây dựng
các đối tợng phù hợp dựa trên các đối tợng đơn giản hơn hoặc đối tợng nguyên thuỷ
(tập V
t
). Trong cách tiếp cận này, ta chấp nhận một khẳng đinh là: cấu trúc một dạng là
kết quả của việc áp dụng luật sản xuất theo theo những nguyên tắc xác định bắt đầu từ
một dạng gốc bắt đầu. Một cách hình thức, ta có thể coi mô hình này tơng đơng một
văn phạm G = (V
t
, V
n
, P, S) với:
- V
t
là bộ ký hiệu kết thúc,
- V
n
là bộ ký hiệu không kết thúc,
- P là luật sản xuất,
- S là dạng (ký hiệu bắt đầu).
Thí dụ, đối tợng nhà gồm mái và tờng, mái là một tam giác gồm 3 cạnh là 3 đoạn thẳng, t-
ờng là một hình chữ nhật gồm 4 cạnh vuông góc với nhau từng đôi một sẽ đợc mô tả thông
qua cấu trúc mô tả dựa vào văn phạm sinh nh chỉ ra trong hình 7.1 dới đây.
(1) (2) Nhà
(3)
Mái Tờng
Nhập môn xử lý ảnh số - ĐHBK Hà nội 167
Nhập môn xử lý ảnh số - ĐHBK Hà nội 168
Chơng Bảy: nhận dạng ảnh
thủ tục xử lý khác nhau nhằm phân lớp và nâng cấp dần để đạt đợc một phơng án phân loại.
Một số kỹ thuật tự học sẽ đợc trình bày trong phần 7.2.4.
Nhìn chung, dù là mô hình nào và kỹ thuật nhận dạng ra sao, một hệ thống nhận
dạng có thể tóm tắt theo sơ đồ sau:
Trích chọn đặc tính Phân lớp trả lời Đánh
biểu diễn đối tợng ra quyết định giá
Quá trình tiền xử lý Khối nhận dạng
Hình 7.2 Sơ đồ tổng quát một hệ nhận dạng.
7.2 nhận dạng dựa trên phân hoạch không gian
Trong kỹ thuật này, các đối tợng nhận dạng là các đối tợng định lợng. Mỗi đối t-
ợng đợc biểu diễn bởi một véctơ nhiều chiều. Trớc tiên, ta xem xét một số khái niệm nh:
phân hoạch không gian, hàm phân biệt sau đó sẽ đi vào một số kỹ thuật cụ thể.
7.2.1 Phân hoạch không gian
Giả sử không gian đối tợng X đợc định nghĩa : X = {X
i
, i=1, 2,...,m}, X
i
là một
véctơ. Ngời ta nói p là một phân hoạch của không gian X thành các lớp C
i
, C
i
X nếu:
C
i
C
j
= với i j và C
2
+. . . + W
k
X
k
trong đó:
- W
i
là các trọng số gán cho các thành phần X
i
.
- W
0
là trọng số để viết cho gọn.
Trong trờng hợp g là tuyến tính, ngời ta nói là việc phân lớp là tuyến tính hay siêu phẳng
(hyperplan).
Các hàm phân biệt thờng đợc xây dựng dựa trên khái niệm khoảng cách hay dựa
vào xác suất có điều kiện.
Lẽ tự nhiên, khoảng cách là một công cụ rất tốt để xác định xem đối tợng có "gần
nhau" hay không. Nếu khoảng cách nhỏ hơn một ngỡng nào đấy ta coi 2 đối tợng là giống
nhau và gộp chúng vào một lớp. Ngợc lại , nếu khoảng cách lớn hơn ngỡng , có nghĩa là
chúng khác nhau và ta tách thành 2 lớp.
Trong một số trờng hợp, ngời ta dựa vào xác suất có điều kiện để phân lớp cho đối
tợng. Lý thuyết xác suất có điều kiện đợc Bayes nghiên cứu khá kỹ và chúng ta có thể áp
dụng lý thuyết này để phân biệt đối tợng.
Gọi : P(X/C
i
) là xác suất để có X biết rằng có xuất hiện lớp C
i
P(C
=
=
(7.2)
Nếu P(C
i
/X) > P(C
k
/X) với i # k thì X C
i
. Tuỳ theo các phơng pháp nhận dạng khác
nhau, hàm phân biệt sẽ có các dạng khác nhau.
7.2.3 Nhận dạng thống kê
Nhập môn xử lý ảnh số - ĐHBK Hà nội 170
Chơng Bảy: nhận dạng ảnh
Nếu các đối tợng nhận dạng tuân theo luật phân bố Gauss, mà hàm mật độ sác xuất
cho bởi:
1 (x-m)
2
f(x) = exp (- )
2
2
2
2
ngời ta có dùng phơng pháp ra quyết định dựa vào lý thuyết Bayes. Lý thuyết Bayes thuộc
loại lý thuyết thống kê nên phơng pháp nhận dạng .dựa trên lý thuyết Bayes có tên là phơng
pháp thống kê.
Quy tắc Bayes
- Cho không gian đối tợng X = {X
Phơng pháp ra quyết định với
tối thiểu
Ta xác định X
C
k
nhờ xác suất P(C
k
/X). Vậy nếu có sai số, sai số sẽ đợc tính bởi
1 - P(C
k
/X). Để đánh giá sai số trung bình, ngời ta xây dựng một ma trận L(r,r) giả thiết là
có n lớp.
Ma trận L đợc định nghĩa nh sau:
l
k,j
> 0 nếu k <>j (tồn tại sai số) (7.3)
L
k,j
= l
k,j
<= 0 nếu k = j (không có sai số)
Nh vậy, sai số trung bình của sự phân lớp sẽ là:
r
k
(X) =
=
r
k
<
p
với p <> k, p=1, 2,..., r. (7.6)
với
k
là r
k
(X).
Trờng hợp đặc biệt với 2 lớp C
1
và C
2
, ta dễ dàng có:
X
C
1
nếu P(X/C
1
) >
)/(
)(
)(
2
121
2212
2
a) Nguyên tắc
Cho một tập gồm m đối tợng. Ta xác định khoảng cách giữa các đối tợng và
khoảng cách lớn nhất ứng với phần tử xa nhất tạo nên lớp mới. Sự phân lớp đợc hình thành
dần dần dựa vào việc xác định khoảng cách giữa các đối tợng và các lớp.
b) Thuật toán
Bớc 1
- Chọn hạt nhân ban đầu: giả sử X
1
C
1
gọi là lớp g
1
. Gọi Z
1
là phần tử trung
tâm của g
1
.
- Tính tất cả các khoảng cách D
j1
= D(X
j
,Z
1
) với j =1, 2,..., m
- Tìm D
k1
= max
- D
j1
= D(X
j
,Z
1
), D
j2
= D((X
j
,Z
2
). Đặt D
k
(2)
= max
j
D
j
Nguyên tắc chọn
Nhập môn xử lý ảnh số - ĐHBK Hà nội 172
Chơng Bảy: nhận dạng ảnh
- Nếu D
k
(2)
< d
1
kết thúc thuật toán. Phân lớp xong.
- Nếu không, sẽ tạo nên nhóm thứ ba. Gọi X
k
2
,..., Z
m
.
7.2.4.2. Thuật toán K trung bình ( giả sử có K lớp)
a) Nguyên tắc
Khác với thuật toán trên, ta xét K phần tử đầu tiên trong không gian đối tợng, hay
nói một cách khác ta cố định K lớp. Hàm để đánh giá là hàm khoảng cách Euclide:
J
k
=
=
=
k
j
ZkXjD
gkX
ZkXD
1
),(),( 2
(7-9)
J
k
là hàm chỉ tiêu với lớp C
k
. Việc phân vùng cho k hạt nhân đầu tiên đợc tiến hành theo
nguyên tắc khoảng cách cực tiểu. ở đây, ta dùng phơng pháp đạo hàm để tính cực tiểu.
1
(7.10)
Công thức 7.10 là giá trị trung bình của lớp C
k
và điều này lý giải tên của phơng pháp.
b)Thuật toán
Chọn N
c
phần tử (giả thiết có N
c
lớp) của tập T. Gọi các phần tử trung tâm của
các lớp đó là: X
1
, X
2
,..., X
Nc
và ký hiệu là Z
1
, Z
2
, ..., Z
Nc
.
Thực hiện phân lớp
X
C
k
nếu D(X,Zk) = Min D(X,Zj)
Chơng Bảy: nhận dạng ảnh
ISODATA là viết tắt của từ Iteractive Self Organizing Data Analysis. Nó là thuật
toán khá mềm dẻo, không cần cố định các lớp trớc. Các bớc của thuật toán đợc mô tả nh
sau:
- Lựa chọn một phân hoạch ban đầu dựa trên các tâm bất kỳ. Thực nghiệm đã
chứng minh kết quả nhận dạng không phụ thuộc vào phân lớp ban đầu [2].
- Phân vùng bằng cách sắp các điểm vào tâm gần nhất dựa vàp khoảng cách
Euclide.
- Tách đôi lớp ban đầu nếu khoảng cách lớn hơn ngỡng t
1
.
- Xác định phân hoạch mới trên cơ sở các tâm vừa xác định lại và tiếp tục xác
định tâm mới.
- Tính tất cả các khoảng cách đến tâm mới.
- Nhóm các vùng với tâm theo ngỡng t
2
.
Lặp các thao tác tác trên cho đến khi thoả tiêu chuẩn phân hoạch.
7.3 Nhận dạng theo cấu trúc
7.3.1 Biểu diễn định tính
Ngoài cách biễn diễn theo định lợng nh đã mô tả ở trên, tồn tại nhiều kiểu đối t-
ợng mang tính định tính. Trong cách biểu diễn này, ngời ta quan tâm đến các dạng và mối
quan hệ giữa chúng. Giả thiết rằng mỗi đối tợng đợc biểu diễn bởi một dãy ký tự. Các đặc
tính biểu diễn bởi cùng một số ký tự. Phơng pháp nhận dạng ở đây là nhận dạng lô gíc, dựa
và hàm phân biệt là hàm Bool. Cách nhận dạng là nhận dạng các từ có cùng độ dài.
Giả sử hàm phân biệt cho mọi ký hiệu là g
a
(x), g
b
(x),..., tơng ứng với các ký hiệu a,
7.3.2 Phơng pháp ra quyết định dựa vào cấu trúc
7.3.2.1 Một số khái niệm
Thủ tục phân loại và nhận dạng ở đây gồm 2 giai đoạn: Giai đoạn đầu là giai đoạn
xác định các quy tắc xây dựng, tơng đơng với việc nghiên cứu một văn phạm trong một
Nhập môn xử lý ảnh số - ĐHBK Hà nội 174
Chơng Bảy: nhận dạng ảnh
ngôn ngữ chính thống. Giai đoạn tiếp theo khi đã có văn phạm là xem xét tập các dạng có đ-
ợc sinh ra từ các dạng đó không? Nếu nó thuộc tập đó coi nh ta đã phân loại xong. Tuy
nhiên, văn phạm là một vấn đề lớn. Trong nhận dạng cấu trúc, ta mới chỉ sử dụng đợc một
phần rất nhỏ mà thôi.
Nh trên đã nói, mô hình cấu trúc tơng đơng một văn phạm G :G = {V
n
, V
t
, P, S}.
Có rất nhiều kiểu văn phạm khác nhau từ chính tắc, phi ngữ cảnh,... Độc giả quan tâm xin
xem các tài liệu về lý thuyết ngôn ngữ hình thức hay ô tô mát . ở đây, xin giới thiệu một
ngôn ngữ có thể đợc áp dụng trong nhận dạng cấu trúc: đó là ngôn ngữ PLD (Picture
Language Description).
Ví dụ: Ngôn ngữ PLD
Trong ngôn ngữ này, các từ vựng là các vạch có hớng. Có 4 từ vựng cơ bản:
a: b: c: và d:
Các từ vựng trên các quan hệ đợc định nghĩa nh sau:
+ : a + b
- : a - b
x: a x b
*: a * b
Văn phạm sinh ra các mô tả trong ngôn ngữ đợc định nghĩa bởi:
G
A
x
) thì ta nói rằng X Ck.
Nói cách khác, việc ra quyết định phân lớp là dựa vào phân tích cúG
k
biểu diễn lớp
C
k
. pháp của văn phạm. Cũng nh trong phân tích cú pháp ngôn ngữ, có phân tích trên
xuống, dới lên, việc nhận dạng theo cấu trúc cũng có thể thực hiện theo cách tơng tự.
Việc nhận dạng dựa theo cấu trúc là một ý tởng và dẫu sao cũng cần đợc nghiên
cứu thêm.
7.4 mạng nơ ron nhân tạo và Nhận dạng theo mạng nơ ron
Trớc tiên, cần xem xét một số khái niệm cơ bản về bộ não cũng nh cơ chế hoạt
động của mạng nơ ron sinh học. Tiếp theo, để tiện theo dõi, ở đây sẽ đề cập đến một ứng
dụng của mạng nơ ron trong nhận dạng chữ viết.
7.4.1.Bộ não và nơ ron sinh học
Các nhà nghiên cứu sinh học về bộ não cho ta thấy rằng các nơ ron (tế bào thần
kinh) là đơn vị cơ sở đảm nhiệm những chức năng xử lý nhất định trong hệ thần kinh, bao
gồm não, tuỷ sống và các dây thần kinh. Mỗi nơ ron có phần thân với nhân bên trong (gọi là
soma), một đầu thần kinh ra (gọi là sợi trục axon) và một hệ thống dạng cây các dây thần
kinh vào (gọi là dendrite). Các dây thần kinh vào tạo thành một lới dày đặc xung quanh thân
tế bào, chiếm diện tích khoảng 0,25 mm
2
, còn dây thần kinh ra tạo thành trục dài có thể từ 1
cm cho đến hàng mét. Đờng kính của nhân tế bào thờng chỉ là 10
-4
m. Trục dây thần kinh ra
cũng có thể phân nhánh theo dạng cây để nối với các dây thần kinh vào hoặc trực tiếp với
nhân tế bào các nơ ron khác thông qua các khớp nối (gọi là synapse). Thông thờng, mỗi nơ
ron có thể gồm vài chục cho tới hàng trăm ngàn khớp nối để nối với các nơ ron khác. Ngời
ợng.
- Bộ não có khả năng xuống cấp và thay thế dần dần. Khi có những trục trặc tại các
vùng não (do bệnh, chấn thơng) hoặc bắt gặp những thông tin hoàn toàn mới lạ, bộ não vẫn
có thể tiếp tục làm việc.
Nhập môn xử lý ảnh số - ĐHBK Hà nội 177
Chơng Bảy: nhận dạng ảnh
-Bộ não có khả năng học.
So sánh khả năng làm việc của bộ não và máy tính
Máy tính Bộ não ngời
Đơn vị tính toán Bộ xử lý trung tâm với 10
5
mạch logic cơ sở Mạng 10
11
nơ ron
Bộ nhớ 10
9
bit RAM 10
11
nơ ron
10
10
bit bộ nhớ ngoài với 10
14
khớp nối
thần kinh
Thời gian xử lý 10
-8
giây 10
-3
giây
Cách tiếp cận mạng nơ ron nhân tạo có ý nghĩa thực tiễn rất lớn cho phép tạo ra
các thiết bị có thể kết hợp khả năng song song cao của bộ não với tốc độ tính toán cao của
máy tính. Tuy vậy, cần phải có một khoảng thời gian dài nữa để các mạng nơ ron nhân tạo
có thể mô phỏng đợc các hành vi sáng tạo của bộ não con ngời. Chẳng hạn, bộ não có thể
thực hiện một nhiệm vụ khá phức tạp nh nhận ra khuôn mặt ngời quen sau không quá 1
giây, trong khi đó một máy tính tuần tự phải thực hiện hàng tỷ phép tính (khoảng 10 giây)
Nhập môn xử lý ảnh số - ĐHBK Hà nội 178
Chơng Bảy: nhận dạng ảnh
để thực hiện cùng thao tác đó, nhng với chất lợng kém hơn nhiều, đặc biệt trong trờng hợp
thông tin không chính xác, không đầy đủ.
nối
Hình 7-3 . Cấu tạo nơ ron sinh học
7.4.2. Mô hình mạng nơ ron nhân tạo
Mạng nơ ron nhân tạo (Artificial Neural Network) gọi tắt là MNR bao gồm các nút
(đơn vị xử lý, nơ ron) đợc nối với nhau bởi các liên kết nơ ron. Mỗi liên kết kèm theo một
trọng số nào đó, đặc trng cho đặc tính kích hoạt/ ức chế giữa các nơ ron. Có thể xem các
trọng số là phơng tiện để lu giữa thông tin dài hạn trong mạng nơ ron và nhiệm vụ của quá
trình huấn luyện (học) mạng là cập nhật các trọng số khi có thêm các thông tin về các mẫu
học, hay nói một cách khác, các trọng số đợc điều chỉnh sao cho dáng điệu vào ra của nó
mô phỏng hoàn toàn phù hợp môi trờng đang xem xét.
Trong mạng, một số nơ ron đợc nối với môi trờng bên ngoài nh các đầu ra, đầu vào.
7.4.2.1. Mô hình nơ ron nhân tạo
Hình 7.4 . Mô hình nơ ron nhân tạo
Nhập môn xử lý ảnh số - ĐHBK Hà nội 179
Khớp
nối
Nhân
Dây
TK
vào
Ngời ta gọi đây là thành phần tuyến tính của nơ ron. Hàm kích hoạt g (còn gọi là
hàm chuyển) đóng vai trò biến đổi từ Net sang tín hiệu đầu ra out.
out = g ( Net ).
Đây là thành phần phi tuyến của nơ ron. Có 3 dạng hàm kích hoạt thờng đợc dùng trong
thực tế:
Hàm dạng bớc step(x) = 1 nếu x 0 hoặc step(x) = 1 nếu x
0 nếu x< 0 0 nếu x<
Hàm dấu sign(x) = 1 nếu x 0 hoặc sign(x) = 1 nếu x
-1 nếu x< 0 -1 nếu x<
Hàm sigmoid
ở đây ngỡng đóng vai trò làm tăng tính thích nghi và khả năng tính toán của
mạng nơ ron. Sử dụng ký pháp véctơ, S = (s
1
,...,s
n
) véctơ tín hiệu vào, W=( w
1
,..., w
n
) véctơ
trọng số, ta có
out = g( Net ) , Net = SW.
Trờng hợp xét ngỡng , ta dùng biểu diễn véctơ mới S'=( s
1
,...,s
n
, ), W'=( w
1
,..., w
=
x
e
xSigmoid
Chơng Bảy: nhận dạng ảnh
7.4.2.2. Mạng nơ ron
Mạng nơ ron là hệ thống bao gồm nhiều phần tử xử lý đơn giản (nơ ron) hoạt động
song song. Tính năng của hệ thống này tuỳ thuộc vào cấu trúc của hệ, các trọng số liên kết
nơ ron và quá trình tính toán tại các nơ ron đơn lẻ. Mạng nơ ron có thể học từ dữ liệu mẫu
và tổng quát hóa dựa trên các dữ liệu mẫu học.Trong mạng nơ ron, các nơ ron đón nhận tín
hiệu vào gọi là nơ ron vào và các nơ ron đa thông tin ra gọi là nơ ron ra.
A. Phân loại các mạng nơ ron
Theo kiểu liên kết nơ ron: Ta có mạng nơ ron truyền thẳng (feel-forward Neural
Network) và mạng nơ ron qui hồi (recurrent NN). Trong mạng nơ ron truyền thẳng, các liên
kết nơ ron đi theo một hớng nhất định, không tạo thành đồ thị không có chu trình (Directed
Acyclic Graph) với các đỉnh là các nơ ron, các cung là các liên kết giữa chúng. Ngợc lại,
các mạng qui hồi cho phép các liên kết nơ ron tạo thành chu trình. Vì các thông tin ra của
các nơ ron đợc truyền lại cho các nơ ron đã góp phần kích hoạt chúng, nên mạng hồi qui
còn có khả năng lu giữ trạng thái trong của nó dới dạng các ngỡng kích hoạt ngoài các trọng
số liên kết nơ ron.
Theo số lớp: Các nơ ron có thể tổ chức lại thành các lớp sao cho mỗi nơ ron của lớp này chỉ
đợc nối với các nơ ron ở lớp tiếp theo, không cho phép các liên kết giữa các nơ ron trong
cùng một lớp, hoặc từ nơ ron lớp dới lên nơ ron lớp trên. ở đây cũng không cho phép các
liên kết nơ ron nhảy qua một lớp.
Hình 7.5 . Mạng nơ ron truyền thẳng và nhiều lớp
Nhập môn xử lý ảnh số - ĐHBK Hà nội 181
Nơ ron vào
Nơ ron ra
Lớp vào
Lớp ẩn
+ Số nơ ron trên mỗi lớp ẩn.
+ Số lợng liên kết của mỗi nơ ron (liên kết đầy đủ, liên kết bộ phận và liên kết
ngẫu nhiên).
+ Các trọng số liên kết nơ ron.
Mạng nơ ron nh một hệ thống thích nghi có khả năng học (huấn luyện) để tinh
chỉnh các trọng số liên kết cũng nh cấu trúc của mình sao cho phù hợp với các
mẫu học (samples). Ngời ta phân biệt ba loại kỹ thuật học (i) học có quan sát
Nhập môn xử lý ảnh số - ĐHBK Hà nội 182
Chơng Bảy: nhận dạng ảnh
(supervised learning) hay còn gọi là học có thầy (ii) học không có giám sát
(unsupervised learning) hay còn gọi là học không có thầy và (iii) học tăng cờng.
Trong học có giám sát, mạng đợc cung cấp một tập mẫu học {(X
s
,Y
s
)} theo
nghĩa X
s
là
các tín hiệu vào, thì kết quả ra đúng cuả hệ phải là Y
s
. ở mỗi lần
học, vectơ tín hiệu vào X
s
đợc đa vào mạng, sau đó so sánh sự sai khác giữa các
kết quả ra đúng Y
s
với kết quả tính toán out
s
X
s
out
s
Y
s
Chơng Bảy: nhận dạng ảnh
của các nơ ron trong mạng. Một cách tổng quát phải xác định bộ tham số P =
(L,n
1
,...,n
l
,
1
,...,
k
).
ở đây k = n
j
sao cho
Y
s
= Tinh (X
s
,P) đối với mọi mẫu học s=( X
s
, Y
s
) (2)
Về thực chất, việc điều chỉnh các vectơ tham số W trong (1) hay P trong (2) đều qui
kết trọng số trong mạng dựa trên cách tiếp cận lý thuyết thông tin. Đơn giản nhất là các
liên kết có trọng số bằng 0. Quá trình cứ tiếp tục nh vậy. Thực nghiệm chỉ ra rằng, kỹ thuật
này có thể loại trừ tới 3/4 các liên kết, do đó nâng cao đáng kể hiệu quả của mạng.
Ngoài việc loại trừ các liên kết nơ ron thừa, ngời ta có thể vứt bỏ những nơ ron
không đóng góp nhiều vào quá trình thực hiện của mạng.
Giải thuật " Lợp ngói" là một biến thể của kỹ thuật tăng trởng mạng xuất phát từ cấu
hình ban đầu tơng đối nhỏ. ý tởng ở đây là xác định một cấu hình mạng cho phép tính
đúng các mẫu học đã biết. Sau đó, mỗi khi thêm dần mẫu học mới, mạng đợc phép thêm
một số nơ ron cho phép đoán đúng kết quả học hiện tại và quá trình cứ tiếp tục nh vậy.
7.4.3. Các mạng nơ ron một lớp
7.4.3.1. Mạng Hopfield
Năm 1982 nhà vật lý ngời Mỹ J.J. Hopfield đã đề xuất mô hình mạng nơ ron một
lớp NN cho phép tạo ánh xạ dữ liệu từ tín hiệu vào sang tín hiệu ra theo kiểu tự kết hợp
(auto - association) tức là nếu tín hiệu vào là X thuộc miền giá trị D nào đó thì kết quả ra
Y:
Y = Tinh(X,NN) cũng thuộc vào miền D đó.
Nhờ vậy, một vectơ tín hiệu vào X bị thiếu thông tin hoặc biến dạng có thể đợc phục
hồi dạng nguyên bản của mình.
Trong ứng dụng, mạng Hopfield đã mô phỏng đợc khả năng tự kết hợp (hồi tởng)
của bộ não ngời, nhận ra ngời quen sau khi nhận thấy những nét quen thuộc trên khuôn
mặt. Ngoài ra, với một số cải biên mạng Hopfield còn đợc dùng để giải quyết các bài toán
tối u, bài toán xử lý dữ liệu trong điều khiển tự động.
A. Kiến trúc mạng
Mạng Hopfield có một lớp ra, với số nơ ron bằng số tín hiệu vào. Các liên kết nơ ron
là đầy đủ.
Nhập môn xử lý ảnh số - ĐHBK Hà nội 185
Lớp vào
Lớp ra
Chơng Bảy: nhận dạng ảnh
Hình 7.8. Mạng Hopfield
Một cách trực quan, trọng số liên kết
ji
sẽ tăng thêm một lợng là 1 (tơng ứng với
số hạng x
sj
.x
si
) nếu cả hai thành phần thứ i và thứ j của mẫu học X
s
bằng nhau. Khi có mẫu
học mới X
p+1
ta chỉ cần xét các thành phần thứ i và thứ j của nó để cập nhật giá trị cho w
ji
(6). Có thể chứng minh đợc với ma trận W đợc xác định nh trong (5), ta sẽ có đợc (4). Nói
cách khác, mạng đã "học thuộc" các ví dụ mẫu {X
s
}.
C. Sử dụng mạng.
Giả sử đa vào mạng vectơ tín hiệu X.
Sử dụng mạng để tính đầu ra tơng ứng với tín hiệu vào X là quá trình lặp bao gồm
các bớc:
1. Ban đầu , đặt X
(0)
= X . Gọi Y
(t)
là vectơ tín hiệu ra tơng ứng với một lần cho X
(t)
lan truyền trong mạng.
Y
=
m
i
ijijj
xwsignNetsignout
1
(3)
Chơng Bảy: nhận dạng ảnh
2. Nếu Y
(t)
X
(t)
thì tiếp tục bớc lặp với t=t+1 và X
(t+1)
= Y
(t)
= out
(t)
Nếu Y
(t)
= X
(t)
thì dừng và khi đó X
(t)
đợc coi là kết quả xử lý của mạng khi có tín
hiệu vào X.
Điểm chú ý quan trọng là ma trận W không thay đổi trong quá trình sử dụng mạng.
Một vài tình huống nảy sinh
nhật ma trận trọng số (xem (6)).
D. Thử nghiệm mạng trong phục hồi ảnh
Xét bài toán phục hồi ảnh đen trắng kích cỡ 4 x 4. Nh vậy mỗi ảnh có 16 điểm ảnh.
Ta thiết kế một mạng HF với 16 đầu vào và 16 nơ ron ra. Vectơ đầu vào của mạng nhận đ-
ợc từ ma trận ảnh, lấy từng dòng một, sau khi đã biến đổi nhờ sử dụng hàm x'=2x-1.
Ban đầu ta có 4 mẫu
X
1
=(0,0,1,1,0,0,1,1,1,1,0,0,1,1,0,0) X
2
=(0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0)
X
3
=(1,1,1,1,0,0,0,1,0,0,0,1,1,1,1,1) X
4
=(1,0,0,0,1,0,0,0,1,0,0,0,1,1,1,1)
Nhập môn xử lý ảnh số - ĐHBK Hà nội 187
Chơng Bảy: nhận dạng ảnh
Hình 7.9. Mẫu học
X
1
0 0 1 1 0 0 1 1 1 1 0 0 1 1 0 0
X
1
' -1 -1 1 1 -1 -1 1 1 1 1 -1 -1 1 1 -1 -1
'
... ...
O O O O O O O O O O O O O O O O