ĐẠI HỌC THÁI NGUYÊN
TÌM HIỂU MẠNG NEURAL HAMMING
VÀ ỨNG DỤNG TRONG BÀI TOÁN NHẬN DẠNG
CÁC CHỮ CÁI TIẾNG VIỆT
Thái Nguyên – 2013
Số hóa bởi trung tâm học liệu
/>
ĐẠI HỌC THÁI NGUYÊN
TÌM HIỂU MẠNG NEURAL HAMMING
VÀ ỨNG DỤNG TRONG BÀI TOÁN NHẬN DẠNG
CÁC CHỮ CÁI TIẾNG VIỆT
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Ngƣời hƣớng dẫn khoa học: TS. Lê Quang Minh
Thái Nguyên – 2013
Số hóa bởi trung tâm học liệu
/>
LỜI CẢM ƠN
Để hoàn thành bản luận văn này, bên cạnh sự nỗ lực cố gắng của bản
thân còn có sự hƣớng dẫn nhiệt tình của quý Thầy Cô, cũng nhƣ sự động
MỞ ĐẦU............................................................................................................ 1
CHƢƠNG I: TỔNG QUAN VỀ HIỆN TRẠNG CÁC BÀI TOÁN NHẬN
DẠNG VÀ THIẾT LẬP BÀI TOÁN NGHIÊN CỨU ........................................ 3
1.1 Tổng quan về bài toán nhận dạng ............................................................ 3
1.2. Cụ thể về bài toán nhận dạng chữ cái Tiếng Việt ................................... 4
1.3. Thiết lập bài toán .................................................................................... 4
1.3.1. Ảnh đầu và ....................................................................................... 5
1.3.2. Tiền sử lý .......................................................................................... 5
1.3.2.1. Nhị phân hóa ảnh........................................................................... 5
1.3.2.2. Lọc nhiễu ....................................................................................... 6
1.3.2.3. Chuẩn hóa kích thƣớc ảnh ............................................................. 7
1.3.2.4. Làm trơn biên chữ ......................................................................... 7
1.3.2.5. Làm đầy chữ .................................................................................. 8
1.3.2.6. Làm mảnh chữ ............................................................................... 8
1.3.2.7. Điều chỉnh độ nghiêng của văn bản .............................................. 8
1.3.3. Quá trình biến đổi ảnh ...................................................................... 9
1.3.3.1. Biến đổi Fourier ............................................................................ 9
1.3.3.2. Biến đổi Wavelet ........................................................................... 9
1.3.3.3. Phƣơng pháp mô men.................................................................... 9
1.3.3.4. Khai triển Karhunent-Loeve ......................................................... 9
1.3.4. Nhận dạng ...................................................................................... 10
1.3.4.1. Đối sánh mẫu ............................................................................... 10
Số hóa bởi trung tâm học liệu
/>
1.3.4.2. Phƣơng pháp tiếp cận cấu trúc .................................................... 11
1.3.4.3. Mô hình Markov ẩn (HMM - Hidden Markov Model)............... 13
1.3.4.4. Máy véc tơ tựa (SVM) ................................................................ 13
2.2.1 Kiến trúc mạng Hamming ............................................................... 32
2.2.2 Thuật toán học điển hình của mạng Neural .................................... 34
2.3 Kết luận .................................................................................................. 40
CHƢƠNG III: ỨNG DỤNG MẠNG HAMMING TRONG BÀI TOÁN
NHẬN DẠNG CÁC CHỮ CÁI TIẾNG VIỆT ................................................. 41
3.1. Đặc thù và khó khăn của bài toán nhận dạng chữ cái Tiếng Việt ........ 41
3.2 Thuật toán chung của chƣơng trình ....................................................... 43
3.3 Cấu trúc mạng Neural Hamming của chƣơng trình nhận dạng các
chữ cái Tiếng Việt ................................................................................. 44
3.4. Xây dựng chƣơng trình nhận dạng chữ cái Tiếng Việt ........................ 46
3.4.1 Công cụ và ngôn ngữ lập trình ........................................................ 46
3.4.2 Xây dựng chƣơng trình ................................................................... 46
3.4.2.1 Xây dựng mô hình mạng Neural Hamming và các tín hiệu
đầu vào ........................................................................................ 46
3.4.2.2 Định vị và thu gọn kích cỡ ảnh ................................................... 48
3.4.2.3 Xây dựng thuật toán ..................................................................... 49
3.4.2.4 Nhận dạng ................................................................................... 50
3.4.2.5 Giao diện chƣơng trình................................................................. 54
3.5 Thử nghiệm chƣơng trình ...................................................................... 54
3.6 Nhận xét chung quá trình thử nghiệm nhận dạng chữ cái Tiếng
Việt và kết luận chƣơng 3 ..................................................................... 60
KẾT LUẬN...................................................................................................... 62
TÀI LIỆU THAM KHẢO ............................................................................... 63
Số hóa bởi trung tâm học liệu
/>
DANH MỤC CÁC TỪ VIẾT TẮT
SOM
Self Origanizing Map
ANN
Artificial Neural Network
VLSI
Very-large-scale-intergrated
MLP
Multi Layer Perceptron
LMS
Least Means Square
Số hóa bởi trung tâm học liệu
/>
DANH MỤC BẢNG, HÌNH VẼ
Bảng 3.1: Kết quả nhận dạng các chữ cái Tiếng Việt Font Times New Roman ........ 57
Bảng 3.2: Kết quả nhận dạng các chữ cái Tiếng Việt Font Arial ................... 59
Hình 1.1. Sơ đồ hệ thống nhận dạng ................................................................. 5
Hình 1.2. Nhị phân hóa ảnh .............................................................................. 6
Hình 3.14 Kết quả nhận dạng chữ Â với kích thƣớc là 60x30 pixel và độ
nhiễu là 25% ................................................................................... 56
Hình 3.15 Kết quả nhận dạng chữ Â font Arial với kích thƣớc 60x30 pixel với
độ nhiễu 25% .................................................................................. 56
Hình 3.16 Bảng kết quả trọng số đầu ra ảnh không tính nhiễu....................... 57
Hình 3.17 Bảng kết quả trọng số đầu ra ảnh có tính nhiễu ............................. 57
Hình 3.18 So sánh giữa ảnh đầu vào và ảnh mẫu ........................................... 60
Số hóa bởi trung tâm học liệu
/>
1
MỞ ĐẦU
Từ lâu các nhà khoa học đã nhận thấy những ƣu điểm của bộ óc con
ngƣời và tìm cách bắt chƣớc để thực hiện trên những máy tính, tạo cho nó có
khả năng học tập, nhận dạng và phân loại. Vì vậy các nhà khoa học đã nghiên
cứu và sáng tạo ra mạng Neural nhân tạo. Nó thực sự đƣợc chú ý và nhanh
chóng trở thành một hƣớng nghiên cứu đầy triển vọng đặc biệt là lĩnh vực
nhận dạng. Và bài toán nhận dạng ký tự là một bài toán con trong lớp các bài
toán nhận dạng, xử lý ảnh.
Hiện nay trên thế giới, các sản phẩm nhận dạng ký tự đã đƣợc triển
khai tƣơng đối rộng rãi. Tuy nhiên đây là các sản phẩm nhận dạng ký tự tiếng
Anh, do đó đối với nhận dạng ký tự tiếng Việt thì chỉ có ngƣời Việt Nam mới
có thể phát triển đƣợc. Ở nƣớc ta trong một vài năm gần đây cũng đã có một
số sản phẩm nhận dạng tiếng việt đƣợc triển khai trên thị trƣờng. Nhƣng các
sản phẩm này đƣợc bán trên thị trƣờng dƣới dạng đóng kín nên việc để phát
triển thành phần mềm tự động cập nhật ảnh là điều không thể. Vì vậy nên tôi
đã chọn đề tài: