ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN NGHI PHÚ
NHẬN DẠNG CHỮ NÔM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM)
LUẬN VĂN THẠC SĨ
Hà Nội – 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN NGHI PHÚ
NHẬN DẠNG CHỮ NÔM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM)
Tổng kết chƣơng 1 10
Chƣơng 2. NHẬN DẠNG CHỮ NÔM 11
2.1. Nhận dạng ký tự quang học 11
2.2.1. CherryBlossom 12
2.2.2. Tesseract 13
2.3. Mô hình OCR chữ Trung Quốc 16
2.3.2. Phân đoạn 18
2.3.3. Chuẩn hóa ký tự 19
2.3.4. Nhận dạng 19
2.3.5. Các kết quả đạt được và những vấn đề đặt ra 20
2.4. Bài toán nhận dạng chữ Nôm 21
Tổng kết chƣơng 2 23
Chƣơng 3. MÁY VÉC-TƠ HỖ TRỢ (SVM) 24
3.1. Tổng quan về SVM 24
3.2. SVM tuyến tính 24
3.2. Lề mềm 26
3.3. SVM phi tuyến 26
3.4. SVM cho bài toán phân đa lớp 28
Tổng kết chƣơng 3 30
Chƣơng 4. GIẢI THUẬT KSVM CHO NHẬN DẠNG CHỮ NÔM 31
4.1. Giải thuật KSVM cho nhận dạng chữ Nôm 31
4.2. Phƣơng pháp trích chọn đặng trƣng trọng số vùng (Zoning) 32
4.3. Huấn luyện (trainning) 33
3.2.1. Xây dựng bộ nhận dạng OVOF 34
3.2.2. Tạo mẫu đại diện 34
3.2.3. Phân cụm bằng K-Mean 35
4.4. Nhận dạng (Recognition) 36
Bitmap
nh dng nh bitmap
3
FC
First Class
Lp th nht
4
GIF
Graphic Interface Format
nh dng giao di ha
5
ISO
International Organization for
Standardization
T chc chun hóa quc t
6
JOCR
Japanese Optical Character
Recognition
Nhn dng ký t quang hc Nht
7
k-NN
K Nearest Neighbor
K láng ging gn nht
8
KSVM
K-Mean & Support Vector Machine
K cm và máy véc- tr
9
OCR
ha mng
17
SC
Second Class
Lp th 2
18
SVM
Support Vector Machine
Máy véc- tr
DANH MỤC BẢNG BIỂU
Bng 1.1. Mt s hình thc ch n nguyên dng ch Hán
Bng 1.2. Mt s b th dùng trong ch Nôm
Bng 1.3. T l ch n qua các thi k
Bng 2.2. Kt qu so sánh kh n dng gia FineReader và Tesseract
B chính xác mt s p
Bng 5.1. Kt qu thc nghim KSVM vi b d liu NOM-DB0 DANH MỤC HÌNH VẼ
Hình 2.2. Framework nhn dng ch ng hình ca JOCR.
Hình 2.3. .
c trong nhn dng ch Trung Quc
Hình 2.5. Quy trình nhn d quy
Hình 2.6. Quá trình phn ting Trung Quc
Hình 2 c trong nhn dng ch Hán
-
Nôm-OCR.
. V
-
2. Tình hình nghiên cứu
Nghiên cu ch c nhiu nhóm g v n ngôn
ng hc và công ngh thông tin. Mt trong nhng thành tu u tiên là vic hình thành các t
n ch Nôm, hình thành các kho ch c s hóa, s hóa và gii mã nhiu tài liu ch
n Kiu ca Hán Nôm Foundation. Tip ti, sau nhng n lc trong thi gian
dài, ch c xác lp v trí trong b ký t th gi
có 5067 ký t trùng hình vi ch Trung Quc, 4232 ch thun Nôm và hi ngh
vào thêm 2200. K tiu b font Nôm, b gõ ch c xây dng.
Và mt trong nhp ca l trình trên là xây dng OCR-n ti vn
OCR ch ng hình, lun hành nghiên c xut thut toán nhn dng KSVM,
tit thut toán, tin hành thc nghi chính xác ca KSVM.
6. Kết cấu luận văn
Ngoài phn m u, kt lun, ph lc và danh mc tài liu tham kho, lum 5
u tng quan ch Nômp trung các yu
t n nhn du trúc ch Nôm, s ng t Nôm không có hình trong b
ch ng hình khác. Ting ni dung v bài toán nhn dng ch
tìm hiu các OCR nói chung và OCR dành cho ch ng hình v
n kt qu c, mô hình và các gii thut cc tip tc nghiên cu. Trong
p trung tìm hing ci dung liên quan
nhin lup, vn là mt trong nhng ch
c quan tâm nhi c bit khi áp dng cho ch Nôm có s ch l
nhng kin thc t i thut KSVM cho bài toán
nhn dng ch Nôm do tác gi xu thc hiu qu ca KSVM, trong
c tin hành xây dng thc nghi
c k tha t kt qu nghiên cu nào vi ch Nôm, nên lun
hành thc nghim t u tiên là t xây d d liu mn phn mm tách
ch, tin x ng kch bn và tin hành Chƣơng 1. TỔNG QUAN CHỮ NÔM
1.1. Lịch sử và một số đặc điểmcủa chữ Nôm
Sau khi Vit Nam thoát kh ca Trung Qu Nôm ln
máy ("máy móc")
mộc (ý)
+
mãi (âm)