Nhận dạng chữ Nôm bằng máy véc - tơ hỗ trợ (SVM) - Pdf 25

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN NGHI PHÚ

NHẬN DẠNG CHỮ NÔM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM)



 LUẬN VĂN THẠC SĨ

Hà Nội – 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN NGHI PHÚ

NHẬN DẠNG CHỮ NÔM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM)

Tổng kết chƣơng 1 10
Chƣơng 2. NHẬN DẠNG CHỮ NÔM 11

2.1. Nhận dạng ký tự quang học 11
2.2.1. CherryBlossom 12
2.2.2. Tesseract 13
2.3. Mô hình OCR chữ Trung Quốc 16
2.3.2. Phân đoạn 18
2.3.3. Chuẩn hóa ký tự 19
2.3.4. Nhận dạng 19
2.3.5. Các kết quả đạt được và những vấn đề đặt ra 20
2.4. Bài toán nhận dạng chữ Nôm 21
Tổng kết chƣơng 2 23
Chƣơng 3. MÁY VÉC-TƠ HỖ TRỢ (SVM) 24

3.1. Tổng quan về SVM 24
3.2. SVM tuyến tính 24
3.2. Lề mềm 26
3.3. SVM phi tuyến 26
3.4. SVM cho bài toán phân đa lớp 28
Tổng kết chƣơng 3 30
Chƣơng 4. GIẢI THUẬT KSVM CHO NHẬN DẠNG CHỮ NÔM 31

4.1. Giải thuật KSVM cho nhận dạng chữ Nôm 31
4.2. Phƣơng pháp trích chọn đặng trƣng trọng số vùng (Zoning) 32
4.3. Huấn luyện (trainning) 33
3.2.1. Xây dựng bộ nhận dạng OVOF 34
3.2.2. Tạo mẫu đại diện 34
3.2.3. Phân cụm bằng K-Mean 35
4.4. Nhận dạng (Recognition) 36

Bitmap
nh dng nh bitmap
3
FC
First Class
Lp th nht
4
GIF
Graphic Interface Format
nh dng giao di ha
5
ISO
International Organization for
Standardization
T chc chun hóa quc t
6
JOCR
Japanese Optical Character
Recognition
Nhn dng ký t quang hc Nht
7
k-NN
K Nearest Neighbor
K láng ging gn nht
8
KSVM
K-Mean & Support Vector Machine
K cm và máy véc- tr
9
OCR

 ha mng
17
SC
Second Class
Lp th 2
18
SVM
Support Vector Machine
Máy véc- tr

DANH MỤC BẢNG BIỂU
Bng 1.1. Mt s hình thc ch n nguyên dng ch Hán
Bng 1.2. Mt s b th dùng trong ch Nôm
Bng 1.3. T l ch n qua các thi k

Bng 2.2. Kt qu so sánh kh n dng gia FineReader và Tesseract
B chính xác mt s p
Bng 5.1. Kt qu thc nghim KSVM vi b d liu NOM-DB0 DANH MỤC HÌNH VẼ



Hình 2.2. Framework nhn dng ch ng hình ca JOCR.
Hình 2.3. .
c trong nhn dng ch Trung Quc
Hình 2.5. Quy trình nhn d quy
Hình 2.6. Quá trình phn ting Trung Quc
Hình 2 c trong nhn dng ch Hán

-
Nôm-OCR.

. V
 

  




 




-
 

 

2. Tình hình nghiên cứu
Nghiên cu ch c nhiu nhóm g v n ngôn
ng hc và công ngh thông tin. Mt trong nhng thành tu u tiên là vic hình thành các t
n ch Nôm, hình thành các kho ch c s hóa, s hóa và gii mã nhiu tài liu ch
n Kiu ca Hán Nôm Foundation. Tip ti, sau nhng n lc trong thi gian
dài, ch c xác lp v trí trong b ký t th gi
có 5067 ký t trùng hình vi ch Trung Quc, 4232 ch thun Nôm và hi ngh 
vào thêm 2200. K tiu b font Nôm, b gõ ch c xây dng.
Và mt trong nhp ca l trình trên là xây dng OCR-n ti vn

OCR ch ng hình, lun hành nghiên c xut thut toán nhn dng KSVM,
tit thut toán, tin hành thc nghi chính xác ca KSVM.
6. Kết cấu luận văn
Ngoài phn m u, kt lun, ph lc và danh mc tài liu tham kho, lum 5
u tng quan ch Nômp trung các yu
t n nhn du trúc ch Nôm, s ng t Nôm không có hình trong b
ch ng hình khác. Ting ni dung v bài toán nhn dng ch
 tìm hiu các OCR nói chung và OCR dành cho ch ng hình v
n kt qu c, mô hình và các gii thut cc tip tc nghiên cu. Trong
p trung tìm hing ci dung liên quan
nhin lup, vn là mt trong nhng ch 
c quan tâm nhi c bit khi áp dng cho ch Nôm có s ch l 
nhng kin thc t i thut KSVM cho bài toán
nhn dng ch Nôm do tác gi  xu thc hiu qu ca KSVM, trong
        c tin hành xây dng thc nghi   
c k tha t kt qu nghiên cu nào vi ch Nôm, nên lun
hành thc nghim t u tiên là t xây d d liu mn phn mm tách
ch, tin x ng kch bn và tin hành  Chƣơng 1. TỔNG QUAN CHỮ NÔM

1.1. Lịch sử và một số đặc điểmcủa chữ Nôm
Sau khi Vit Nam thoát kh ca Trung Qu Nôm ln




máy ("máy móc")

mộc (ý)
+
mãi (âm)

Trích đoạn Phƣơng pháptrích chọn đặng trƣng trọng số vùng (Zoning) Huấn luyện(trainning) Phân cụm bằng K-Mean Xây dựng bộ dữ liệu thực nghiệm Mục tiêu
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status