ĐẠ
I H
Ọ
C QU
Ố
C GIA HÀ N
Ộ
I
TRƯỜNG ĐẠ
I H
Ọ
C CÔNG NGH
Ệ
NINH TH
Ị
THU HÀ CÁC K
Ỹ
THU
Ậ
T X
Ử
ầ
n m
ề
m
Mã s
ố
: 60480103 LU
Ậ
N VĂN THẠC SĨ
Hà N
ộ
i
- 2014 ĐẠ
I H
Ọ
C QU
Ố
C GIA HÀ N
Ộ
I
Ệ
T
C
Ủ
A H
Ệ
TH
Ố
NG FSCANNER
Ngành: Công ngh
ệ
thông tin
Chuyên ngành:
Công ngh
ệ
ph
ầ
n m
ề
m
Mã s
ố
: 60480103
LU
Ậ
N
VĂN THẠC SĨ
ph
ầ
n m
ề
m, khóa 2012
-
2014. Tôi xin cam đoan lu
ận văn thạc sĩ “Các kỹ
thu
ậ
t x
ử
lý ngôn ng
ữ
trong s
ố
hóa văn b
ả
n ti
ế
ng Vi
ệ
t c
ủ
a h
ệ
nêu trong Lu
ậ
n văn là trung thực và chưa từng đượ
c ai công
b
ố
trong b
ấ
t k
ỳ
công trình nào khác.
T
ấ
t c
ả
nh
ữ
ng tham kh
ả
o t
ừ
các nghiên c
ứu liên quan đều đượ
c nêu ngu
ồ
n
g
ố
ề
tài li
ệ
u tham kh
ả
o.
Hà n
ộ
i, ngày 28
tháng 10 năm 2014
Tác gi
ả
Ninh Th
ị
Thu Hà L
Ờ
I C
Ả
M ƠN
Tôi xin g
b
ả
o t
ậ
n tình
cho tôi trong su
ố
t quá trình nghiên
c
ứ
u và hoàn thành lu
ậ
n văn tố
t nghi
ệ
p.
Tôi xin g
ử
i l
ờ
i c
ảm ơn chân thành tớ
i các th
ầy cô đã và đang tham gia
gi
ả
ng d
ạ
n l
ợ
i cho tôi hoàn thành khóa
h
ọ
c t
ại trườ
ng.
Tôi xin bày t
ỏ
lòng bi
ết ơn tớ
i t
ấ
t c
ả
b
ạn bè, đồ
ng nghi
ệp và người thân đã
động viên, giúp đỡ
tôi trong su
ố
t quá trình h
ọ
c t
ậ
p và nghiên c
ứ
u, hoàn thành
o
để
hoàn thi
ệ
n lu
ận văn này.
Tác gi
ả
MỤC LỤC
DANH M
Ụ
C CÁC T
Ừ
VI
Ế
T T
Ắ
T 1
HÓA VĂN BẢ
N TI
Ế
NG VI
Ệ
T 9
1.1 Gi
ớ
i thi
ệ
u v
ề
x
ử
lý ngôn ng
ữ
t
ự
nhiên 9
1.2 Gi
ớ
i thi
ệ
u m
ộ
t s
ố
công ngh
ệ
ế
ng
Vi
ệ
t
11
1.2.3 Công ngh
ệ
tách b
ộ
và l
ậ
p ch
ỉ
m
ụ
c
12
1.3 Bài toán x
ử
lý ngôn ng
ữ
trong s
ố
ộ
t s
ố
k
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng OCR 16
2.1.1. Gi
ớ
i thi
ệ
u 16
2.1.2. K
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng d
ựa trên mô hình máy vectơ hỗ
tr
ợ
(SVM) 18
n nh
ậ
n d
ạ
ng OCR c
ủ
a FSCANNER
24
2.2. K
ỹ
thu
ậ
t soát l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t d
ự
a trên mô hình n
-gram 25
2.2.1. Gi
ớ
i thi
ệ
th
ố
ng
FSCANNER 29
2.3. Trích rút metadata 30
2.3.1.
Gi
ớ
i thi
ệ
u v
ề
metadata và chu
ẩ
n Dublin Core 30
2.3.2. Bài toán trích rút metadata 32
2.3.3.
Đề
xu
ất metadata cho văn bản đượ
c s
ố
hóa 34 T
ổ
ng k
ết chương 2
45
ự
c nghi
ệ
m cho
ả
nh quét
48
3.3. Ti
ế
n hành th
ự
c nghi
ệ
m
49
3.3.1. M
ụ
c tiêu
49
3.3.2. Cách th
ự
c hi
ệ
n
49
3.4. K
ế
t q
u
ả
1
DANH M
ỤC CÁC TỪ VIẾT TẮT
STT
T
ừ
vi
ế
t
t
ắ
t
T
ừ
đ
ầy đủ
Ti
ế
ng Vi
ệ
t
1
ANN
Artificial Neural Network
Mô hình Markov
ẩ
n
5
MLP
Multi Layer Perceptron
M
ạ
ng nhi
ề
u l
ớ
p truy
ề
n
th
ẳ
ng Perceptron
6
NLP
Natural Language Processing
X
ử
lý ngôn ng
ữ
OVR
One Versus The Rest
M
ộ
t v
ớ
i ph
ầ
n còn l
ạ
i
10
SVM
Support Vector Machine
Máy V
éc tơ
H
ỗ
tr
ợ
2
DANH MỤC BẢNG BIỂU
B
ả
ng 1.1. So sánh m
ộ
t s
m soát l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t và k
ế
t qu
ả
đánh giá đ
ộ
nh
ậ
n bi
ế
t l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
ng 2.2. C
ấ
u trúc âm ti
ế
t 3 thành ph
ầ
n
B
ả
ng 2.3. C
ấ
u trúc âm ti
ế
t 4 thành ph
ầ
n
B
ả
ng 2.4. C
ấ
u trúc âm ti
ế
t 5 thành ph
ầ
n
B
ả
ng 2.5. Các thành ph
ầ
xu
ấ
t xây d
ự
ng các y
ế
u t
ố
metadata cho s
ố
hóa văn b
ả
n
B
ảng 2.9. Tiêu đề
(Title)
B
ảng 2.10. Ngườ
i t
ạ
o (Creator)
B
ả
ng 2.11. Ngày tháng (Date)
B
ả
ộ
ng tác (Contributor)
3
B
ả
ng 2.18. Ch
ủ
đ
ề
(Subject)
B
ả
ng 2.19. Ph
ạ
m vi (Coverage)
B
ả
ng 2.20. Ki
ể
u /Lo
ạ
i (Type)
B
ả
ng 2.21. Kh
ổ
ố
(List number)
B
ả
ng 2.27. H
ộ
p s
ố
(Folder number)
B
ả
ng 2.28. H
ồ
sơ số
(Record number)
B
ả
ng 2.29. T
ờ
s
ố
(Page number)
B
ả
ng 2.30. Ngày s
ố
hóa (Digitizing date)
ữ
li
ệ
u c
ủ
a 25 y
ế
u t
ố
metadata xây d
ự
ng cho văn bả
n
đư
ợ
c s
ố
hóa
B
ả
ng 3.1. S
ố
t
ừ
nh
c)
c
ủ
a
ả
nh quét
B
ả
ng 3.3. S
ố
t
ừ
nh
ậ
n d
ạng đúng vớ
i các góc xoay (l
ệ
ch ph
ả
i so v
ớ
i
ả
nh quét
g
ố
c) c
ủ
a
Hình 1.3.b. Ph
ần văn bả
n nh
ậ
n d
ạng đã sử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t
Hình 1.4. M
ộ
t ví d
ụ
v
ề
trích rút thông tin
Hình 1.5. Sơ đồ
ho
ạ
t độ
ng c
ủ
ố
ng nh
ậ
n d
ạ
ng OCR
Hình 2.2.a. Các l
ớ
p phân tách tuy
ế
n tính.
Hình 2.2.b. Siêu ph
ẳ
ng t
ối ưu và biên lề
tương ứng, các vectơ hỗ
tr
ợ
.
Hình 2.3.a: Siêu ph
ẳ
ng phân tách 2 l
ớ
p (Liu, 2006)
Hình 2.3.b: Siêu ph
ẳ
ng phân tách có l
ề
ạ
ng kí t
ự
quang h
ọ
c.
Hình 2.7. Mô hình Markov b
ậ
c 2
Hình 3.1. Giao di
ện chương trình FSCANNER
Hình 3.2. Upload v
ăn bả
n trong h
ệ
th
ố
ng FSCANNER
Hình 3.3. H
ệ
th
ố
ng FSCANNER đang nhậ
n d
ạ
ỉ
l
ệ
% s
ố
t
ừ
nh
ậ
n d
ạ
ng đúng ở
7 m
ứ
c DPI
Hình 3.6. Bi
ểu đồ
t
ỉ
l
ệ
% s
ố
t
M
Ở ĐẦU
1. Tính c
ấ
p thi
ế
t
Công tác lưu trữ
có vai trò
đặ
c bi
ệ
t quan tr
ọ
ng đố
i v
ớ
i các lĩnh vự
c c
ủ
a
đ
ờ
i s
ố
ng xã h
ộ
i b
n thi
ế
t giúp
gi
ảm chi phí và tăng năng suấ
t trong vi
ệ
c qu
ả
n lý.
Th
ự
c t
ế
t
ạ
i Vi
ệ
t Nam có r
ấ
t nhi
ề
u t
ổ
ch
ứ
c và doanh nghi
ệ
ố
hóa tài li
ệ
u, t
ứ
c là chuy
ể
n các tài li
ệ
u b
ả
n c
ứng đó vào trong máy tính để
lưu tr
ữ
,
tìm ki
ế
m, ch
ỉ
nh s
ử
a khi c
ầ
n.
Hi
ệ
n nay chúng ta đã có các máy quét vớ
d
ụ
ng máy quét s
ẽ
ti
ế
t ki
ệ
m th
ờ
i gian, chi phí g
ấ
p hàng trăm lầ
n so v
ớ
i
vi
ệ
c nh
ậ
p b
ằ
ng tay các t
ài li
ệ
u b
ả
n c
n đó khi cầ
n thi
ế
t
, vi
ệ
c tìm ki
ế
m t
ừ
khóa hay n
ộ
i dung trong văn bả
n quét
cũng
không th
ể
th
ự
c hi
ện đượ
c. Vì v
ậ
y, file
ảnh thu đượ
c sau khi quét c
ần đượ
c
nh
ph
ụ
c v
ụ
cho vi
ệ
c tìm ki
ế
m nhanh
, đ
ộ
chính xác c
ủ
a vi
ệ
c tìm ki
ế
m s
ẽ
ph
ụ
thu
ộ
c
nhi
trên và mang l
ạ
i k
ế
t qu
ả
r
ấ
t
kh
ả
quan. Tuy nhiên, nh
ằ
m nâng cao hi
ệ
u qu
ả
c
ủ
a công c
ụ
này chúng ta c
ầ
n có
nh
ữ
ng c
c gia Hà N
ội đưa ra giả
i pháp là xây d
ự
ng h
ệ
th
ố
ng FSCANNER
để
s
ố
hóa văn bả
n ti
ế
ng Vi
ệ
t.
7
2. M
ụ
c tiêu c
ủ
a lu
ậ
n văn
·
Tìm hi
ể
u v
ề
các k
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng OCR, k
ỹ
thu
ậ
t soát
l
ỗ
i chính t
ả
ti
ế
ng
Vi
n
đượ
c s
ố
hóa.
3. Nhi
ệ
m v
ụ
nghiên c
ứ
u
M
ục đích củ
a lu
ận văn đề
c
ập được đế
n hai ph
ầ
n:
· Ph
ầ
n lý thuy
ế
t: Trình bày t
ổ
ng quan v
thu
ậ
t nh
ậ
n d
ạ
ng OCR, k
ỹ
thu
ậ
t s
ử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t d
ự
a trên mô hình n-gram; V
ớ
i bài toán trích rút metadata,
tìm hi
ể
ể
n
ứ
ng d
ụ
ng: Th
ự
c nghi
ệ
m ch
ọ
n ngưỡ
ng góc xoay và ch
ỉ
s
ố
DPI thích h
ợ
p nâng cao ch
ấ
t lượ
ng n
h
ậ
n d
ạ
ng OCR.
ớ
i m
ục đích quả
n lý và t
ự
độ
ng s
ố
hóa
tài li
ệu. Đ
ây th
ự
c s
ự
là m
ộ
t bài toán l
ớ
n. Chính vì th
ế
trong ph
ạ
m vi c
ủ
a lu
ậ
n
văn
ậ
n d
ạ
ng OCR, k
ỹ
thu
ậ
t s
ử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t d
ự
a trên mô hình ngôn ng
ữ
n-gram c
ủ
a h
ệ
th
ố
ng, nghiên c
ứ
ọ
n ngưỡ
ng góc xoay và ch
ỉ
s
ố
DPI thích h
ợ
p đố
i v
ớ
i
ả
nh đầ
u
vào đ
ể
nâng cao ch
ấ
t lượ
ng nh
ậ
n d
ạ
ng OCR.
8
th
ố
ng FSCANNER.
6. B
ố
c
ụ
c lu
ậ
n văn
Ngoài ph
ầ
n m
ở
đầ
u, k
ế
t lu
ậ
n và danh m
ụ
c tài li
ệ
u tham kh
ả
o, lu
ề
bài toán x
ử
lý ngôn ng
ữ
t
ự
nhiên và sơ đ
ồ
ho
ạ
t
độ
ng c
ủ
a vi
ệ
c s
ố
hóa văn bả
n ti
ế
ng Vi
ệ
i dung
chương 2 g
ồ
m 3
ph
ầ
n:
gi
ớ
i thi
ệ
u m
ộ
t s
ố
k
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng
OCR; k
ỹ
c nghi
ệ
m –
đánh giá:
Ch
ạy chương trình vớ
i b
ộ
d
ữ
li
ệ
u th
ự
c nghi
ệm đưa ra để
ch
ọn ngưỡ
ng ch
ỉ
s
ố
DPI và góc xoay thích h
ợ
p đố
i v
ớ
ử
lý ngôn ng
ữ
t
ự
nhiên (NLP – Natural Language Processing) là m
ộ
t
l
ĩnh vự
c nghiên c
ứ
u nh
ằ
m giúp cho các h
ệ
th
ố
ng máy tính hi
ể
u và x
ử
lý đ
ượ
c
lý ngôn ng
ữ
t
ự
nhiên ra đ
ời đã lâu, trả
i qua nhi
ề
u nghiên c
ứ
u và
ứ
ng d
ụ
ng, ngày nay đượ
c
hi
ểu như là lĩnh vự
c giúp máy tính x
ử
lý các v
ấn đề
v
ề
ngôn ng
ữ
t
ủ
a x
ử
lý ngôn ng
ữ
v
ớ
i các m
ứ
c độ
khác nhau v
ề
x
ử
lý
và s
ử
d
ụ
ng ngôn ng
ữ
t
ự
nhiên c
ủa con ngườ
m thông tin
b
ằ
ng ti
ế
ng nói (search voice),
·
T
ổ
ng h
ợ
p ti
ế
ng nói: T
ừ
d
ữ
li
ệ
u văn bả
n, phân tích và chuy
ể
n thành ti
ế
ng
ngư
ờ
i nói, ví d
ế
t t
ừ
ng ch
ữ
cái và
chuy
ể
n chúng thành m
ộ
t t
ệp văn bả
n trên máy tính. Có hai ki
ể
u nh
ậ
n
d
ạ
ng: nh
ậ
n d
ạ
ng ch
ữ
in ví d
ụ
như nhậ
n d
ự
đ
ộ
ng: T
ừ
m
ộ
t t
ệ
p d
ữ
li
ệ
u văn bả
n trong m
ộ
t ngôn ng
ữ
(ví d
ụ
ti
ế
ng
Anh), máy tính d
ị
ột văn bả
n ng
ắ
n
g
ọ
n v
ớ
i nh
ữ
ng n
ội dung cơ bả
n.
·
Tìm ki
ế
m thông tin: T
ừ
m
ộ
t ngu
ồ
n r
ấ
t nhi
ề
u t
ệ
p văn bả
ế
ng nói.
10
· Trích ch
ọ
n thông tin: T
ừ
m
ộ
t ngu
ồ
n r
ấ
t nhi
ề
u t
ệp văn bả
n hay ti
ế
ng nói,
tìm ra m
ộ
t s
ố
đoạ
n bên trong m
ộ
ng ngu
ồ
n r
ấ
t nhi
ề
u
văn b
ả
n th
ậ
m chí h
ầ
u như k
hông có quan h
ệ
v
ớ
i nhau tìm ra đượ
c nh
ữ
ng
tri th
ức trước đấy chưa ai biết, đây là mộ
t v
ấn đề
r
ấ
t ph
ớ
i cũng như Việt Nam đã có nhữ
ng s
ả
n ph
ẩ
m nh
ậ
n
d
ạ
ng ti
ế
ng Vi
ệt như ABBYY FineReader, VietOCR, VnDOCR… Trong đó sả
n
ph
ẩ
m tính phí là ABBYY FineReader và VnDOCR; còn VietOCR là ph
ầ
n m
ề
m
mã ngu
ồ
n m
ở
s
ử
d
n d
ạ
ng ch
ữ
Vi
ệ
t in. Ph
ầ
n m
ề
m này có t
ừ
phiên b
ả
n 1.0 và đế
n nay là phiên
b
ả
n VnDOCR 4.0. Có th
ể
download dùng th
ử
t
ạ
i trang web
. Khi ch
ạ
y ph
VietOCR là m
ộ
t chương trình mã nguồ
n m
ở
do ngư
ờ
i Vi
ệ
t phát tri
ể
n.
Chương tr
ình sử
d
ụ
ng b
ộ
nh
ậ
n d
ạ
ng Tesseract. Có kh
ả
năng nh
ậ
n vào
ch
ấ
t lượ
ng c
ủ
a
ả
nh quét. Vì đây phầ
n m
ề
m mã ngu
ồ
n m
ở
nên vi
ệ
c phát tri
ể
n nó
đ
ể
nâng cao ch
ấ
t lượ
ng nh
ậ
n d
t s
ả
n ph
ẩ
m OCR c
ủ
a ABBYY
– m
ộ
t hãng công ngh
ệ
hàng đ
ầ
u trên th
ế
gi
ớ
i v
ề
l
ĩnh vự
c nh
ậ
n d
ạ
ng kí t
ự
ệ
c nh
ậ
n d
ạ
ng ch
ữ
in ti
ế
ng Vi
ệ
t lên t
ớ
i
11
99%. Tuy nhiên, s
ả
n ph
ẩ
m này là s
ả
n ph
ẩ
m thương mạ
i hóa, tính phí cho m
ỗ
i
ế
n hành cài đặt chương trình theo hướ
ng d
ẫ
n có s
ẵ
n c
ủ
a chương trình.
B
ả
ng
1.1. So sánh m
ộ
t s
ố
ph
ầ
n m
ề
m nh
ậ
n d
ạ
ng ch
ữ
in ti
ự
c ti
ế
p
tài li
ệ
u t
ừ
máy quét.
T
ự
độ
ng phân vùng nh
ậ
n
d
ạ
ng.
Trang web:
rceforge.n
et/
Là chương trình mã nguồ
n
m
ở
do ngườ
i Vi
Trang web:
m/
Là s
ả
n ph
ẩm thương mạ
i.
Là ph
ầ
n m
ề
m c
ủ
a Nga.
Cho phép k
ế
t n
ố
i và nh
ậ
n
d
ạ
ng tr
ự
c ti
ế
p
ả
b
ả
ng bi
ể
u, gi
ữ
nguyên
đị
nh d
ạng văn
b
ả
n.
Mi
ễ
n phí
.
Nh
ậ
n d
ạng đượ
c
ảnh đầ
u
vào d
ạ
ng PDF.
Nh
ậ
n d
u vào.
Phân vùng đúng, giữ
nguyên b
ố
c
ụ
c và đị
nh
d
ạng ban đầ
u.
Nh
ậ
n d
ạ
ng t
ố
t b
ả
ng bi
ể
u,
ch
ữ
to đ
ầu đoạ
n, công
ấ
u trúc ph
ứ
c t
ạ
p,
k
ế
t qu
ả
nh
ậ
n d
ạ
ng chưa
cao.
Không nh
ậ
n d
ạng đượ
c
ch
ữ
cái to đ
ầu đoạ
n (Drop
Cap), ch
ỉ
n d
ạ
ng
chưa cao
.
Không nh
ậ
n d
ạng đượ
c
ch
ữ
cái to đầu đoạ
n, các
công th
ứ
c toán h
ọ
c, b
ả
ng
bi
ể
u.
Giá thành cao.
Là s
ả
n ph
L
ỗ
i chính t
ả
g
ồ
m hai lo
ạ
i là l
ỗ
i th
ự
c t
ừ
và l
ỗ
i phi t
ừ
. H
ầ
u h
ế
t các ph
ầ
n
m
ề
m soát l
ỗ
ả
n x
u
ấ
t các s
ả
n ph
ẩ
m này đã ngừng đầ
u
tư phát triể
n.
Vào tháng 6/2010, t
ạ
i bu
ổ
i h
ọ
p báo
[9] c
ủ
a Vi
ệ
n Công ngh
ệ
thông tin-
Đ
ạ
ầ
n m
ề
m soát l
ỗ
i và
s
ử
a l
ỗ
i chính t
ả
trên th
ị
trư
ờ
ng có t
ỉ
l
ệ
soát l
ỗ
i như sau: BÚT ĐỎ
92,5%; CÚ
MÈO 62,65%; VIETSPELL 62,76%.
ế
t qu
ả
đánh giá đ
ộ
nh
ậ
n bi
ế
t l
ỗ
i
chính t
ả
ti
ế
ng Vi
ệ
t c
ủ
a m
ộ
t s
ố
ph
ầ
ả
ti
ế
ng Vi
ệ
t
và k
ế
t qu
ả
đánh giá đ
ộ
nh
ậ
n bi
ế
t l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t
đánh giá
Công C
ụ
Vi
ệ
t 1.4VIEGRID
JSC
-
Đang phát triể
n.
-
Thương m
ạ
i, cho dùng th
ử
.
- www.viegrid.com
92,5%
C
ọ
p Con 3.1
-
Ng
ừ
ng phát tri
ể
n
-
Thương m
ạ
i, ng
ừ
ng cung c
ấ
p
- www.sobic.com.vn
62,65%
VietSpell
Lưu Hà
Xuyên
-
Ng
ừ
ng phát tri
ể
n.
-
i
- www.vietcatholic.net
26,52%
1.2.3
Công nghệ tách bộ và lập chỉ mục
Hi
ệ
n t
ạ
i có ph
ầ
n m
ề
m Kodak Capture [20] là 1 ph
ầ
n m
ề
m cho phép s
ố
hóa tài li
ệ
u và l
ậ
p ch
ỉ
m
n ph
ả
i d
ự
a vào các
13
form m
ẫu đượ
c t
ạ
o b
ởi ngườ
i s
ử
d
ụng (đánh dấ
u v
ị
trí c
ầ
n nh
ậ
n d
ạ
ng và l
ậ
p ch
ỉ
ớ
i v
ị
trí đã đánh dấ
u. Kodak Capture
cho phép ngườ
i dùng
ch
ỉ
đị
nh vùng OCR b
ằ
ng thao tác kéo th
ả
vùng c
ầ
n nh
ậ
n d
ạ
ng (drag & drop
OCR)
đ
ể
trích rút thông tin c
ầ
ạ
ng
đ
ể
trích rút thông tin. Hình
1.1.
M ột ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro
1.3
Bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt
V
ớ
i m
ộ
t kh
ối lượ
ng kh
ổ
ng l
ồ
các tài li
ệu văn bả
ảnh văn bản đó. Vì vậ
y, các
ảnh văn bản thu đượ
c sau khi quét c
ầ
n đươc nhậ
n d
ạ
ng thành thành văn bả
n có
th
ể
ch
ỉ
nh s
ử
a đượ
c (hình 1.
2.a và hình 1.2.b).
K
ế
t qu
ả
, s
ẽ
gây ra m
ộ
t l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t
ở
đầ
u ra. Vi
ệ
c s
ử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
c
ti
ế
p
tr
ợ
lý T
ổ
ng
th
ố
ng
M
ỹ
T.Đai
-
nai-
lơn
t
ớ
i
trao
thư
c
ủ
ề
tăng
cườ
ng
đố
i tho
ạ
i và h
ợ
p tác song
phương.
Ông
Đai
-
nai-
lơn
trư
ớ
c
đó
đ
ã
h
ộ
ạ
i Vi
ệ
n Công ngh
ệ
Nh
ậ
t B
ả
n, B
ộ
trưở
ng Ngo
ạ
i
giao M
ỹ
G.Ke-ri nêu b
ố
n nguyên t
ắ
c chính sách cua
M
ỹ
nh
ằ
m
giúp các
ộ
c h
ộ
i
th
ả
o v
ề
kinh t
ế
, Th
ủ
tướ
ng Trung Qu
ố
c Lý Kh
ắ
c
Cườ
ng
nh
ấ
n
m
ạ
nh
t
ầ
m
ể
thòng qua c
ả
i cách
sâu r
ộ
ng. (XEM TI
Ế
P TRANG 7)
Hình 1.2.b. Ph
ầ
n
văn
b
ả
n
đã
đượ
c nh
ậ
n d
ạ
ng
14
ỗ
tr
ợ
ngườ
i dùng tìm ki
ế
m
tài li
ệ
u m
ộ
t cách d
ễ
dàng.
Ở
hình 1.4 là m
ộ
t ví d
ụ
v
ề
trích rút metadata. Đ
ệ
u qu
ả
c
ủ
a công
c
ụ
này chúng ta c
ầ
n có nh
ữ
ng c
ả
i ti
ế
n t
ố
t hơn nữ
a, giúp cho
đ
ộ
chính xác trong
công vi
ệ
c nh
ậ
n d
ố
hóa m
ứ
c
1 dướ
i d
ạ
ng các
ả
nh.
2. H
ệ
th
ố
ng s
ẽ
kích ho
ạ
t chương trình nhậ
n d
ạ
ng OCR thông qua các giao
di
ệ
n l
ậ
p trình
ố
hi
ệ
u:
3390/QĐ
-BKHCN
Ngày ban hành: 11/12/2012
Trích y
ế
u n
ộ
i dung: Quy
ế
t
đị
nh v
ề
vi
ệ
c công b
ố
th
ủ
t
ụ
c hành chính m
ớ
i ban hành thu
ộ
ộ
t ví d
ụ
v
ề
trích rút metadata
Trong cu
ộ
c ti
ế
p tr
ợ
lý T
ổ
ng th
ố
ng M
ỹ
T.Đai
-nai-
lơn
t
ớ
i
trao
thư
c
ủ
ề
tăng
cườ
ng
đố
i tho
ạ
i và h
ợ
p tác song
phương.
Ông
Đai
-nai-
lơn
trướ
c
đó
đã
h
ộ
i
đàm
v
ớ
i B
trưở
ng Ngo
ạ
i
giao M
ỹ
G.Ke-ri nêu b
ố
n nguyên t
ắ
c chính sách cua M
ỹ
nh
ằ
m
giúp các
nư
ớ
c
khu v
ự
c
châu Á - Thái Bình
Dương
đ
ố
i
v
ề
kinh t
ế
, Th
ủ
tướ
ng Trung Qu
ố
c Lý Kh
ắ
c
Cườ
ng
nh
ấ
n
m
ạ
nh
t
ầ
m
quan tr
ọ
ng
c
ủ
a
p nh
ậ
t kinh t
ể
thòng qua c
ả
i cách sâu r
ộ
ng. (XEM
TI
Ế
P TRANG 7)
Hình 1.3.a. Ph
ầ
n
văn
b
ả
n
đã
đượ
c nh
ậ
n d
ạ
ng
Trong cu
ộ
c ti
ng
th
ố
ng
Nga
V.Pu
-tin cho bi
ế
t, s
ẽ
nghiên c
ứ
u
đề
xu
ấ
t c
ủ
a M
ỹ
v
ề
tăng
cườ
ng
đố
i tho
ạ
■
Theo Tân Hoa xã, phát bi
ể
u
ý
ki
ế
n t
ạ
i Vi
ệ
n Công ngh
ệ
Nh
ậ
t B
ả
n, B
ộ
trưở
ng Ngo
ạ
i
giao M
ỹ
G.Ke-ri nêu b
ố
tăng
trư
ở
ng
m
ạ
nh, công b
ằ
ng, nhanh và h
ợ
p lý.
■
T
ạ
i cu
ộ
c h
ộ
i th
ả
o
v
ề
kinh t
ế
, Th
ủ
đ
ồ
ng
th
ờ
i
kêu g
ọ
i
t
ậ
p
trung chuy
ể
n
đ
ổ
i
và
c
ậ
p nh
ậ
t kinh t
ế
thông qua c
ả
i cách sâu r
3.
Văn b
ả
n d
ạ
ng text sau quá trình nh
ậ
n d
ạ
ng OCR s
ẽ
đ
ượ
c
soát l
ỗ
i
chính t
ả
ti
ế
ng Vi
ệ
t để
nâng cao đ
ộ
c tài li
ệ
u m
ẫ
u đã đượ
c thi
ế
t k
ế
, n
ế
u không tìm th
ấ
y
m
ẫ
u nào tương ứ
ng trong danh m
ụ
c tài li
ệ
u m
ẫ
u, h
ệ
th
ố
ng s
ẽ
ụ
c t
ự
đ
ộ
ng theo c
ấ
u trúc đã
đượ
c thi
ế
t l
ậ
p, và lưu vào cơ sở
d
ữ
li
ệ
u c
ủ
a h
ệ
th
ố
ng.
ự
nhiên (d
ữ
li
ệu văn bả
n).
Tổng kết chương 1
Trên đây chúng tôi đ
ã
gi
ớ
i thi
ệ
u v
ề
x
ử
lý ngôn ng
ữ
t
ự
nhiên như khái
ni
ệ
m và m
ộ
ạ
ng OCR, công ngh
ệ
soát
l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t, công ngh
ệ
tách b
ộ
và l
ậ
p ch
ỉ
m
ụ
c.
Trên cơ sở
đó,
lu
ậ
n
văn đưa ra giả
ậ
t
thi
ế
t v
ớ
i m
ỗ
i bài toán trong x
ử
lý ngôn ng
ữ
, c
ụ
th
ể
là bài toán nh
ậ
n d
ạ
ng ch
ữ
OCR, bài toán soát l
ỗ
i chính t
ả
ti
ế
ng Vi
n
ti
ế
ng
Vi
ệ
t
c
ủ
a
h
ệ
th
ố
ng
FSCANNER
Ả
nh
quét
Nh
ậ
n
d
ạ
ng
OCR
Soát l
n, vì v
ậ
y trong ph
ạ
m vi
lu
ận văn tậ
p trung vào m
ộ
t s
ố
k
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng OCR, k
ỹ
thu
ậ
t soát l
ỗ
i chính
t
ả
ti
ế
Gi
ới thiệu
Nh
ậ
n d
ạ
ng ký t
ự
quang h
ọ
c (Optical Character Recognition – OCR) là
lo
ạ
i ph
ầ
n m
ề
m máy tính có ch
ức năng chuyể
n các hình
ả
nh c
ủ
a ch
ữ
vi
ế
t tay
ho
máy scanner thành file
ả
nh, ph
ầ
n m
ề
m OCR s
ẽ
nh
ậ
n d
ạ
ng file
ảnh đã quét đó
thành file văn bản lưu trữ
trên máy tính có th
ể
ch
ỉ
nh s
ửa đượ
c trên máy tính.
L
ị
ch s
ử
c
ủa OCR đã có từ
hơn nử
n. Ngày nay v
ớ
i s
ự
phát tri
ể
n
m
ạ
nh m
ẽ
, OCR tr
ở
nên ph
ổ
bi
ến và thường đượ
c
ứ
ng d
ụng như mộ
t ph
ầ
n m
ề
m
cài đặ
t trên máy tính ho
ặ
c tích h
d
ạ
ng ch
ữ
in có giá tr
ị
th
ự
c t
ế
cao, có th
ể
k
ể
đến như: sả
n ph
ẩ
m ABBYY
FineReader (hi
ệ
n nay là phiên b
ả
n FineReader 12)
có th
ể
nh
ậ
n d
ẩ
m VnDOCR
nh
ậ
n d
ạ
ng ch
ữ
Vi
ệ
t in
c
ủ
a Vi
ệ
n C
ông ngh
ệ
thông tin-Vi
ệ
n Khoa h
ọ
c và Công ngh
ệ
Vi
ệ
ử
d
ụ
ng b
ộ
nh
ậ
n d
ạ
ng Tessecract,
17
Mô hình t
ổ
ng quát c
ủ
a m
ộ
t h
ệ
nh
ậ
n d
ạ
Các tài li
ệ
u gi
ấ
y (ch
ữ
in ho
ặ
c ch
ữ
vi
ế
t tay) đượ
c chuy
ể
n thành các file
ả
nh
b
ằ
ng máy quét. Các
ả
nh quét đó là đầ
u vào cho quá trình nh
ậ
n d
ạ
ng OCR. Ti
ch
ứ
c năng
như: nhị
phân hóa
ả
nh, l
ọ
c nhi
ễ
u, chu
ẩ
n hóa kích thướ
c
ả
nh, làm trơn biên chữ
,
làm đ
ầ
y ch
ữ
, điề
u ch
ỉ
nh độ
nghiêng văn b
ả
ỗ
i
ả
nh ký t
ự
, khâu trích ch
ọ
n đặc trưng phân tích ả
nh ký t
ự
tìm ra
đặc trưng
riêng c
ủ
a ký t
ự
đó. Các đặc trưng đã đượ
c l
ự
a ch
ọ
n trong
bướ
c trích ch
ọn đặ
c
trưng đượ
c s
l
ỗ
i,
bướ
c h
ậ
u x
ử
lý s
ẽ
th
ự
c hi
ệ
n vi
ệ
c ghép n
ố
i
các kí t
ự
đã nhậ
n d
ạ
ng thành các t
ừ, các câu, các đoạn văn để
tái hi
ệ
n l
ự
c
hi
ện trên đề
u quan tr
ọng, nhưng bướ
c quan tr
ọ
ng nh
ấ
t quy
ết định độ
chính xác
c
ủ
a nh
ậ
n d
ạ
ng là trích ch
ọn đặc trưng và phân lớ
p. Thu
ậ
t toán phân l
ớ
p là y
ế
u t
ố
ạ
ng
c
ấu trúc đã đượ
c
ứ
ng d
ụ
ng khá ph
ổ
bi
ế
n trong các h
ệ
th
ố
ng nh
ậ
n d
ạng và cũng
đã thu đượ
c nh
ữ
ng thành công nh
ất đị
nh. Tuy v
ậ
y, v
ớ
i nh
d
ụ
ng các thu
ậ
t toán phân l
ớ
p d
ự
a trên mô hình
Ả
nh
quét
Ti
ề
n x
ử
lý
Phân đoạ
n
Trích ch
ọ
n
đặc trưng
Phân l
ớ
p
H
ậ
nói riêng.
2.1.2.
K
ỹ thuật nhận dạng dựa trên mô hình máy vectơ hỗ trợ (SVM)
Máy vectơ h
ỗ
tr
ợ
(Support vector machine – SVM) là m
ộ
t phương pháp
phân l
ớ
p d
ự
a trên lý thuy
ế
t h
ọ
c th
ống kê, được đề
xu
ấ
t b
ở
i V.Vapnik và các
ộ
t siêu ph
ẳng để
phân tách hai l
ớ
p c
ủ
a d
ữ
li
ệ
u, ví d
ụ
l
ớ
p các ví d
ụ
có nhãn dương và lớ
p các ví d
ụ
có nhãn âm. Có th
ể
mô
t
ả
m
ộ
m
ộ
t l
ớ
p cho trướ
c, b
ộ
phân l
ớ
p SVM s
ẽ
xây d
ự
ng mô hình
phân l
ớ
p d
ự
a trên 2 t
ậ
p d
ữ
li
ệ
u này. Khi có m
ộ
t m
ng h
ợ
p phân l
ớ
p phi tuy
ế
n.
N
ế
u bi
ể
u di
ễ
n t
ậ
p D g
ồ
m r các ví d
ụ
hu
ấ
n luy
ện như sau D={(x
1
,y
1
),
p (giá tr
ị
đ
ầ
u ra) ch
ỉ
nh
ậ
n 2 giá tr
ị
là -1
ho
ặ
c 1 (l
ớ
p âm ho
ặ
c l
ớp dương). Khi đó SVM xác đị
nh m
ộ
t hàm phân tách
tuy
ế
n tính f(x)=<w.x>+b, trong đó w là vectơ trọ
ng s
ố
n l
ớ
p âm là <w.x>+b=0
đượ
c th
ể
hi
ệ
n
ở
hình 2.3.a.
Hình 2.
2.b. Siêu ph
ẳ
ng t
ố
i ưu và biên
l
ề
tương ứng, các vectơ hỗ
tr
ợ
.
Hình 2.2.a. Các l
ớ
p phân
tách tuy
ế
t t
ậ
p d
ữ
li
ệ
u thì khi đó ta chọ
n m
ặ
t siêu ph
ẳ
ng phân tách có l
ề
c
ực đạ
i (Hình 2.3.b). Quá trình h
ọ
c SVM nh
ằ
m c
ực đạ
i hóa m
ứ
c l
ề
.
Trong hình 2.6.b, gi
ả
c
ủ
a l
ớ
p dương (x
+
,1) và m
ộ
t ví d
ụ
c
ủ
a
l
ớ
p âm (x
-
,1) g
ầ
n nh
ấ
t đố
i v
ớ
i siêu ph
ẳ
ng phân tách H
0
đi qua x
-
và song song v
ớ
i H
0
,
d
+
là kho
ả
ng cách gi
ữ
a H
+
và H
0
; d
-
là kho
ả
ng cách gi
ữ
a H
-
và H
0
, thì (d
+
w
i
x b+
(1)
Trong đó ||w|| là độ
dài c
ủ
a w :
2 2 2
1 2
w w w
n
+ + +
Áp d
ụ
ng bi
ể
u th
ứ
c (1) tính d
+
là kho
ả
ng cách t
ừ
x
+
y, tính toán m
ứ
c l
ề
= d
+
+ d
-
=
1 1 2
w w w
+ =<w.x> + b = 0
y
=1
y =
-
1
H
0
: <w.x> + b
= 0
y
=1
y =-
1
d
+
c
ự
c đạ
i
(Liu, 2006)