Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER - Pdf 30

ĐẠ
I H
Ọ
C QU
Ố
C GIA HÀ N
Ộ
I

TRƯỜNG ĐẠ
I H
Ọ
C CÔNG NGH
Ệ
NINH TH
Ị

THU HÀ CÁC K
Ỹ
THU
Ậ
T X
Ử

ầ
n m
ề
m
Mã s
ố
: 60480103 LU
Ậ
N VĂN THẠC SĨ
Hà N
ộ
i
- 2014 ĐẠ
I H
Ọ
C QU
Ố
C GIA HÀ N
Ộ
I

Ệ
T
C
Ủ
A H
Ệ
TH
Ố
NG FSCANNER

Ngành: Công ngh
ệ

thông tin
Chuyên ngành:
Công ngh
ệ
ph
ầ
n m
ề
m
Mã s
ố
: 60480103

LU
Ậ
N
VĂN THẠC SĨ

ph
ầ
n m
ề
m, khóa 2012
-
2014. Tôi xin cam đoan lu
ận văn thạc sĩ “Các kỹ

thu
ậ
t x
ử

lý ngôn ng
ữ

trong s
ố

hóa văn b
ả
n ti
ế
ng Vi
ệ
t c
ủ
a h
ệ

nêu trong Lu
ậ
n văn là trung thực và chưa từng đượ
c ai công
b
ố

trong b
ấ
t k
ỳ

công trình nào khác.
T
ấ
t c
ả
nh
ữ
ng tham kh
ả
o t
ừ
các nghiên c
ứu liên quan đều đượ
c nêu ngu
ồ
n
g
ố

ề

tài li
ệ
u tham kh
ả
o.

Hà n
ộ
i, ngày 28
tháng 10 năm 2014

Tác gi
ả
Ninh Th
ị
Thu Hà L
Ờ
I C
Ả
M ƠN

Tôi xin g

b
ả
o t
ậ
n tình
cho tôi trong su
ố
t quá trình nghiên
c
ứ
u và hoàn thành lu
ậ
n văn tố
t nghi
ệ
p.

Tôi xin g
ử
i l
ờ
i c
ảm ơn chân thành tớ
i các th
ầy cô đã và đang tham gia
gi
ả
ng d
ạ

n l
ợ
i cho tôi hoàn thành khóa
h
ọ
c t
ại trườ
ng.
Tôi xin bày t
ỏ
lòng bi
ết ơn tớ
i t
ấ
t c
ả
b
ạn bè, đồ
ng nghi
ệp và người thân đã
động viên, giúp đỡ
tôi trong su
ố
t quá trình h
ọ
c t
ậ
p và nghiên c
ứ
u, hoàn thành

o
để
hoàn thi
ệ
n lu
ận văn này.

Tác gi
ả

MỤC LỤC

DANH M
Ụ
C CÁC T
Ừ
VI
Ế
T T
Ắ
T 1

HÓA VĂN BẢ
N TI
Ế
NG VI
Ệ
T 9
1.1 Gi
ớ
i thi
ệ
u v
ề
x
ử
lý ngôn ng
ữ
t
ự
nhiên 9
1.2 Gi
ớ
i thi
ệ
u m
ộ
t s
ố

công ngh
ệ

ế
ng
Vi
ệ
t
11
1.2.3 Công ngh
ệ

tách b
ộ

và l
ậ
p ch
ỉ

m
ụ
c
12
1.3 Bài toán x
ử

lý ngôn ng
ữ

trong s
ố

ộ
t s
ố
k
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng OCR 16
2.1.1. Gi
ớ
i thi
ệ
u 16
2.1.2. K
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng d
ựa trên mô hình máy vectơ hỗ
tr
ợ
(SVM) 18

n nh
ậ
n d
ạ
ng OCR c
ủ
a FSCANNER
24
2.2. K
ỹ

thu
ậ
t soát l
ỗ
i chính t
ả

ti
ế
ng Vi
ệ
t d
ự
a trên mô hình n
-gram 25
2.2.1. Gi
ớ
i thi
ệ

th
ố
ng
FSCANNER 29
2.3. Trích rút metadata 30
2.3.1.
Gi
ớ
i thi
ệ
u v
ề
metadata và chu
ẩ
n Dublin Core 30
2.3.2. Bài toán trích rút metadata 32
2.3.3.
Đề
xu
ất metadata cho văn bản đượ
c s
ố
hóa 34 T
ổ
ng k
ết chương 2
45

ự
c nghi
ệ
m cho
ả
nh quét
48
3.3. Ti
ế
n hành th
ự
c nghi
ệ
m
49
3.3.1. M
ụ
c tiêu
49
3.3.2. Cách th
ự
c hi
ệ
n
49
3.4. K
ế
t q
u
ả

1

DANH M
ỤC CÁC TỪ VIẾT TẮT

STT
T
ừ
vi
ế
t
t
ắ
t

T
ừ

đ
ầy đủ

Ti
ế
ng Vi
ệ
t

1
ANN
Artificial Neural Network

Mô hình Markov
ẩ
n

5
MLP
Multi Layer Perceptron
M
ạ
ng nhi
ề
u l
ớ
p truy
ề
n

th
ẳ
ng Perceptron

6
NLP
Natural Language Processing
X
ử

lý ngôn ng
ữ

OVR
One Versus The Rest
M
ộ
t v
ớ
i ph
ầ
n còn l
ạ
i
10
SVM
Support Vector Machine
Máy V
éc tơ
H
ỗ
tr
ợ

2

DANH MỤC BẢNG BIỂU

B
ả
ng 1.1. So sánh m
ộ
t s

m soát l
ỗ
i chính t
ả

ti
ế
ng Vi
ệ
t và k
ế
t qu
ả

đánh giá đ
ộ

nh
ậ
n bi
ế
t l
ỗ
i chính t
ả

ti
ế
ng Vi
ệ

ng 2.2. C
ấ
u trúc âm ti
ế
t 3 thành ph
ầ
n
B
ả
ng 2.3. C
ấ
u trúc âm ti
ế
t 4 thành ph
ầ
n
B
ả
ng 2.4. C
ấ
u trúc âm ti
ế
t 5 thành ph
ầ
n

B
ả
ng 2.5. Các thành ph
ầ

xu
ấ
t xây d
ự
ng các y
ế
u t
ố

metadata cho s
ố

hóa văn b
ả
n

B
ảng 2.9. Tiêu đề
(Title)
B
ảng 2.10. Ngườ
i t
ạ
o (Creator)
B
ả
ng 2.11. Ngày tháng (Date)
B
ả

ộ
ng tác (Contributor)

3

B
ả
ng 2.18. Ch
ủ

đ
ề

(Subject)
B
ả
ng 2.19. Ph
ạ
m vi (Coverage)
B
ả
ng 2.20. Ki
ể
u /Lo
ạ
i (Type)
B
ả
ng 2.21. Kh
ổ

ố

(List number)
B
ả
ng 2.27. H
ộ
p s
ố
(Folder number)
B
ả
ng 2.28. H
ồ

sơ số
(Record number)
B
ả
ng 2.29. T
ờ
s
ố
(Page number)
B
ả
ng 2.30. Ngày s
ố

hóa (Digitizing date)

ữ

li
ệ
u c
ủ
a 25 y
ế
u t
ố

metadata xây d
ự
ng cho văn bả
n
đư
ợ
c s
ố

hóa
B
ả
ng 3.1. S
ố

t
ừ

nh

c)
c
ủ
a
ả
nh quét
B
ả
ng 3.3. S
ố
t
ừ
nh
ậ
n d
ạng đúng vớ
i các góc xoay (l
ệ
ch ph
ả
i so v
ớ
i
ả
nh quét
g
ố
c) c
ủ
a

Hình 1.3.b. Ph
ần văn bả
n nh
ậ
n d
ạng đã sử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t
Hình 1.4. M
ộ
t ví d
ụ
v
ề
trích rút thông tin
Hình 1.5. Sơ đồ

ho
ạ
t độ
ng c
ủ

ố
ng nh
ậ
n d
ạ
ng OCR
Hình 2.2.a. Các l
ớ
p phân tách tuy
ế
n tính.
Hình 2.2.b. Siêu ph
ẳ
ng t
ối ưu và biên lề

tương ứng, các vectơ hỗ
tr
ợ
.
Hình 2.3.a: Siêu ph
ẳ
ng phân tách 2 l
ớ
p (Liu, 2006)

Hình 2.3.b: Siêu ph
ẳ
ng phân tách có l
ề

ạ
ng kí t
ự

quang h
ọ
c.

Hình 2.7. Mô hình Markov b
ậ
c 2

Hình 3.1. Giao di
ện chương trình FSCANNER

Hình 3.2. Upload v
ăn bả
n trong h
ệ
th
ố
ng FSCANNER
Hình 3.3. H
ệ

th
ố
ng FSCANNER đang nhậ
n d
ạ

ỉ

l
ệ

% s
ố

t
ừ

nh
ậ
n d
ạ
ng đúng ở

7 m
ứ
c DPI

Hình 3.6. Bi
ểu đồ
t
ỉ
l
ệ
% s
ố
t

M
Ở ĐẦU

1. Tính c
ấ
p thi
ế
t
Công tác lưu trữ

có vai trò
đặ
c bi
ệ
t quan tr
ọ
ng đố
i v
ớ
i các lĩnh vự
c c
ủ
a
đ
ờ
i s
ố
ng xã h
ộ
i b

n thi
ế
t giúp
gi
ảm chi phí và tăng năng suấ
t trong vi
ệ
c qu
ả
n lý.
Th
ự
c t
ế

t
ạ
i Vi
ệ
t Nam có r
ấ
t nhi
ề
u t
ổ

ch
ứ
c và doanh nghi
ệ

ố
hóa tài li
ệ
u, t
ứ
c là chuy
ể
n các tài li
ệ
u b
ả
n c
ứng đó vào trong máy tính để

lưu tr
ữ
,
tìm ki
ế
m, ch
ỉ
nh s
ử
a khi c
ầ
n.

Hi
ệ
n nay chúng ta đã có các máy quét vớ

d
ụ
ng máy quét s
ẽ

ti
ế
t ki
ệ
m th
ờ
i gian, chi phí g
ấ
p hàng trăm lầ
n so v
ớ
i
vi
ệ
c nh
ậ
p b
ằ
ng tay các t
ài li
ệ
u b
ả
n c

n đó khi cầ
n thi
ế
t
, vi
ệ
c tìm ki
ế
m t
ừ

khóa hay n
ộ
i dung trong văn bả
n quét
cũng
không th
ể
th
ự
c hi
ện đượ
c. Vì v
ậ
y, file
ảnh thu đượ
c sau khi quét c
ần đượ
c
nh

ph
ụ
c v
ụ

cho vi
ệ
c tìm ki
ế
m nhanh
, đ
ộ

chính xác c
ủ
a vi
ệ
c tìm ki
ế
m s
ẽ

ph
ụ

thu
ộ
c
nhi

trên và mang l
ạ
i k
ế
t qu
ả
r
ấ
t
kh
ả

quan. Tuy nhiên, nh
ằ
m nâng cao hi
ệ
u qu
ả

c
ủ
a công c
ụ

này chúng ta c
ầ
n có
nh
ữ
ng c

c gia Hà N
ội đưa ra giả
i pháp là xây d
ự
ng h
ệ
th
ố
ng FSCANNER
để

s
ố

hóa văn bả
n ti
ế
ng Vi
ệ
t.
7

2. M
ụ
c tiêu c
ủ
a lu
ậ
n văn

·
Tìm hi
ể
u v
ề

các k
ỹ

thu
ậ
t nh
ậ
n d
ạ
ng OCR, k
ỹ

thu
ậ
t soát
l
ỗ
i chính t
ả

ti
ế
ng
Vi

n
đượ
c s
ố
hóa.
3. Nhi
ệ
m v
ụ

nghiên c
ứ
u

M
ục đích củ
a lu
ận văn đề
c
ập được đế
n hai ph
ầ
n:
· Ph
ầ
n lý thuy
ế
t: Trình bày t
ổ
ng quan v

thu
ậ
t nh
ậ
n d
ạ
ng OCR, k
ỹ

thu
ậ
t s
ử
a l
ỗ
i chính t
ả

ti
ế
ng Vi
ệ
t d
ự
a trên mô hình n-gram; V
ớ
i bài toán trích rút metadata,
tìm hi
ể

ể
n
ứ
ng d
ụ
ng: Th
ự
c nghi
ệ
m ch
ọ
n ngưỡ
ng góc xoay và ch
ỉ

s
ố

DPI thích h
ợ
p nâng cao ch
ấ
t lượ
ng n
h
ậ
n d
ạ
ng OCR.

ớ
i m
ục đích quả
n lý và t
ự

độ
ng s
ố
hóa
tài li
ệu. Đ
ây th
ự
c s
ự
là m
ộ
t bài toán l
ớ
n. Chính vì th
ế
trong ph
ạ
m vi c
ủ
a lu
ậ
n
văn

ậ
n d
ạ
ng OCR, k
ỹ
thu
ậ
t s
ử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t d
ự
a trên mô hình ngôn ng
ữ

n-gram c
ủ
a h
ệ
th
ố
ng, nghiên c
ứ

ọ
n ngưỡ
ng góc xoay và ch
ỉ

s
ố

DPI thích h
ợ
p đố
i v
ớ
i
ả
nh đầ
u
vào đ
ể

nâng cao ch
ấ
t lượ
ng nh
ậ
n d
ạ
ng OCR.

8

th
ố
ng FSCANNER.

6. B
ố

c
ụ
c lu
ậ
n văn

Ngoài ph
ầ
n m
ở

đầ
u, k
ế
t lu
ậ
n và danh m
ụ
c tài li
ệ
u tham kh
ả
o, lu

ề

bài toán x
ử

lý ngôn ng
ữ

t
ự

nhiên và sơ đ
ồ

ho
ạ
t
độ
ng c
ủ
a vi
ệ
c s
ố

hóa văn bả
n ti
ế
ng Vi
ệ

i dung

chương 2 g
ồ
m 3
ph
ầ
n:
gi
ớ
i thi
ệ
u m
ộ
t s
ố

k
ỹ

thu
ậ
t nh
ậ
n d
ạ
ng
OCR; k
ỹ

c nghi
ệ
m –
đánh giá:

Ch
ạy chương trình vớ
i b
ộ
d
ữ
li
ệ
u th
ự
c nghi
ệm đưa ra để
ch
ọn ngưỡ
ng ch
ỉ

s
ố

DPI và góc xoay thích h
ợ
p đố
i v
ớ

ử

lý ngôn ng
ữ

t
ự

nhiên (NLP – Natural Language Processing) là m
ộ
t
l
ĩnh vự
c nghiên c
ứ
u nh
ằ
m giúp cho các h
ệ

th
ố
ng máy tính hi
ể
u và x
ử

lý đ
ượ
c

lý ngôn ng
ữ

t
ự

nhiên ra đ
ời đã lâu, trả
i qua nhi
ề
u nghiên c
ứ
u và
ứ
ng d
ụ
ng, ngày nay đượ
c
hi
ểu như là lĩnh vự
c giúp máy tính x
ử
lý các v
ấn đề
v
ề
ngôn ng
ữ
t

ủ
a x
ử

lý ngôn ng
ữ

v
ớ
i các m
ứ
c độ

khác nhau v
ề

x
ử

lý
và s
ử
d
ụ
ng ngôn ng
ữ
t
ự
nhiên c
ủa con ngườ

m thông tin
b
ằ
ng ti
ế
ng nói (search voice),
·
T
ổ
ng h
ợ
p ti
ế
ng nói: T
ừ

d
ữ

li
ệ
u văn bả
n, phân tích và chuy
ể
n thành ti
ế
ng
ngư
ờ
i nói, ví d

ế
t t
ừ
ng ch
ữ
cái và
chuy
ể
n chúng thành m
ộ
t t
ệp văn bả
n trên máy tính. Có hai ki
ể
u nh
ậ
n
d
ạ
ng: nh
ậ
n d
ạ
ng ch
ữ
in ví d
ụ

như nhậ
n d

ự

đ
ộ
ng: T
ừ

m
ộ
t t
ệ
p d
ữ

li
ệ
u văn bả
n trong m
ộ
t ngôn ng
ữ

(ví d
ụ

ti
ế
ng
Anh), máy tính d
ị

ột văn bả
n ng
ắ
n
g
ọ
n v
ớ
i nh
ữ
ng n
ội dung cơ bả
n.
·
Tìm ki
ế
m thông tin: T
ừ

m
ộ
t ngu
ồ
n r
ấ
t nhi
ề
u t
ệ
p văn bả

ế
ng nói.

10

· Trích ch
ọ
n thông tin: T
ừ
m
ộ
t ngu
ồ
n r
ấ
t nhi
ề
u t
ệp văn bả
n hay ti
ế
ng nói,
tìm ra m
ộ
t s
ố

đoạ
n bên trong m
ộ

ng ngu
ồ
n r
ấ
t nhi
ề
u
văn b
ả
n th
ậ
m chí h
ầ
u như k
hông có quan h
ệ

v
ớ
i nhau tìm ra đượ
c nh
ữ
ng
tri th
ức trước đấy chưa ai biết, đây là mộ
t v
ấn đề
r
ấ
t ph

ớ
i cũng như Việt Nam đã có nhữ
ng s
ả
n ph
ẩ
m nh
ậ
n
d
ạ
ng ti
ế
ng Vi
ệt như ABBYY FineReader, VietOCR, VnDOCR… Trong đó sả
n
ph
ẩ
m tính phí là ABBYY FineReader và VnDOCR; còn VietOCR là ph
ầ
n m
ề
m
mã ngu
ồ
n m
ở
s
ử
d

n d
ạ
ng ch
ữ

Vi
ệ
t in. Ph
ầ
n m
ề
m này có t
ừ

phiên b
ả
n 1.0 và đế
n nay là phiên
b
ả
n VnDOCR 4.0. Có th
ể
download dùng th
ử
t
ạ
i trang web
. Khi ch
ạ
y ph

VietOCR là m
ộ
t chương trình mã nguồ
n m
ở

do ngư
ờ
i Vi
ệ
t phát tri
ể
n.
Chương tr
ình sử

d
ụ
ng b
ộ

nh
ậ
n d
ạ
ng Tesseract. Có kh
ả

năng nh
ậ

n vào
ch
ấ
t lượ
ng c
ủ
a
ả
nh quét. Vì đây phầ
n m
ề
m mã ngu
ồ
n m
ở

nên vi
ệ
c phát tri
ể
n nó
đ
ể

nâng cao ch
ấ
t lượ
ng nh
ậ
n d

t s
ả
n ph
ẩ
m OCR c
ủ
a ABBYY
– m
ộ
t hãng công ngh
ệ

hàng đ
ầ
u trên th
ế

gi
ớ
i v
ề

l
ĩnh vự
c nh
ậ
n d
ạ
ng kí t
ự

ệ
c nh
ậ
n d
ạ
ng ch
ữ

in ti
ế
ng Vi
ệ
t lên t
ớ
i
11

99%. Tuy nhiên, s
ả
n ph
ẩ
m này là s
ả
n ph
ẩ
m thương mạ
i hóa, tính phí cho m
ỗ
i

ế
n hành cài đặt chương trình theo hướ
ng d
ẫ
n có s
ẵ
n c
ủ
a chương trình.

B
ả
ng
1.1. So sánh m
ộ
t s
ố

ph
ầ
n m
ề
m nh
ậ
n d
ạ
ng ch
ữ

in ti

ự
c ti
ế
p
tài li
ệ
u t
ừ

máy quét.
T
ự

độ
ng phân vùng nh
ậ
n
d
ạ
ng.
Trang web:
rceforge.n
et/
Là chương trình mã nguồ
n
m
ở

do ngườ
i Vi

Trang web:

m/
Là s
ả
n ph
ẩm thương mạ
i.
Là ph
ầ
n m
ề
m c
ủ
a Nga.
Cho phép k
ế
t n
ố
i và nh
ậ
n
d
ạ
ng tr
ự
c ti
ế
p
ả

b
ả
ng bi
ể
u, gi
ữ
nguyên
đị
nh d
ạng văn
b
ả
n.
Mi
ễ
n phí
.
Nh
ậ
n d
ạng đượ
c
ảnh đầ
u
vào d
ạ
ng PDF.
Nh
ậ
n d

u vào.
Phân vùng đúng, giữ

nguyên b
ố

c
ụ
c và đị
nh
d
ạng ban đầ
u.
Nh
ậ
n d
ạ
ng t
ố
t b
ả
ng bi
ể
u,
ch
ữ

to đ
ầu đoạ
n, công

ấ
u trúc ph
ứ
c t
ạ
p,
k
ế
t qu
ả

nh
ậ
n d
ạ
ng chưa
cao.
Không nh
ậ
n d
ạng đượ
c
ch
ữ

cái to đ
ầu đoạ
n (Drop
Cap), ch
ỉ

n d
ạ
ng
chưa cao
.

Không nh
ậ
n d
ạng đượ
c
ch
ữ

cái to đầu đoạ
n, các
công th
ứ
c toán h
ọ
c, b
ả
ng
bi
ể
u.
Giá thành cao.
Là s
ả
n ph

L
ỗ
i chính t
ả
g
ồ
m hai lo
ạ
i là l
ỗ
i th
ự
c t
ừ
và l
ỗ
i phi t
ừ
. H
ầ
u h
ế
t các ph
ầ
n
m
ề
m soát l
ỗ

ả
n x
u
ấ
t các s
ả
n ph
ẩ
m này đã ngừng đầ
u
tư phát triể
n.

Vào tháng 6/2010, t
ạ
i bu
ổ
i h
ọ
p báo
[9] c
ủ
a Vi
ệ
n Công ngh
ệ

thông tin-
Đ
ạ

ầ
n m
ề
m soát l
ỗ
i và
s
ử
a l
ỗ
i chính t
ả

trên th
ị

trư
ờ
ng có t
ỉ

l
ệ

soát l
ỗ
i như sau: BÚT ĐỎ

92,5%; CÚ
MÈO 62,65%; VIETSPELL 62,76%.

ế
t qu
ả

đánh giá đ
ộ

nh
ậ
n bi
ế
t l
ỗ
i
chính t
ả

ti
ế
ng Vi
ệ
t c
ủ
a m
ộ
t s
ố

ph
ầ

ả

ti
ế
ng Vi
ệ
t
và k
ế
t qu
ả

đánh giá đ
ộ

nh
ậ
n bi
ế
t l
ỗ
i chính t
ả

ti
ế
ng Vi
ệ
t

đánh giá

Công C
ụ

Vi
ệ
t 1.4VIEGRID
JSC
-

Đang phát triể
n.
-

Thương m
ạ
i, cho dùng th
ử
.

- www.viegrid.com
92,5%
C
ọ
p Con 3.1

-
Ng
ừ
ng phát tri
ể
n

-
Thương m
ạ
i, ng
ừ
ng cung c
ấ
p

- www.sobic.com.vn
62,65%
VietSpell

Lưu Hà
Xuyên
-
Ng
ừ
ng phát tri
ể
n.
-

i

- www.vietcatholic.net
26,52%
1.2.3

Công nghệ tách bộ và lập chỉ mục

Hi
ệ
n t
ạ
i có ph
ầ
n m
ề
m Kodak Capture [20] là 1 ph
ầ
n m
ề
m cho phép s
ố

hóa tài li
ệ
u và l
ậ
p ch
ỉ
m

n ph
ả
i d
ự
a vào các
13

form m
ẫu đượ
c t
ạ
o b
ởi ngườ
i s
ử
d
ụng (đánh dấ
u v
ị
trí c
ầ
n nh
ậ
n d
ạ
ng và l
ậ
p ch
ỉ

ớ
i v
ị

trí đã đánh dấ
u. Kodak Capture
cho phép ngườ
i dùng
ch
ỉ

đị
nh vùng OCR b
ằ
ng thao tác kéo th
ả
vùng c
ầ
n nh
ậ
n d
ạ
ng (drag & drop
OCR)

đ
ể

trích rút thông tin c
ầ

ạ
ng
đ
ể

trích rút thông tin. Hình
1.1.
M ột ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro

1.3
Bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt

V
ớ
i m
ộ
t kh
ối lượ
ng kh
ổ
ng l
ồ
các tài li
ệu văn bả

ảnh văn bản đó. Vì vậ
y, các
ảnh văn bản thu đượ
c sau khi quét c
ầ
n đươc nhậ
n d
ạ
ng thành thành văn bả
n có
th
ể

ch
ỉ
nh s
ử
a đượ
c (hình 1.
2.a và hình 1.2.b).
K
ế
t qu
ả

, s
ẽ

gây ra m
ộ
t l
ỗ
i chính t
ả

ti
ế
ng Vi
ệ
t
ở

đầ
u ra. Vi
ệ
c s
ử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ

c
ti
ế
p
tr
ợ

lý T
ổ
ng
th
ố
ng
M
ỹ

T.Đai
-
nai-
lơn

t
ớ
i

trao
thư

c
ủ

ề

tăng

cườ
ng
đố
i tho
ạ
i và h
ợ
p tác song
phương.
Ông
Đai
-
nai-
lơn

trư
ớ
c

đó

đ
ã

h
ộ

ạ
i Vi
ệ
n Công ngh
ệ
Nh
ậ
t B
ả
n, B
ộ

trưở
ng Ngo
ạ
i
giao M
ỹ
G.Ke-ri nêu b
ố
n nguyên t
ắ
c chính sách cua
M
ỹ

nh
ằ
m
giúp các

ộ
c h
ộ
i
th
ả
o v
ề
kinh t
ế
, Th
ủ

tướ
ng Trung Qu
ố
c Lý Kh
ắ
c
Cườ
ng
nh
ấ
n
m
ạ
nh
t
ầ
m

ể
thòng qua c
ả
i cách
sâu r
ộ
ng. (XEM TI
Ế
P TRANG 7)
Hình 1.2.b. Ph
ầ
n
văn
b
ả
n
đã

đượ
c nh
ậ
n d
ạ
ng

14

ỗ
tr
ợ

ngườ
i dùng tìm ki
ế
m
tài li
ệ
u m
ộ
t cách d
ễ

dàng.
Ở

hình 1.4 là m
ộ
t ví d
ụ

v
ề

trích rút metadata. Đ

ệ
u qu
ả
c
ủ
a công
c
ụ

này chúng ta c
ầ
n có nh
ữ
ng c
ả
i ti
ế
n t
ố
t hơn nữ
a, giúp cho
đ
ộ

chính xác trong
công vi
ệ
c nh
ậ
n d

ố
hóa m
ứ
c
1 dướ
i d
ạ
ng các
ả
nh.

2. H
ệ

th
ố
ng s
ẽ

kích ho
ạ
t chương trình nhậ
n d
ạ
ng OCR thông qua các giao
di
ệ
n l
ậ
p trình

ố
hi
ệ
u:
3390/QĐ
-BKHCN
Ngày ban hành: 11/12/2012
Trích y
ế
u n
ộ
i dung: Quy
ế
t
đị
nh v
ề
vi
ệ
c công b
ố
th
ủ

t
ụ
c hành chính m
ớ
i ban hành thu
ộ

ộ
t ví d
ụ
v
ề
trích rút metadata
Trong cu
ộ
c ti
ế
p tr
ợ
lý T
ổ
ng th
ố
ng M
ỹ

T.Đai
-nai-
lơn
t
ớ
i
trao
thư

c
ủ

ề

tăng

cườ
ng
đố
i tho
ạ
i và h
ợ
p tác song
phương.
Ông
Đai
-nai-
lơn

trướ
c
đó

đã
h
ộ
i
đàm
v
ớ
i B

trưở
ng Ngo
ạ
i
giao M
ỹ
G.Ke-ri nêu b
ố
n nguyên t
ắ
c chính sách cua M
ỹ

nh
ằ
m
giúp các
nư
ớ
c
khu v
ự
c
châu Á - Thái Bình
Dương

đ
ố
i

v
ề
kinh t
ế
, Th
ủ

tướ
ng Trung Qu
ố
c Lý Kh
ắ
c
Cườ
ng
nh
ấ
n
m
ạ
nh
t
ầ
m
quan tr
ọ
ng
c
ủ
a

p nh
ậ
t kinh t
ể
thòng qua c
ả
i cách sâu r
ộ
ng. (XEM
TI
Ế
P TRANG 7)
Hình 1.3.a. Ph
ầ
n
văn
b
ả
n
đã

đượ
c nh
ậ
n d
ạ
ng
Trong cu
ộ
c ti

ng
th
ố
ng
Nga
V.Pu
-tin cho bi
ế
t, s
ẽ
nghiên c
ứ
u
đề
xu
ấ
t c
ủ
a M
ỹ
v
ề

tăng

cườ
ng
đố
i tho
ạ

■

Theo Tân Hoa xã, phát bi
ể
u
ý
ki
ế
n t
ạ
i Vi
ệ
n Công ngh
ệ
Nh
ậ
t B
ả
n, B
ộ

trưở
ng Ngo
ạ
i
giao M
ỹ
G.Ke-ri nêu b
ố

tăng

trư
ở
ng

m
ạ
nh, công b
ằ
ng, nhanh và h
ợ
p lý.
■
T
ạ
i cu
ộ
c h
ộ
i th
ả
o
v
ề
kinh t
ế
, Th
ủ

đ
ồ
ng
th
ờ
i
kêu g
ọ
i
t
ậ
p
trung chuy
ể
n

đ
ổ
i
và
c
ậ
p nh
ậ
t kinh t
ế
thông qua c
ả
i cách sâu r

3.
Văn b
ả
n d
ạ
ng text sau quá trình nh
ậ
n d
ạ
ng OCR s
ẽ

đ
ượ
c
soát l
ỗ
i
chính t
ả

ti
ế
ng Vi
ệ
t để

nâng cao đ
ộ

c tài li
ệ
u m
ẫ
u đã đượ
c thi
ế
t k
ế
, n
ế
u không tìm th
ấ
y
m
ẫ
u nào tương ứ
ng trong danh m
ụ
c tài li
ệ
u m
ẫ
u, h
ệ

th
ố
ng s
ẽ

ụ
c t
ự

đ
ộ
ng theo c
ấ
u trúc đã
đượ
c thi
ế
t l
ậ
p, và lưu vào cơ sở

d
ữ

li
ệ
u c
ủ
a h
ệ

th
ố
ng.

ự

nhiên (d
ữ

li
ệu văn bả
n).
Tổng kết chương 1

Trên đây chúng tôi đ
ã
gi
ớ
i thi
ệ
u v
ề
x
ử
lý ngôn ng
ữ
t
ự

nhiên như khái
ni
ệ
m và m
ộ

ạ
ng OCR, công ngh
ệ
soát
l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t, công ngh
ệ
tách b
ộ
và l
ậ
p ch
ỉ
m
ụ
c.
Trên cơ sở

đó,
lu
ậ
n
văn đưa ra giả

ậ
t
thi
ế
t v
ớ
i m
ỗ
i bài toán trong x
ử
lý ngôn ng
ữ
, c
ụ
th
ể
là bài toán nh
ậ
n d
ạ
ng ch
ữ

OCR, bài toán soát l
ỗ
i chính t
ả
ti
ế
ng Vi

n

ti
ế
ng
Vi
ệ
t
c
ủ
a
h
ệ

th
ố
ng
FSCANNER

Ả
nh
quét
Nh
ậ
n
d
ạ
ng
OCR
Soát l

n, vì v
ậ
y trong ph
ạ
m vi
lu
ận văn tậ
p trung vào m
ộ
t s
ố
k
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng OCR, k
ỹ
thu
ậ
t soát l
ỗ
i chính
t
ả
ti
ế

Gi
ới thiệu

Nh
ậ
n d
ạ
ng ký t
ự
quang h
ọ
c (Optical Character Recognition – OCR) là
lo
ạ
i ph
ầ
n m
ề
m máy tính có ch
ức năng chuyể
n các hình
ả
nh c
ủ
a ch
ữ
vi
ế
t tay
ho

máy scanner thành file
ả
nh, ph
ầ
n m
ề
m OCR s
ẽ
nh
ậ
n d
ạ
ng file
ảnh đã quét đó
thành file văn bản lưu trữ
trên máy tính có th
ể
ch
ỉ
nh s
ửa đượ
c trên máy tính.
L
ị
ch s
ử
c
ủa OCR đã có từ

hơn nử

n. Ngày nay v
ớ
i s
ự
phát tri
ể
n
m
ạ
nh m
ẽ
, OCR tr
ở
nên ph
ổ
bi
ến và thường đượ
c
ứ
ng d
ụng như mộ
t ph
ầ
n m
ề
m
cài đặ
t trên máy tính ho
ặ
c tích h

d
ạ
ng ch
ữ
in có giá tr
ị
th
ự
c t
ế
cao, có th
ể
k
ể

đến như: sả
n ph
ẩ
m ABBYY
FineReader (hi
ệ
n nay là phiên b
ả
n FineReader 12)
có th
ể

nh
ậ
n d

ẩ
m VnDOCR
nh
ậ
n d
ạ
ng ch
ữ

Vi
ệ
t in

c
ủ
a Vi
ệ
n C
ông ngh
ệ

thông tin-Vi
ệ
n Khoa h
ọ
c và Công ngh
ệ

Vi
ệ

ử

d
ụ
ng b
ộ

nh
ậ
n d
ạ
ng Tessecract,
17

Mô hình t
ổ
ng quát c
ủ
a m
ộ
t h
ệ

nh
ậ
n d
ạ

Các tài li
ệ
u gi
ấ
y (ch
ữ

in ho
ặ
c ch
ữ

vi
ế
t tay) đượ
c chuy
ể
n thành các file
ả
nh
b
ằ
ng máy quét. Các
ả
nh quét đó là đầ
u vào cho quá trình nh
ậ
n d
ạ
ng OCR. Ti

ch
ứ
c năng
như: nhị

phân hóa
ả
nh, l
ọ
c nhi
ễ
u, chu
ẩ
n hóa kích thướ
c
ả
nh, làm trơn biên chữ
,
làm đ
ầ
y ch
ữ
, điề
u ch
ỉ
nh độ

nghiêng văn b
ả

ỗ
i
ả
nh ký t
ự
, khâu trích ch
ọ
n đặc trưng phân tích ả
nh ký t
ự

tìm ra
đặc trưng
riêng c
ủ
a ký t
ự

đó. Các đặc trưng đã đượ
c l
ự
a ch
ọ
n trong
bướ
c trích ch
ọn đặ
c
trưng đượ
c s

l
ỗ
i,
bướ
c h
ậ
u x
ử
lý s
ẽ
th
ự
c hi
ệ
n vi
ệ
c ghép n
ố
i
các kí t
ự

đã nhậ
n d
ạ
ng thành các t
ừ, các câu, các đoạn văn để
tái hi
ệ
n l

ự
c
hi
ện trên đề
u quan tr
ọng, nhưng bướ
c quan tr
ọ
ng nh
ấ
t quy
ết định độ
chính xác
c
ủ
a nh
ậ
n d
ạ
ng là trích ch
ọn đặc trưng và phân lớ
p. Thu
ậ
t toán phân l
ớ
p là y
ế
u t
ố

ạ
ng
c
ấu trúc đã đượ
c
ứ
ng d
ụ
ng khá ph
ổ
bi
ế
n trong các h
ệ
th
ố
ng nh
ậ
n d
ạng và cũng
đã thu đượ
c nh
ữ
ng thành công nh
ất đị
nh. Tuy v
ậ
y, v
ớ
i nh

d
ụ
ng các thu
ậ
t toán phân l
ớ
p d
ự
a trên mô hình
Ả
nh
quét
Ti
ề
n x
ử
lý
Phân đoạ
n

Trích ch
ọ
n
đặc trưng

Phân l
ớ
p
H
ậ

nói riêng.
2.1.2.
K
ỹ thuật nhận dạng dựa trên mô hình máy vectơ hỗ trợ (SVM)

Máy vectơ h
ỗ

tr
ợ

(Support vector machine – SVM) là m
ộ
t phương pháp
phân l
ớ
p d
ự
a trên lý thuy
ế
t h
ọ
c th
ống kê, được đề
xu
ấ
t b
ở
i V.Vapnik và các

ộ
t siêu ph
ẳng để
phân tách hai l
ớ
p c
ủ
a d
ữ

li
ệ
u, ví d
ụ
l
ớ
p các ví d
ụ

có nhãn dương và lớ
p các ví d
ụ
có nhãn âm. Có th
ể
mô
t
ả

m
ộ

m
ộ
t l
ớ
p cho trướ
c, b
ộ

phân l
ớ
p SVM s
ẽ

xây d
ự
ng mô hình
phân l
ớ
p d
ự
a trên 2 t
ậ
p d
ữ
li
ệ
u này. Khi có m
ộ
t m

ng h
ợ
p phân l
ớ
p phi tuy
ế
n.
N
ế
u bi
ể
u di
ễ
n t
ậ
p D g
ồ
m r các ví d
ụ
hu
ấ
n luy
ện như sau D={(x
1
,y
1
),

p (giá tr
ị

đ
ầ
u ra) ch
ỉ

nh
ậ
n 2 giá tr
ị

là -1
ho
ặ
c 1 (l
ớ
p âm ho
ặ
c l
ớp dương). Khi đó SVM xác đị
nh m
ộ
t hàm phân tách
tuy
ế
n tính f(x)=<w.x>+b, trong đó w là vectơ trọ
ng s
ố

n l
ớ
p âm là <w.x>+b=0
đượ
c th
ể
hi
ệ
n
ở
hình 2.3.a.

Hình 2.
2.b. Siêu ph
ẳ
ng t
ố
i ưu và biên
l
ề

tương ứng, các vectơ hỗ
tr
ợ
.
Hình 2.2.a. Các l
ớ
p phân
tách tuy
ế

t t
ậ
p d
ữ

li
ệ
u thì khi đó ta chọ
n m
ặ
t siêu ph
ẳ
ng phân tách có l
ề

c
ực đạ
i (Hình 2.3.b). Quá trình h
ọ
c SVM nh
ằ
m c
ực đạ
i hóa m
ứ
c l
ề
.
Trong hình 2.6.b, gi
ả

c
ủ
a l
ớ
p dương (x
+
,1) và m
ộ
t ví d
ụ

c
ủ
a
l
ớ
p âm (x
-
,1) g
ầ
n nh
ấ
t đố
i v
ớ
i siêu ph
ẳ
ng phân tách H
0

đi qua x
-
và song song v
ớ
i H
0
,
d
+
là kho
ả
ng cách gi
ữ
a H
+
và H
0
; d
-
là kho
ả
ng cách gi
ữ
a H
-
và H
0
, thì (d
+

w
i
x b+

(1)
Trong đó ||w|| là độ
dài c
ủ
a w :
2 2 2
1 2
w w w
n
+ + +

Áp d
ụ
ng bi
ể
u th
ứ
c (1) tính d
+

là kho
ả
ng cách t
ừ
x
+

y, tính toán m
ứ
c l
ề
= d
+
+ d
-
=
1 1 2
w w w
+ =<w.x> + b = 0
y
=1
y =
-
1
H
0
: <w.x> + b
= 0
y
=1
y =-
1
d
+

c
ự
c đạ
i
(Liu, 2006)

Trích đoạn Mô hình ngôn ngữ N-gram Kỹ thuật soát lỗi dựa trên mô hình n-gram của hệ thống FSCANNER Giới thiệu về metadata và chuẩn DublinCore Bài toán trích rút metadata

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER - Pdf 30

Tài liệu, ebook tham khảo khác

Học thêm