Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER - Pdf 30



ĐẠ
I H

C QU

C GIA HÀ N

I

TRƯỜNG ĐẠ
I H

C CÔNG NGH

NINH TH


THU HÀ CÁC K

THU

T X



n m

m
Mã s

: 60480103 LU

N VĂN THẠC SĨ
Hà N

i
- 2014 ĐẠ
I H

C QU

C GIA HÀ N

I



T
C

A H

TH

NG FSCANNER

Ngành: Công ngh


thông tin
Chuyên ngành:
Công ngh

ph

n m

m
Mã s

: 60480103

LU

N
VĂN THẠC SĨ

ph

n m

m, khóa 2012
-
2014. Tôi xin cam đoan lu
ận văn thạc sĩ “Các kỹ

thu

t x


lý ngôn ng


trong s


hóa văn b

n ti
ế
ng Vi

t c

a h


nêu trong Lu

n văn là trung thực và chưa từng đượ
c ai công
b


trong b

t k


công trình nào khác.
T

t c

nh

ng tham kh

o t

các nghiên c
ứu liên quan đều đượ
c nêu ngu

n
g




tài li

u tham kh

o.

Hà n

i, ngày 28
tháng 10 năm 2014

Tác gi

Ninh Th

Thu Hà L

I C

M ƠN

Tôi xin g


b

o t

n tình
cho tôi trong su

t quá trình nghiên
c

u và hoàn thành lu

n văn tố
t nghi

p.

Tôi xin g

i l

i c
ảm ơn chân thành tớ
i các th
ầy cô đã và đang tham gia
gi

ng d


n l

i cho tôi hoàn thành khóa
h

c t
ại trườ
ng.
Tôi xin bày t

lòng bi
ết ơn tớ
i t

t c

b
ạn bè, đồ
ng nghi
ệp và người thân đã
động viên, giúp đỡ
tôi trong su

t quá trình h

c t

p và nghiên c

u, hoàn thành

o
để
hoàn thi

n lu
ận văn này.

Tác gi


MỤC LỤC

DANH M

C CÁC T

VI

T T

T 1

HÓA VĂN BẢ
N TI

NG VI

T 9
1.1 Gi

i thi

u v

x

lý ngôn ng

t

nhiên 9
1.2 Gi

i thi

u m

t s


công ngh


ế
ng
Vi

t
11
1.2.3 Công ngh


tách b


và l

p ch


m

c
12
1.3 Bài toán x


lý ngôn ng


trong s




t s

k

thu

t nh

n d

ng OCR 16
2.1.1. Gi

i thi

u 16
2.1.2. K

thu

t nh

n d

ng d
ựa trên mô hình máy vectơ hỗ
tr

(SVM) 18

n nh

n d

ng OCR c

a FSCANNER
24
2.2. K


thu

t soát l

i chính t


ti
ế
ng Vi

t d

a trên mô hình n
-gram 25
2.2.1. Gi

i thi


th

ng
FSCANNER 29
2.3. Trích rút metadata 30
2.3.1.
Gi

i thi

u v

metadata và chu

n Dublin Core 30
2.3.2. Bài toán trích rút metadata 32
2.3.3.
Đề
xu
ất metadata cho văn bản đượ
c s

hóa 34 T

ng k
ết chương 2
45


c nghi

m cho

nh quét
48
3.3. Ti
ế
n hành th

c nghi

m
49
3.3.1. M

c tiêu
49
3.3.2. Cách th

c hi

n
49
3.4. K
ế
t q
u


1

DANH M
ỤC CÁC TỪ VIẾT TẮT

STT
T

vi
ế
t
t

t

T


đ
ầy đủ

Ti
ế
ng Vi

t

1
ANN
Artificial Neural Network

Mô hình Markov

n

5
MLP
Multi Layer Perceptron
M

ng nhi

u l

p truy

n

th

ng Perceptron

6
NLP
Natural Language Processing
X


lý ngôn ng



OVR
One Versus The Rest
M

t v

i ph

n còn l

i
10
SVM
Support Vector Machine
Máy V
éc tơ
H

tr


2

DANH MỤC BẢNG BIỂU

B

ng 1.1. So sánh m

t s

m soát l

i chính t


ti
ế
ng Vi

t và k
ế
t qu


đánh giá đ


nh

n bi
ế
t l

i chính t


ti
ế
ng Vi


ng 2.2. C

u trúc âm ti
ế
t 3 thành ph

n
B

ng 2.3. C

u trúc âm ti
ế
t 4 thành ph

n
B

ng 2.4. C

u trúc âm ti
ế
t 5 thành ph

n

B

ng 2.5. Các thành ph



xu

t xây d

ng các y
ế
u t


metadata cho s


hóa văn b

n

B
ảng 2.9. Tiêu đề
(Title)
B
ảng 2.10. Ngườ
i t

o (Creator)
B

ng 2.11. Ngày tháng (Date)
B



ng tác (Contributor)

3

B

ng 2.18. Ch


đ


(Subject)
B

ng 2.19. Ph

m vi (Coverage)
B

ng 2.20. Ki

u /Lo

i (Type)
B

ng 2.21. Kh




(List number)
B

ng 2.27. H

p s

(Folder number)
B

ng 2.28. H


sơ số
(Record number)
B

ng 2.29. T

s

(Page number)
B

ng 2.30. Ngày s


hóa (Digitizing date)



li

u c

a 25 y
ế
u t


metadata xây d

ng cho văn bả
n
đư

c s


hóa
B

ng 3.1. S


t


nh

c)
c

a

nh quét
B

ng 3.3. S

t

nh

n d
ạng đúng vớ
i các góc xoay (l

ch ph

i so v

i

nh quét
g

c) c

a


Hình 1.3.b. Ph
ần văn bả
n nh

n d
ạng đã sử
a l

i chính t

ti
ế
ng Vi

t
Hình 1.4. M

t ví d

v

trích rút thông tin
Hình 1.5. Sơ đồ

ho

t độ
ng c



ng nh

n d

ng OCR
Hình 2.2.a. Các l

p phân tách tuy
ế
n tính.
Hình 2.2.b. Siêu ph

ng t
ối ưu và biên lề

tương ứng, các vectơ hỗ
tr

.
Hình 2.3.a: Siêu ph

ng phân tách 2 l

p (Liu, 2006)

Hình 2.3.b: Siêu ph

ng phân tách có l



ng kí t


quang h

c.

Hình 2.7. Mô hình Markov b

c 2

Hình 3.1. Giao di
ện chương trình FSCANNER

Hình 3.2. Upload v
ăn bả
n trong h

th

ng FSCANNER
Hình 3.3. H


th

ng FSCANNER đang nhậ
n d




l


% s


t


nh

n d

ng đúng ở

7 m

c DPI

Hình 3.6. Bi
ểu đồ
t

l

% s

t

M
Ở ĐẦU

1. Tính c

p thi
ế
t
Công tác lưu trữ

có vai trò
đặ
c bi

t quan tr

ng đố
i v

i các lĩnh vự
c c

a
đ

i s

ng xã h

i b

n thi
ế
t giúp
gi
ảm chi phí và tăng năng suấ
t trong vi

c qu

n lý.
Th

c t
ế

t

i Vi

t Nam có r

t nhi

u t


ch

c và doanh nghi



hóa tài li

u, t

c là chuy

n các tài li

u b

n c
ứng đó vào trong máy tính để

lưu tr

,
tìm ki
ế
m, ch

nh s

a khi c

n.

Hi

n nay chúng ta đã có các máy quét vớ


d

ng máy quét s


ti
ế
t ki

m th

i gian, chi phí g

p hàng trăm lầ
n so v

i
vi

c nh

p b

ng tay các t
ài li

u b

n c

n đó khi cầ
n thi
ế
t
, vi

c tìm ki
ế
m t


khóa hay n

i dung trong văn bả
n quét
cũng
không th

th

c hi
ện đượ
c. Vì v

y, file
ảnh thu đượ
c sau khi quét c
ần đượ
c
nh


ph

c v


cho vi

c tìm ki
ế
m nhanh
, đ


chính xác c

a vi

c tìm ki
ế
m s


ph


thu

c
nhi

trên và mang l

i k
ế
t qu

r

t
kh


quan. Tuy nhiên, nh

m nâng cao hi

u qu


c

a công c


này chúng ta c

n có
nh

ng c

c gia Hà N
ội đưa ra giả
i pháp là xây d

ng h

th

ng FSCANNER
để

s


hóa văn bả
n ti
ế
ng Vi

t.
7

2. M

c tiêu c

a lu

n văn


·
Tìm hi

u v


các k


thu

t nh

n d

ng OCR, k


thu

t soát
l

i chính t


ti
ế
ng
Vi

n
đượ
c s

hóa.
3. Nhi

m v


nghiên c

u

M
ục đích củ
a lu
ận văn đề
c
ập được đế
n hai ph

n:
· Ph

n lý thuy
ế
t: Trình bày t

ng quan v


thu

t nh

n d

ng OCR, k


thu

t s

a l

i chính t


ti
ế
ng Vi

t d

a trên mô hình n-gram; V

i bài toán trích rút metadata,
tìm hi



n

ng d

ng: Th

c nghi

m ch

n ngưỡ
ng góc xoay và ch


s


DPI thích h

p nâng cao ch

t lượ
ng n
h

n d

ng OCR.



i m
ục đích quả
n lý và t


độ
ng s

hóa
tài li
ệu. Đ
ây th

c s

là m

t bài toán l

n. Chính vì th
ế
trong ph

m vi c

a lu

n
văn


n d

ng OCR, k

thu

t s

a l

i chính t

ti
ế
ng Vi

t d

a trên mô hình ngôn ng


n-gram c

a h

th

ng, nghiên c



n ngưỡ
ng góc xoay và ch


s


DPI thích h

p đố
i v

i

nh đầ
u
vào đ


nâng cao ch

t lượ
ng nh

n d

ng OCR.

8

th

ng FSCANNER.

6. B


c

c lu

n văn

Ngoài ph

n m


đầ
u, k
ế
t lu

n và danh m

c tài li

u tham kh

o, lu



bài toán x


lý ngôn ng


t


nhiên và sơ đ


ho

t
độ
ng c

a vi

c s


hóa văn bả
n ti
ế
ng Vi


i dung

chương 2 g

m 3
ph

n:
gi

i thi

u m

t s


k


thu

t nh

n d

ng
OCR; k



c nghi

m –
đánh giá:

Ch
ạy chương trình vớ
i b

d

li

u th

c nghi
ệm đưa ra để
ch
ọn ngưỡ
ng ch


s


DPI và góc xoay thích h

p đố
i v




lý ngôn ng


t


nhiên (NLP – Natural Language Processing) là m

t
l
ĩnh vự
c nghiên c

u nh

m giúp cho các h


th

ng máy tính hi

u và x


lý đ
ượ
c


lý ngôn ng


t


nhiên ra đ
ời đã lâu, trả
i qua nhi

u nghiên c

u và

ng d

ng, ngày nay đượ
c
hi
ểu như là lĩnh vự
c giúp máy tính x

lý các v
ấn đề
v

ngôn ng

t


a x


lý ngôn ng


v

i các m

c độ

khác nhau v


x



và s

d

ng ngôn ng

t

nhiên c
ủa con ngườ

m thông tin
b

ng ti
ế
ng nói (search voice),
·
T

ng h

p ti
ế
ng nói: T


d


li

u văn bả
n, phân tích và chuy

n thành ti
ế
ng
ngư

i nói, ví d

ế
t t

ng ch

cái và
chuy

n chúng thành m

t t
ệp văn bả
n trên máy tính. Có hai ki

u nh

n
d

ng: nh

n d

ng ch

in ví d


như nhậ
n d



đ

ng: T


m

t t

p d


li

u văn bả
n trong m

t ngôn ng


(ví d


ti
ế
ng
Anh), máy tính d


ột văn bả
n ng

n
g

n v

i nh

ng n
ội dung cơ bả
n.
·
Tìm ki
ế
m thông tin: T


m

t ngu

n r

t nhi

u t

p văn bả

ế
ng nói.

10

· Trích ch

n thông tin: T

m

t ngu

n r

t nhi

u t
ệp văn bả
n hay ti
ế
ng nói,
tìm ra m

t s


đoạ
n bên trong m


ng ngu

n r

t nhi

u
văn b

n th

m chí h

u như k
hông có quan h


v

i nhau tìm ra đượ
c nh

ng
tri th
ức trước đấy chưa ai biết, đây là mộ
t v
ấn đề
r

t ph


i cũng như Việt Nam đã có nhữ
ng s

n ph

m nh

n
d

ng ti
ế
ng Vi
ệt như ABBYY FineReader, VietOCR, VnDOCR… Trong đó sả
n
ph

m tính phí là ABBYY FineReader và VnDOCR; còn VietOCR là ph

n m

m
mã ngu

n m

s

d

n d

ng ch


Vi

t in. Ph

n m

m này có t


phiên b

n 1.0 và đế
n nay là phiên
b

n VnDOCR 4.0. Có th

download dùng th

t

i trang web
. Khi ch

y ph

VietOCR là m

t chương trình mã nguồ
n m


do ngư

i Vi

t phát tri

n.
Chương tr
ình sử

d

ng b


nh

n d

ng Tesseract. Có kh


năng nh


n vào
ch

t lượ
ng c

a

nh quét. Vì đây phầ
n m

m mã ngu

n m


nên vi

c phát tri

n nó
đ


nâng cao ch

t lượ
ng nh

n d

t s

n ph

m OCR c

a ABBYY
– m

t hãng công ngh


hàng đ

u trên th
ế

gi

i v


l
ĩnh vự
c nh

n d

ng kí t



c nh

n d

ng ch


in ti
ế
ng Vi

t lên t

i
11

99%. Tuy nhiên, s

n ph

m này là s

n ph

m thương mạ
i hóa, tính phí cho m

i


ế
n hành cài đặt chương trình theo hướ
ng d

n có s

n c

a chương trình.

B

ng
1.1. So sánh m

t s


ph

n m

m nh

n d

ng ch


in ti


c ti
ế
p
tài li

u t


máy quét.
T


độ
ng phân vùng nh

n
d

ng.
Trang web:
rceforge.n
et/
Là chương trình mã nguồ
n
m


do ngườ
i Vi

Trang web:

m/
Là s

n ph
ẩm thương mạ
i.
Là ph

n m

m c

a Nga.
Cho phép k
ế
t n

i và nh

n
d

ng tr

c ti
ế
p


b

ng bi

u, gi

nguyên
đị
nh d
ạng văn
b

n.
Mi

n phí
.
Nh

n d
ạng đượ
c
ảnh đầ
u
vào d

ng PDF.
Nh

n d

u vào.
Phân vùng đúng, giữ

nguyên b


c

c và đị
nh
d
ạng ban đầ
u.
Nh

n d

ng t

t b

ng bi

u,
ch


to đ
ầu đoạ
n, công


u trúc ph

c t

p,
k
ế
t qu


nh

n d

ng chưa
cao.
Không nh

n d
ạng đượ
c
ch


cái to đ
ầu đoạ
n (Drop
Cap), ch


n d

ng
chưa cao
.

Không nh

n d
ạng đượ
c
ch


cái to đầu đoạ
n, các
công th

c toán h

c, b

ng
bi

u.
Giá thành cao.
Là s

n ph


L

i chính t

g

m hai lo

i là l

i th

c t

và l

i phi t

. H

u h
ế
t các ph

n
m

m soát l



n x
u

t các s

n ph

m này đã ngừng đầ
u
tư phát triể
n.

Vào tháng 6/2010, t

i bu

i h

p báo
[9] c

a Vi

n Công ngh


thông tin-
Đ



n m

m soát l

i và
s

a l

i chính t


trên th


trư

ng có t


l


soát l

i như sau: BÚT ĐỎ

92,5%; CÚ
MÈO 62,65%; VIETSPELL 62,76%.

ế
t qu


đánh giá đ


nh

n bi
ế
t l

i
chính t


ti
ế
ng Vi

t c

a m

t s


ph




ti
ế
ng Vi

t
và k
ế
t qu


đánh giá đ


nh

n bi
ế
t l

i chính t


ti
ế
ng Vi

t



đánh giá

Công C


Vi

t 1.4VIEGRID
JSC
-

Đang phát triể
n.
-

Thương m

i, cho dùng th

.

- www.viegrid.com
92,5%
C

p Con 3.1

-
Ng

ng phát tri

n

-
Thương m

i, ng

ng cung c

p

- www.sobic.com.vn
62,65%
VietSpell

Lưu Hà
Xuyên
-
Ng

ng phát tri

n.
-


i

- www.vietcatholic.net
26,52%
1.2.3

Công nghệ tách bộ và lập chỉ mục

Hi

n t

i có ph

n m

m Kodak Capture [20] là 1 ph

n m

m cho phép s


hóa tài li

u và l

p ch

m

n ph

i d

a vào các
13

form m
ẫu đượ
c t

o b
ởi ngườ
i s

d
ụng (đánh dấ
u v

trí c

n nh

n d

ng và l

p ch




i v


trí đã đánh dấ
u. Kodak Capture
cho phép ngườ
i dùng
ch


đị
nh vùng OCR b

ng thao tác kéo th

vùng c

n nh

n d

ng (drag & drop
OCR)

đ


trích rút thông tin c



ng
đ


trích rút thông tin. Hình
1.1.
M ột ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro

1.3
Bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt

V

i m

t kh
ối lượ
ng kh

ng l

các tài li
ệu văn bả

ảnh văn bản đó. Vì vậ
y, các
ảnh văn bản thu đượ
c sau khi quét c

n đươc nhậ
n d

ng thành thành văn bả
n có
th


ch

nh s

a đượ
c (hình 1.
2.a và hình 1.2.b).
K
ế
t qu


, s


gây ra m

t l

i chính t


ti
ế
ng Vi

t


đầ
u ra. Vi

c s

a l

i chính t

ti
ế
ng Vi


c
ti
ế
p
tr


lý T

ng
th

ng
M


T.Đai
-
nai-
lơn

t

i

trao
thư

c




tăng

cườ
ng
đố
i tho

i và h

p tác song
phương.
Ông
Đai
-
nai-
lơn

trư

c

đó

đ
ã

h



i Vi

n Công ngh

Nh

t B

n, B


trưở
ng Ngo

i
giao M

G.Ke-ri nêu b

n nguyên t

c chính sách cua
M


nh

m
giúp các


c h

i
th

o v

kinh t
ế
, Th


tướ
ng Trung Qu

c Lý Kh

c
Cườ
ng
nh

n
m

nh
t

m


thòng qua c

i cách
sâu r

ng. (XEM TI

P TRANG 7)
Hình 1.2.b. Ph

n
văn
b

n
đã

đượ
c nh

n d

ng

14



tr


ngườ
i dùng tìm ki
ế
m
tài li

u m

t cách d


dàng.


hình 1.4 là m

t ví d


v


trích rút metadata. Đ


u qu

c

a công
c


này chúng ta c

n có nh

ng c

i ti
ế
n t

t hơn nữ
a, giúp cho
đ


chính xác trong
công vi

c nh

n d


hóa m

c
1 dướ
i d

ng các

nh.

2. H


th

ng s


kích ho

t chương trình nhậ
n d

ng OCR thông qua các giao
di

n l

p trình


hi

u:
3390/QĐ
-BKHCN
Ngày ban hành: 11/12/2012
Trích y
ế
u n

i dung: Quy
ế
t
đị
nh v

vi

c công b

th


t

c hành chính m

i ban hành thu



t ví d

v

trích rút metadata
Trong cu

c ti
ế
p tr

lý T

ng th

ng M


T.Đai
-nai-
lơn
t

i
trao
thư

c




tăng

cườ
ng
đố
i tho

i và h

p tác song
phương.
Ông
Đai
-nai-
lơn

trướ
c
đó

đã
h

i
đàm
v

i B


trưở
ng Ngo

i
giao M

G.Ke-ri nêu b

n nguyên t

c chính sách cua M


nh

m
giúp các


c
khu v

c
châu Á - Thái Bình
Dương

đ

i

v

kinh t
ế
, Th


tướ
ng Trung Qu

c Lý Kh

c
Cườ
ng
nh

n
m

nh
t

m
quan tr

ng
c

a

p nh

t kinh t

thòng qua c

i cách sâu r

ng. (XEM
TI

P TRANG 7)
Hình 1.3.a. Ph

n
văn
b

n
đã

đượ
c nh

n d

ng
Trong cu

c ti

ng
th

ng
Nga
V.Pu
-tin cho bi
ế
t, s

nghiên c

u
đề
xu

t c

a M

v


tăng

cườ
ng
đố
i tho





Theo Tân Hoa xã, phát bi

u
ý
ki
ế
n t

i Vi

n Công ngh

Nh

t B

n, B


trưở
ng Ngo

i
giao M

G.Ke-ri nêu b


tăng

trư

ng

m

nh, công b

ng, nhanh và h

p lý.

T

i cu

c h

i th

o
v

kinh t
ế
, Th




đ

ng
th

i
kêu g

i
t

p
trung chuy

n

đ

i

c

p nh

t kinh t
ế
thông qua c

i cách sâu r


3.
Văn b

n d

ng text sau quá trình nh

n d

ng OCR s


đ
ượ
c
soát l

i
chính t


ti
ế
ng Vi

t để

nâng cao đ


c tài li

u m

u đã đượ
c thi
ế
t k
ế
, n
ế
u không tìm th

y
m

u nào tương ứ
ng trong danh m

c tài li

u m

u, h


th

ng s



c t


đ

ng theo c

u trúc đã
đượ
c thi
ế
t l

p, và lưu vào cơ sở

d


li

u c

a h


th

ng.




nhiên (d


li
ệu văn bả
n).
Tổng kết chương 1

Trên đây chúng tôi đ
ã
gi

i thi

u v

x

lý ngôn ng

t


nhiên như khái
ni

m và m



ng OCR, công ngh

soát
l

i chính t

ti
ế
ng Vi

t, công ngh

tách b

và l

p ch

m

c.
Trên cơ sở

đó,
lu

n
văn đưa ra giả


t
thi
ế
t v

i m

i bài toán trong x

lý ngôn ng

, c

th

là bài toán nh

n d

ng ch


OCR, bài toán soát l

i chính t

ti
ế
ng Vi

n

ti
ế
ng
Vi

t
c

a
h


th

ng
FSCANNER


nh
quét
Nh

n
d

ng
OCR
Soát l

n, vì v

y trong ph

m vi
lu
ận văn tậ
p trung vào m

t s

k

thu

t nh

n d

ng OCR, k

thu

t soát l

i chính
t

ti
ế

Gi
ới thiệu

Nh

n d

ng ký t

quang h

c (Optical Character Recognition – OCR) là
lo

i ph

n m

m máy tính có ch
ức năng chuyể
n các hình

nh c

a ch

vi
ế
t tay
ho

máy scanner thành file

nh, ph

n m

m OCR s

nh

n d

ng file
ảnh đã quét đó
thành file văn bản lưu trữ
trên máy tính có th

ch

nh s
ửa đượ
c trên máy tính.
L

ch s

c
ủa OCR đã có từ

hơn nử

n. Ngày nay v

i s

phát tri

n
m

nh m

, OCR tr

nên ph

bi
ến và thường đượ
c

ng d
ụng như mộ
t ph

n m

m
cài đặ
t trên máy tính ho

c tích h

d

ng ch

in có giá tr

th

c t
ế
cao, có th

k


đến như: sả
n ph

m ABBYY
FineReader (hi

n nay là phiên b

n FineReader 12)
có th


nh

n d


m VnDOCR
nh

n d

ng ch


Vi

t in

c

a Vi

n C
ông ngh


thông tin-Vi

n Khoa h

c và Công ngh


Vi




d

ng b


nh

n d

ng Tessecract,
17

Mô hình t

ng quát c

a m

t h


nh

n d


Các tài li

u gi

y (ch


in ho

c ch


vi
ế
t tay) đượ
c chuy

n thành các file

nh
b

ng máy quét. Các

nh quét đó là đầ
u vào cho quá trình nh

n d

ng OCR. Ti


ch

c năng
như: nhị

phân hóa

nh, l

c nhi

u, chu

n hóa kích thướ
c

nh, làm trơn biên chữ
,
làm đ

y ch

, điề
u ch

nh độ

nghiêng văn b



i

nh ký t

, khâu trích ch

n đặc trưng phân tích ả
nh ký t


tìm ra
đặc trưng
riêng c

a ký t


đó. Các đặc trưng đã đượ
c l

a ch

n trong
bướ
c trích ch
ọn đặ
c
trưng đượ
c s

l

i,
bướ
c h

u x

lý s

th

c hi

n vi

c ghép n

i
các kí t


đã nhậ
n d

ng thành các t
ừ, các câu, các đoạn văn để
tái hi

n l


c
hi
ện trên đề
u quan tr
ọng, nhưng bướ
c quan tr

ng nh

t quy
ết định độ
chính xác
c

a nh

n d

ng là trích ch
ọn đặc trưng và phân lớ
p. Thu

t toán phân l

p là y
ế
u t




ng
c
ấu trúc đã đượ
c

ng d

ng khá ph

bi
ế
n trong các h

th

ng nh

n d
ạng và cũng
đã thu đượ
c nh

ng thành công nh
ất đị
nh. Tuy v

y, v

i nh

d

ng các thu

t toán phân l

p d

a trên mô hình

nh
quét
Ti

n x


Phân đoạ
n

Trích ch

n
đặc trưng

Phân l

p
H



nói riêng.
2.1.2.
K
ỹ thuật nhận dạng dựa trên mô hình máy vectơ hỗ trợ (SVM)

Máy vectơ h


tr


(Support vector machine – SVM) là m

t phương pháp
phân l

p d

a trên lý thuy
ế
t h

c th
ống kê, được đề
xu

t b

i V.Vapnik và các


t siêu ph
ẳng để
phân tách hai l

p c

a d


li

u, ví d

l

p các ví d


có nhãn dương và lớ
p các ví d

có nhãn âm. Có th


t


m



m

t l

p cho trướ
c, b


phân l

p SVM s


xây d

ng mô hình
phân l

p d

a trên 2 t

p d

li

u này. Khi có m

t m

ng h

p phân l

p phi tuy
ế
n.
N
ế
u bi

u di

n t

p D g

m r các ví d

hu

n luy
ện như sau D={(x
1
,y
1
),

p (giá tr


đ

u ra) ch


nh

n 2 giá tr


là -1
ho

c 1 (l

p âm ho

c l
ớp dương). Khi đó SVM xác đị
nh m

t hàm phân tách
tuy
ế
n tính f(x)=<w.x>+b, trong đó w là vectơ trọ
ng s


n l

p âm là <w.x>+b=0
đượ
c th

hi

n

hình 2.3.a.

Hình 2.
2.b. Siêu ph

ng t

i ưu và biên
l


tương ứng, các vectơ hỗ
tr

.
Hình 2.2.a. Các l

p phân
tách tuy
ế

t t

p d


li

u thì khi đó ta chọ
n m

t siêu ph

ng phân tách có l


c
ực đạ
i (Hình 2.3.b). Quá trình h

c SVM nh

m c
ực đạ
i hóa m

c l

.
Trong hình 2.6.b, gi



c

a l

p dương (x
+
,1) và m

t ví d


c

a
l

p âm (x
-
,1) g

n nh

t đố
i v

i siêu ph

ng phân tách H
0


đi qua x
-
và song song v

i H
0
,
d
+
là kho

ng cách gi

a H
+
và H
0
; d
-
là kho

ng cách gi

a H
-
và H
0
, thì (d
+

w
i
x b+

(1)
Trong đó ||w|| là độ
dài c

a w :
2 2 2
1 2
w w w
n
+ + +

Áp d

ng bi

u th

c (1) tính d
+

là kho

ng cách t

x
+

y, tính toán m

c l

= d
+
+ d
-
=
1 1 2
w w w
+ =<w.x> + b = 0
y
=1
y =
-
1
H
0
: <w.x> + b
= 0
y
=1
y =-
1
d
+


c

c đạ
i
(Liu, 2006)

Trích đoạn Mô hình ngôn ngữ N-gram Kỹ thuật soát lỗi dựa trên mô hình n-gram của hệ thống FSCANNER Giới thiệu về metadata và chuẩn DublinCore Bài toán trích rút metadata
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status