TÌM HIỂU PHƢƠNG PHÁP PHÂN TÍCH BẰNG BÊN TRONG TÀI LIỆU ẢNH - Pdf 33

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

ĐẠI HỌC THÁI NGUYÊN
KHOA CÔNG NGHỆ THÔNG TIN
------------    ------------ Nguyễn Thị Hiếu

TÌM HIỂU PHƢƠNG PHÁP PHÂN TÍCH BẰNG
BÊN TRONG TÀI LIỆU ẢNH

Luận văn Thạc sỹ Công nghệ thông tin
Thái Nguyên, tháng 11 năm 2009 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

MỤC LỤC

Trang phụ bìa
Lời cảm ơn
MỤC LỤC ------------------------------------------------------------------------------- i
THUẬT NGỮ TIẾNG ANH:--------------------------------------------------------- iii
DANH MỤ C CÁ C HÌ NH VẼ -------------------------------------------------------- iv
CHƢƠNG I: MỞ ĐẦU ---------------------------------------------------------------- 1
1.1. Cơ sở nghiên cứu và mục đích của luận văn ---------------------------- 3
1.2. Tổ chức của luận văn: -------------------------------------------------------- 4
CHƢƠNG II: TỔNG QUAN VỀ HỆ PHÂN TÍCH TÀI LIỆU ẢNH --------- 5
2.1. Tài liệu ảnh --------------------------------------------------------------------- 5
2.2. Hệ phân tích trang tài liệu -------------------------------------------------- 5
2.3. Thu thập dữ liệu ảnh --------------------------------------------------------- 6
2.4. Tiền xử lý điểm ảnh ----------------------------------------------------------- 9
2.4.1. Xử lý nhị phân ---------------------------------------------------------- 10
2.4.2. Giảm nhiễu--------------------------------------------------------------- 11
2.4.3. Phân đoạn ảnh ----------------------------------------------------------- 12
2.4.4. Làm mảnh và xác định vùng ----------------------------------------- 12
2.4.5. M ha CC và vctơ ha ---------------------------------------------- 13

4.2.4. Những mặt hạn chế của thuật toán khởi tạo -------------------- 47
4.3. Các bƣớc xử lý khối sau khi phân đoạn ------------------------------ 48
4.3.1. Trộn các khối phân đoạn sai -------------------------------------- 48
4.3.2. Phân tách các cột bị trộn vào một khối -------------------------- 49
4.3.3. Nhm các từ bị phân tách ----------------------------------------- 52
4.4. Phân tích khối -------------------------------------------------------------- 53
4.5. Xác định cấu trúc các cột, hàng ---------------------------------------- 54
CHƢƠNG 5 CHƢƠNG TRÌ NH THƢ̉ NGHIỆM VÀ MINH HỌ A THUẬ T
TOÁN T-RECS++ --------------------------------------------------------------------- 56
5.1. Mô tả chƣơng trình ------------------------------------------------------- 56
5.2. Mộ t số kế t quả ------------------------------------------------------------- 58
KẾ T LUẬ N VÀ ĐỀ XUẤ T ---------------------------------------------------------- 61
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

THUẬT NGỮ TIẾNG ANH

3 – D 3 Dimensions
CAD Computer Aided Design
CAM Computer Aided Manufacturing
CC Chain Code
CCs Connected Components
CPU Control Processing Unit
DP Dynamic Programming
HWRatio Heigh Width Ratio
K – NNR K – Nearest Neighbor Rule
LC Linear Component
LSD Local Stroke Density
NCCs New Connected Components
NNR Nearest Neighbour Rule
OCR Optical Character Recognition

Hnh 3.4
Sơ đồ thuậ t toá n phân tá ch văn bả n
Hnh 3.5 Hnh 3.5 Nhậ n dạ ng đườ ng kẻ nghiêng vớ i phé p toá n ké o dã n
Hnh 4.1 V d minh họa tư tưởng của thut toán khởi tạo
Hnh 4.2 thut khở i tạ o đố i vớ i mộ t đoạ n văn bả n
Hnh 4.3 Trường hợp thut toán nhn dạng sai cột
Hnh 4.4 Trường hợp giữa các dòng của một cột trong bảng có ô trắng
Hnh 4.5 Mô phỏng việc thực hiện các bưc đã cải tin của thut toán
Hnh 4.7 Quá trnh phân đoạn các cột của bảng
Hnh 4.8 Trường hợp một ô của bảng chim nhiu dòng
Hnh 4.9 Những mặt hạn ch của thut toán
Hinh 4.10 Trộn hai khối bị phân tách
Hnh 4.11 Tách các cột bị trộn
Hnh 4.12 Trộ n lạ i cá c khố i con bị tá ch
Hnh 4.14 Tách các khối loại 1 thành các ô của bảng
Hnh 4.15 Tách các khối loại 2 thành các hàng trong bảng
Hnh 5.1 Giao diệ n chương trình T-Recs
Hnh 5.2 Nhậ n dạ ng khố i văn bả n vớ i T-Recc++
Hnh 5.3 Nhậ n dạ ng tà i liệ u ả nh là bả ng quy chế vớ i T-Recs++
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Lêi c¶m ¬n
Trong quá trì nh là m luậ n văn vừ a qua , dướ i sự giú p đỡ và chỉ bả o
nhiệ t tì nh ca PGS. TS Ngô Quố c Tạ o – Việ n Công nghệ Thông tin – Việ n
khoa họ c Việ t Nam , luậ n văn củ a tôi đã đượ c hoà n thà nh . Mặ c dù đã cố gắ ng
không ngừ ng cng vi s tn tâm ca thy hưng dn song do thi gian v
kh năng vn cn nhiu hn ch nên lun vă n kh trnh khi nhng thiu st

ngy nay. Một trong nhữ ng bà i toá n đó chính là cc ti liu đượ c lưu trữ trên
cc chất liu c truyn như giấ y, gỗ , vi vớ i khố i lượ ng khổ ng lồ , chứ a đự ng
rấ t nhiề u tri thứ c củ a nhân loạ i nhưng lạ i không có độ bề n vĩ nh cử u , kh xử l
v lưu tr . Mộ t bà i toá n khá c là ngà y nay công việ c văn phò ng liên quan
nhiề u đế n cá c tà i liệ u không đơn thuầ n là tà i liệ u chữ mà tà i liệ u có nhiề u
thnh phn như bng biu , nh. Tấ t cả cá c tà i liệ u đó nế u tiế p tụ c lưu trữ theo
phương phá p cổ truyề n thì rấ t phứ c tạ p và khó xử lý . Vậ y là m thế nà o để
chuyể n đổ i nhữ ng kho tà ng tri thứ c trên và o má y tí nh để lưu trữ , xử lý dễ
dng, thuậ n tiên và nhanh gọ n . Mộ t lĩ nh vự c ca khoa hc nhân dạ ng là Phân
tch ti liu nh đã ra đờ i nhằ m biể u diễ n thông tin trong cá c tà i liệ u ả nh dướ i
dng c cấu trc.
H phân tích và nhn dng tài liu nh có mục đch là chuyn đi t
động nhng thông tin lưu tr trong tài liu giấy thành biu diễn dưi dng
nhng cấu trc mà có th truy xuất, thay đi đưc bằng máy tính. Quy trình
xử lý ca một h phân tích tài liu bt đu bằng vic lấy d liu, các tài liu từ
giấy in sẽ đưc quét qua máy quét đ lưu tr trong máy tính dưi dng các tp
d liu nh.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

2

Một ti liu nh l một cch biu diễn trc quan ca cc trang ti liu
đưc in như một bi tp ch, một l thư, một trang bo, một mẩu thư hay một
bn vẽ kỹ thut, .v.v.. Một ti liu nh c th bao gồm cc chuỗi k t, cc
hnh vẽ, cc bc nh, .v.v.. Bên cnh vic chuyn ton bộ nội dung ca ti
liu sang ti liu đin tử cng cn phi bo ton cấu trc v định dng ca ti
liu. Mục tiêu cơ bn ca một h phân tch ti liu nh hon chỉnh đ l
chuyn một ti liu lưu tr bằng giấy sang dng biu diễn c th t cấu trc
v nội dung ca n. Ti liu đưc chuyn sang phi c kh năng thay đi,

vic quan trng l kèm theo nội dung ca ti liu cng phi trch chn ra
nhng cấu trc đi kèm vi từng nội dung đ.
Nhn dng bng là bài toán nhn dng ra cấu trúc bng có trong trang
tài liu nh, bao gồm vic nhn dng các cột, các dòng và các ô có cha d
liu trong bng. Nhn dng đi tưng nh là bài toán nhằm phân tách các đi
tưng nh trong nhng trang tài liu nh có cha hỗn hp các đi tưng là
chuỗi ký t và các đi tưng nh như: các sơ đồ, hình vẽ, bc nh …v.v.
Mặc d đã c nhiu kỹ thut trong h thng nhn dng cấu trc. Tuy
nhiên nhng nghiên cu trên nhng vấn đ đ vn cn tip tục pht trin bởi
v chất lưng, độ chnh xc, tnh hiu qu ca nhng phương php đưc công
b trưc đây vn cn chưa hon chỉnh v cn phi ci tin chng. Lun văn
ny trnh by kỹ thut nhn dng cấu trc bng bên trong ti liu nh T-Recs
v đ xuất một s phương php khc phục hn ch thut ton T-Recs đ hon
thin hin hơn phương php phân tch bng.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

4

1.2. Tổ chức của luận văn
Lun văn đưc trình bày thành 5 chương và 1 phụ lục.
Chương 1 Trình bày tóm tt cơ sở nghiên cu và mục đch cng như
cách t chc ca lun văn.
Chương 2 Tổ ng quan về hệ phân tí ch tà i liệ u ả nh và cá c thà nh phầ n
chnh trong hệ phân tí ch tà i liệ u ả nh : Lấ y dữ liệ u , xử lý ả nh , trch chn đặc
trưng, nhậ n dạ ng đố i tượ ng ả nh và nhậ n dạ ng văn bả n .
Chương 3 trnh by bi ton phân tch văn bn v nh một cch riêng

đổ i cá c ký t từ các loi tài liu dưi dng nh sang tà i liệ u dướ i dạ ng text .
OCR giúp ngưi dùng có kh năng son tho và tìm kim nội dung ca tài
liu.
Thành phần chính có trong một hệ phân tích tài liệu: Mục đch ca
một h phân tích tài liu là có kh năng nhn dng ra các đi tưng văn bn,
đi tưng nh trong tài liu nh và có kh năng trích chn ra đưc các thông
tin mà ngưi dùng mong mun. Chúng ta có th chia một h phân tích tài liu
thành hai phn. Phn th nhất là xử lý văn bn, liên quan đn vic xử lý các
đi tưng văn bn: ký t, chuỗi ký t, các từ. Xử lý văn bn bao gồm các
công vic sau: xác định độ nghiêng ca tài liu (độ nghiêng hay độ xiên ca
tài liu nh do tài liu đưc đặt không đng khi thc hin quét vào từ máy
quét), tìm các cột, các đon văn bn, các dòng văn bn, các từ và cui cùng là

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

6

nhn dng văn bn (có th thêm các thuộc tính như loi phông ch, kích
thưc ca phông ch) bởi phương pháp nhn dng ký t quang hc (OCR).
Phn th hai là xử lý các đi tưng nh là các đi tưng to ra từ các đưng
kẻ trong sơ đồ, các đưng kẻ phân tách gia các đon văn bn, các hình vẽ,
các lôgô ca công ty… Sau khi áp dụng các kỹ thut phân tích nh và văn
bn, các đi tưng cn nhn dng trong tài liu nh đưc trích ra và đưc biu
diễn dưi dng một tài liu định dng khác, chẳng hn như word, html…
Ta có thể tm tt qu trnh xử lý ca h phân tch ti liu theo sơ đồ
Hnh 2.1 [8]:


biêt
Văn bn
Xác định độ nghiêng,
dòng văn bn, các khi
văn bn, các đon văn
bn
Đưng thẳng,
đưng cong,
góc
Vùng đưc tô

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

7

sao hn ch hay thm ch cc ti liu bị thoi ho theo thi gian l nhng vấn
đ ph bin. V vy chng cn phi đưc khôi phục v chỉnh sửa bằmg nhng
kỹ thut phân tch ti liu.
- Ngy nay cc văn phng hin đi cc công vic đu đưc gii quyt
dự a và o má y tí nh . Cc ti liu văn bn vi nhiu đi tưng (chữ , hnh nh ,
cc sơ đồ) đượ c tạ o ra trên nhiề u m y tnh khc nhau , phầ n mề m khá c nhau
do đó có thể là cá c đị nh dạ ng củ a cá c tà i liệ u đó là không tương thí ch vớ i
nhau, kch thưc cng khc nhau . Như vậ y cầ n mộ t hệ phân tí ch tà i liệ u giúp
nhn dng cc loi ti liu, trch chn ra đưc cc phn chc năng v c thể
chuyn từ một định dng my tnh ny sang một định dng khc.
- Mộ t bi ton khc đượ c đề cậ p l cc my phân loi thư t động
dng đ phân loi, sp xp thư v nhn dng địa chỉ thư. Nhng my ny đã
có từ nhng thp kỷ trưc, nhưng ngy nay yêu cu cao hơn đ l xử l nhiu
thư hơn, nhanh hơn v yêu cu chnh độ xc cao hơn.
Nhng bi ton trên đã to ra thch thc v động lc cho s pht trin


Hnh 2.2 Sơ đồ quá trì nh phân tí ch trang tà i liệ u
Các h phân tích tài liu sẽ ngày càng phát trin và hin nhiên là
chúng sẽ có trong các h xử lý tài liu. Chẳng hn như, h thng OCR sẽ
đưc sử dụng rộng rãi đ lưu tr, tìm kim và trích dn từ các tài liu lưu tr
trên giấy. Các kỹ thut phân tích cách b trí trong một trang tài liu giúp nhn
dng nhng biu mu (form) riêng bit, hay định dng ca một trang tài liu
và cho phép sao lưu ti liu đ. Cc sơ đồ có th đưc đưa vo từ các bc nh
hay vẽ bằng tay và có th thay đi, son tho li chúng. Sử dụng máy tính có
th chuyn các tài liu vit bằng tay thành các tài liu đin tử đưc lưu tr
trong máy tính. Các tài liu đưc lưu tr trong cc thư vin, các tài liu kỹ
thut trong các công ty sẽ đưc chuyn đi sang thành tài liu đin tử nhằm
nâng cao hiu qu, thun tin trong vic lưu tr và dễ dng mang đn cơ quan
hay mang v nhà. Mặc dù tài liu sẽ ngy cng đưc xử lý v lưu tr nhiu
trong my tnh nhưng trên thc t có rất nhiu các h thng khác nhau mà tài
Thu nhậ n dữ liệ u
Trang tà i liệ u
Xử lý điể m ả nh
Phân tí ch đặ c trưng
Phân tích và nhn
dng đi tưng văn
bn
Phân tích và nhn
dng đi tưng nh
Mô tà i liệ u

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

9


10

2.4.1. Xƣ̉ lý nh phân
Vi nhng nh đa cấp xám các thông tin đã sẵ n ở dng nhị phân chẳng
hn như các chuỗi văn bn hay các đi tưng nh, thì phương pháp nhị phân
thông thưng sẽ đưc thc hin trưc. Mục đch ca phương pháp này là sẽ t
động chn một ngưỡng cn thit đ tách nh ra làm hai phn: thông tin nh và
thông tin nn. Vic la chn một ngưỡng tt (ngưỡng mà có th phân tách
nh thành hai phn: phn nh, phn nn một cách chính xác) luôn là một quá
trình khó và dễ gây ra lỗi (0).

Hnh 2.3 Phương pháp nhị phân ảnh. (a) Histogram của ảnh đa cấp xám nguyên bản, (b)
chọn ngưỡng thấp, (c) chọn ngưỡng hợp lý, (d) chọn ngưỡng quá cao.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

11

Qu trnh xử l ny sẽ gặ p khó khăn trong các trưng hp khi: độ
tương phn gia giá trị các đim nh văn bn và nn là thấp (chẳng hn như
văn bn đưc son tho trên một nn xám thun nhất), nét ca văn bn mng
hoặc d liu không đưc chiu sáng tt khi thc hin quét tài liu giấy. Rất
nhiu phương pháp đã đưc phát trin đ khc phục nhng hn ch trên,
chẳng hn như phương pháp tách ngưỡng t động tìm ra giá trị θ thích hp đ
chia nh thành hai phn.
2.4.2. Giảm nhiu
Nhiễu trong tài liu nh là do nhiu nguyên nhân bao gồm: s thoái
hoá theo thi gian, qu trnh sao ch ép, quá trình quét tài liu. Một s kỹ thut
xử lý nh sẽ đưc áp dụng đ loi b nhiễu. Sau khi đưc nhị phân hoá, tài
liu nh sẽ đưc lc đ gim nhiễu. Trên thc t tồn ti nhiu loi nhiễu, tuy

tưng vừa tch ở trên, vi văn bn xc định cc cột, cc đon văn bn, cc từ
v cc k t; vi lp đi tưng nh thc hin phân tch cc biu tưng, cc
hnh vẽ, cc đưng kẻ v cc hnh nh. Chẳng hn như một ti liu nh c
cha cc đon văn bn v cc hnh minh ho ging như một trang tp ch, đu
tiên văn bn v nh sẽ đưc tch riêng. Sau đ văn bn sẽ đưc tch ra thnh
cc chuỗi k t. Ảnh th đưc tch ra cc thnh phn như hnh ch nht, hnh
trn, cc đưng kẻ, biu tưng .v.v.. Sau bưc trên ti liu nh sẽ phân tch ra
thnh nhng đi tưng nh hơn như cc k t v cc thnh phn cơ bn ca
nh.
2.4.4. Lm mảnh v xác đnh vùng
Lm mnh nh l một thao tc xử l nh trong đ đi tưng nh đưc
biu diễn như l nhng đưng trục đưc gi l đưng tâm hay cn gi l lấy
xương ca nh. Một đi tưng nh khi đ chỉ đưc biu diễn bởi đưng
xương ca n bằng vic gim bt s lưng đim nh c gi trị ON ca đi
tưng v vn đm bo tnh chất liên thông ca đi tưng. Mục đch ca vic
lm mnh nh l gim bt cc thnh phn m chỉ lưu tr cc thông tin thit
yu phục vụ cho vic phân tch v nhn dng sau ny thun tin hơn. Chẳng
hn như một đưng kẻ thẳng c th vẽ bằng tay vi độ đm ca nét bt l

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

13

khc nhau nhưng c th biu diễn chng ging nhau. Trong Hnh 2.4 đưa ra ví
dụ nh đưc phân tch bằng phương php lm mnh.
đim nh một cch đơn gin cc gi trị ON v OFF. Một trong nhng phương
php lưu nh hiu qu đ l lưu dưi dng mã xch CC (Chain Code –
Freeman 1974), trong đ cc đim c gi trị ON đưc biu diễn thông qua tp
cc đim lng ging đi theo một hưng quy định. Thay v phi lưu tr vị tr
ca đim nh c gi trị ON chng ta sẽ lưu tr hưng ca cc đim lng
ging. Cc đim lng ging ca một đim x l tất c cc đim nằm lin k vi
x thuộc ma trn 3 x 3 vi đim x l tâm. C hai ưu đim khi biu diễn gi trị
đim nh theo hưng thay v phi lưu vị tr ca đim nh. Th nhất đ l vic
lưu tr hiu qu hơn. Thông thưng vi nhng nh c kch thưc ln hơn 256
x 256, to độ gi trị đim nh ON thưng đưc biu diễn bởi 16 bt; tri li
vi cch lưu tr CC một đim lng ging thuộc 1 trong tm hưng, do đ mỗi
một đim nh ON chỉ cn biu diễn bằng 1 byte hay thm ch chỉ cn 3 bt đ
lưu. Một ưu đim khc c th thấy trong CC đ l v CC lưu theo cấu trc cc
đim nh c liên quan vi nhau v do đ da vo cch thc lưu tr ny c th
thc hin cc công vic xử l như lm trơn cc đưng cong v tnh xấp xỉ cc
đưng thẳng trơn.
Sau bưc xử l đim nh, d liu thô ca nh đã đưc biu diễn ở cấp
độ trừu tưng cao hơn: đã khoanh đưc vng bao ca chuỗi k t, biu diễn
CC v véctơ ca cc đưng cong v đưng thẳng, hay đã xc định đưc vng
biên ca cc đi tưng.
Ti liu nh qua cc qu trnh tin xử l sẽ l ti liu cơ sở cho qu
trnh phân tch cấu trc ca ti liu đ . Hnh 2.5 minh ha một ti liu trưc
v sau khi thc hin qu trnh tin xử l. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

15
(a)
(b) (c) (d)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

16

từ đ hiu đưc cấu trc, vị tr, chc năng ca cc khi văn bn (tiêu đ
chnh, tiêu đ phụ, đon văn bn, ch thch .v.v..). Phụ thuộc vo cch sp xp
ca cc khi văn bn, một trang văn bn c th l một trang tiêu đ, một bng
mục lục ca tp ch, một biu mu kinh doanh, hay l một phong b thư. Nhn
dng k t quang hc v phân tch sơ đồ trnh by c th đưc thc hin một
cch riêng rẽ, hay c th lấy kt qu ca phn ny đ sử dụng cho phn kia.
Nhn dng k t quang hc thưng đưc nhn bit như l ng dụng nhn
dng k t vit tay hay cc k t trong ti liu in. Kỹ thut phân tch sơ đồ
trnh by đưc p dụng đ phân tch định dng ca trang, một loi ng dụng
phân tch sơ đồ trnh by đ l nhn dng biu mu, gip phân tch v nhn
dng cấu trc biu mu v cc văn bn c trong biu mu. Trong một s
trưng hp ngưi ta cn phi xc định độ nghiêng ca ti liu bởi v ti liu
đưc quét c th bị nghiêng so vi b ngang ca trang giấy trong trưng hp
ti liu đ không đưc đặt đng khi quét vo từ my quét. Ưc lưng độ
nghiêng v phân tch sơ đồ trnh by ca văn bn sẽ đưc mô t ngn gn
trong phn dưi đây. Phương php nhn dng k t quang hc sẽ đưc đ cp
đn ở phn sau.
2.6.1. Xác đnh gc nghiêng của văn bản
Một dng văn bn bao gồm một nhm cc k t, biu tưng v cc từ
nằm lin k nhau, kh gn nhau v đu nằm trên cng một đưng thẳng (c
th theo chiu thẳng đng hay chiu dc). Thông thưng hưng ca cc dng
văn bn sẽ xc định độ nghiêng ca ti liu. Bnh thưng một trang ti liu sẽ
c độ nghiêng l 0 khi m cc dng văn bn theo chiu ngang hay chiu dc


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

18

10 dòng văn bn. Do đ vi mỗi phép chiu nghiêng ta sẽ tnh s đo độ cao
ca cc đỉnh v s đo độ cao cc vng trng, gc chiu no m c s khc
nhau gia hai s đo ny l ln nhất th chnh l gc nghiêng ca văn bn.
2.6.2. Phân tí ch bố cụ c củ a trang tà i liệ u ả nh
Sau khi xc định đưc gó c nghiêng ca trang ti liu , nh sẽ đưc
quay một gc đ độ nghiêng ca trang bằng 0, sau đ qu trnh phân tch bố
cục ca trang ti liu đưc thự c hiệ n. Phân tích bố cụ c trang đưc thc hin
đ lấy ra đưc cấu trc cc khi văn bn (cc đon văn bn) trong ti liu.
Tuỳ thuộc vo định dng ca từng loi ti liu, qu trnh phân đon c th
thc hin phân tch cc từ, cc dng văn bn hay cấu trc cc khi (nhm cc
dng văn bn, chẳng hn cc đon văn bn hay cc bng danh mục). Thông
thưng ngưi ta da vo quy tc sp xp thông tin trong trang ti liu đ nhn
dng từng khi v gn nhãn cho chng. Một th dụ đưa ra kt qu sau khi
phân tch trang đu tiên ca một ti liu kỹ thut bao gồm: tên ti liu, tc gi,
tm tt, từ kho, cc đon trong thân văn bn...v.v. Hnh 2.7 đưa ra một th
dụ vi kt qu sau khi đã thc hin phân tch cấu trc v gn nhãn cho cc
khi trên một trang ti liu nh. Phân tch cấu trc ca trang c th sử dụng
phương php tip cn trên - xung [11] hay tip cn dưi – lên[10]. Vi
phương php tip cn từ trên - xung, một trang ti liu đưc phân tch từ cc
thnh phn ln xung cc thnh phn nh hơn, chẳng hn trang ti liu c th
phân tch thnh cc cột, sau đ cc cột đưc phân tch thnh cc đon văn
bn, từ cc đon văn bn li tch ra thnh cc dng văn bn, sau đ tch cc
từ .v.v.. Vi phương php tip cn từ dưi – lên, cc thnh phn liên thông
đưc trộn vi cc k t đ nhn dng từ, cc từ li đưc trộn vi nhau đ to
thnh cc dng văn bn, từ cc dng văn bn xây dng thnh cc đon văn


Nhờ tải bản gốc
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status