Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ĐẠI HỌC THÁI NGUYÊN
KHOA CÔNG NGHỆ THÔNG TIN
------------ ------------ Nguyễn Thị Hiếu
TÌM HIỂU PHƢƠNG PHÁP PHÂN TÍCH BẰNG
BÊN TRONG TÀI LIỆU ẢNH
Luận văn Thạc sỹ Công nghệ thông tin
Thái Nguyên, tháng 11 năm 2009 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
MỤC LỤC
Trang phụ bìa
Lời cảm ơn
MỤC LỤC ------------------------------------------------------------------------------- i
THUẬT NGỮ TIẾNG ANH:--------------------------------------------------------- iii
DANH MỤ C CÁ C HÌ NH VẼ -------------------------------------------------------- iv
CHƢƠNG I: MỞ ĐẦU ---------------------------------------------------------------- 1
1.1. Cơ sở nghiên cứu và mục đích của luận văn ---------------------------- 3
1.2. Tổ chức của luận văn: -------------------------------------------------------- 4
CHƢƠNG II: TỔNG QUAN VỀ HỆ PHÂN TÍCH TÀI LIỆU ẢNH --------- 5
2.1. Tài liệu ảnh --------------------------------------------------------------------- 5
2.2. Hệ phân tích trang tài liệu -------------------------------------------------- 5
2.3. Thu thập dữ liệu ảnh --------------------------------------------------------- 6
2.4. Tiền xử lý điểm ảnh ----------------------------------------------------------- 9
2.4.1. Xử lý nhị phân ---------------------------------------------------------- 10
2.4.2. Giảm nhiễu--------------------------------------------------------------- 11
2.4.3. Phân đoạn ảnh ----------------------------------------------------------- 12
2.4.4. Làm mảnh và xác định vùng ----------------------------------------- 12
2.4.5. M ha CC và vctơ ha ---------------------------------------------- 13
4.2.4. Những mặt hạn chế của thuật toán khởi tạo -------------------- 47
4.3. Các bƣớc xử lý khối sau khi phân đoạn ------------------------------ 48
4.3.1. Trộn các khối phân đoạn sai -------------------------------------- 48
4.3.2. Phân tách các cột bị trộn vào một khối -------------------------- 49
4.3.3. Nhm các từ bị phân tách ----------------------------------------- 52
4.4. Phân tích khối -------------------------------------------------------------- 53
4.5. Xác định cấu trúc các cột, hàng ---------------------------------------- 54
CHƢƠNG 5 CHƢƠNG TRÌ NH THƢ̉ NGHIỆM VÀ MINH HỌ A THUẬ T
TOÁN T-RECS++ --------------------------------------------------------------------- 56
5.1. Mô tả chƣơng trình ------------------------------------------------------- 56
5.2. Mộ t số kế t quả ------------------------------------------------------------- 58
KẾ T LUẬ N VÀ ĐỀ XUẤ T ---------------------------------------------------------- 61
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
THUẬT NGỮ TIẾNG ANH
3 – D 3 Dimensions
CAD Computer Aided Design
CAM Computer Aided Manufacturing
CC Chain Code
CCs Connected Components
CPU Control Processing Unit
DP Dynamic Programming
HWRatio Heigh Width Ratio
K – NNR K – Nearest Neighbor Rule
LC Linear Component
LSD Local Stroke Density
NCCs New Connected Components
NNR Nearest Neighbour Rule
OCR Optical Character Recognition
Hnh 3.4
Sơ đồ thuậ t toá n phân tá ch văn bả n
Hnh 3.5 Hnh 3.5 Nhậ n dạ ng đườ ng kẻ nghiêng vớ i phé p toá n ké o dã n
Hnh 4.1 V d minh họa tư tưởng của thut toán khởi tạo
Hnh 4.2 thut khở i tạ o đố i vớ i mộ t đoạ n văn bả n
Hnh 4.3 Trường hợp thut toán nhn dạng sai cột
Hnh 4.4 Trường hợp giữa các dòng của một cột trong bảng có ô trắng
Hnh 4.5 Mô phỏng việc thực hiện các bưc đã cải tin của thut toán
Hnh 4.7 Quá trnh phân đoạn các cột của bảng
Hnh 4.8 Trường hợp một ô của bảng chim nhiu dòng
Hnh 4.9 Những mặt hạn ch của thut toán
Hinh 4.10 Trộn hai khối bị phân tách
Hnh 4.11 Tách các cột bị trộn
Hnh 4.12 Trộ n lạ i cá c khố i con bị tá ch
Hnh 4.14 Tách các khối loại 1 thành các ô của bảng
Hnh 4.15 Tách các khối loại 2 thành các hàng trong bảng
Hnh 5.1 Giao diệ n chương trình T-Recs
Hnh 5.2 Nhậ n dạ ng khố i văn bả n vớ i T-Recc++
Hnh 5.3 Nhậ n dạ ng tà i liệ u ả nh là bả ng quy chế vớ i T-Recs++
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Lêi c¶m ¬n
Trong quá trì nh là m luậ n văn vừ a qua , dướ i sự giú p đỡ và chỉ bả o
nhiệ t tì nh ca PGS. TS Ngô Quố c Tạ o – Việ n Công nghệ Thông tin – Việ n
khoa họ c Việ t Nam , luậ n văn củ a tôi đã đượ c hoà n thà nh . Mặ c dù đã cố gắ ng
không ngừ ng cng vi s tn tâm ca thy hưng dn song do thi gian v
kh năng vn cn nhiu hn ch nên lun vă n kh trnh khi nhng thiu st
ngy nay. Một trong nhữ ng bà i toá n đó chính là cc ti liu đượ c lưu trữ trên
cc chất liu c truyn như giấ y, gỗ , vi vớ i khố i lượ ng khổ ng lồ , chứ a đự ng
rấ t nhiề u tri thứ c củ a nhân loạ i nhưng lạ i không có độ bề n vĩ nh cử u , kh xử l
v lưu tr . Mộ t bà i toá n khá c là ngà y nay công việ c văn phò ng liên quan
nhiề u đế n cá c tà i liệ u không đơn thuầ n là tà i liệ u chữ mà tà i liệ u có nhiề u
thnh phn như bng biu , nh. Tấ t cả cá c tà i liệ u đó nế u tiế p tụ c lưu trữ theo
phương phá p cổ truyề n thì rấ t phứ c tạ p và khó xử lý . Vậ y là m thế nà o để
chuyể n đổ i nhữ ng kho tà ng tri thứ c trên và o má y tí nh để lưu trữ , xử lý dễ
dng, thuậ n tiên và nhanh gọ n . Mộ t lĩ nh vự c ca khoa hc nhân dạ ng là Phân
tch ti liu nh đã ra đờ i nhằ m biể u diễ n thông tin trong cá c tà i liệ u ả nh dướ i
dng c cấu trc.
H phân tích và nhn dng tài liu nh có mục đch là chuyn đi t
động nhng thông tin lưu tr trong tài liu giấy thành biu diễn dưi dng
nhng cấu trc mà có th truy xuất, thay đi đưc bằng máy tính. Quy trình
xử lý ca một h phân tích tài liu bt đu bằng vic lấy d liu, các tài liu từ
giấy in sẽ đưc quét qua máy quét đ lưu tr trong máy tính dưi dng các tp
d liu nh.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2
Một ti liu nh l một cch biu diễn trc quan ca cc trang ti liu
đưc in như một bi tp ch, một l thư, một trang bo, một mẩu thư hay một
bn vẽ kỹ thut, .v.v.. Một ti liu nh c th bao gồm cc chuỗi k t, cc
hnh vẽ, cc bc nh, .v.v.. Bên cnh vic chuyn ton bộ nội dung ca ti
liu sang ti liu đin tử cng cn phi bo ton cấu trc v định dng ca ti
liu. Mục tiêu cơ bn ca một h phân tch ti liu nh hon chỉnh đ l
chuyn một ti liu lưu tr bằng giấy sang dng biu diễn c th t cấu trc
v nội dung ca n. Ti liu đưc chuyn sang phi c kh năng thay đi,
vic quan trng l kèm theo nội dung ca ti liu cng phi trch chn ra
nhng cấu trc đi kèm vi từng nội dung đ.
Nhn dng bng là bài toán nhn dng ra cấu trúc bng có trong trang
tài liu nh, bao gồm vic nhn dng các cột, các dòng và các ô có cha d
liu trong bng. Nhn dng đi tưng nh là bài toán nhằm phân tách các đi
tưng nh trong nhng trang tài liu nh có cha hỗn hp các đi tưng là
chuỗi ký t và các đi tưng nh như: các sơ đồ, hình vẽ, bc nh …v.v.
Mặc d đã c nhiu kỹ thut trong h thng nhn dng cấu trc. Tuy
nhiên nhng nghiên cu trên nhng vấn đ đ vn cn tip tục pht trin bởi
v chất lưng, độ chnh xc, tnh hiu qu ca nhng phương php đưc công
b trưc đây vn cn chưa hon chỉnh v cn phi ci tin chng. Lun văn
ny trnh by kỹ thut nhn dng cấu trc bng bên trong ti liu nh T-Recs
v đ xuất một s phương php khc phục hn ch thut ton T-Recs đ hon
thin hin hơn phương php phân tch bng.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
4
1.2. Tổ chức của luận văn
Lun văn đưc trình bày thành 5 chương và 1 phụ lục.
Chương 1 Trình bày tóm tt cơ sở nghiên cu và mục đch cng như
cách t chc ca lun văn.
Chương 2 Tổ ng quan về hệ phân tí ch tà i liệ u ả nh và cá c thà nh phầ n
chnh trong hệ phân tí ch tà i liệ u ả nh : Lấ y dữ liệ u , xử lý ả nh , trch chn đặc
trưng, nhậ n dạ ng đố i tượ ng ả nh và nhậ n dạ ng văn bả n .
Chương 3 trnh by bi ton phân tch văn bn v nh một cch riêng
đổ i cá c ký t từ các loi tài liu dưi dng nh sang tà i liệ u dướ i dạ ng text .
OCR giúp ngưi dùng có kh năng son tho và tìm kim nội dung ca tài
liu.
Thành phần chính có trong một hệ phân tích tài liệu: Mục đch ca
một h phân tích tài liu là có kh năng nhn dng ra các đi tưng văn bn,
đi tưng nh trong tài liu nh và có kh năng trích chn ra đưc các thông
tin mà ngưi dùng mong mun. Chúng ta có th chia một h phân tích tài liu
thành hai phn. Phn th nhất là xử lý văn bn, liên quan đn vic xử lý các
đi tưng văn bn: ký t, chuỗi ký t, các từ. Xử lý văn bn bao gồm các
công vic sau: xác định độ nghiêng ca tài liu (độ nghiêng hay độ xiên ca
tài liu nh do tài liu đưc đặt không đng khi thc hin quét vào từ máy
quét), tìm các cột, các đon văn bn, các dòng văn bn, các từ và cui cùng là
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
6
nhn dng văn bn (có th thêm các thuộc tính như loi phông ch, kích
thưc ca phông ch) bởi phương pháp nhn dng ký t quang hc (OCR).
Phn th hai là xử lý các đi tưng nh là các đi tưng to ra từ các đưng
kẻ trong sơ đồ, các đưng kẻ phân tách gia các đon văn bn, các hình vẽ,
các lôgô ca công ty… Sau khi áp dụng các kỹ thut phân tích nh và văn
bn, các đi tưng cn nhn dng trong tài liu nh đưc trích ra và đưc biu
diễn dưi dng một tài liu định dng khác, chẳng hn như word, html…
Ta có thể tm tt qu trnh xử lý ca h phân tch ti liu theo sơ đồ
Hnh 2.1 [8]:
biêt
Văn bn
Xác định độ nghiêng,
dòng văn bn, các khi
văn bn, các đon văn
bn
Đưng thẳng,
đưng cong,
góc
Vùng đưc tô
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
7
sao hn ch hay thm ch cc ti liu bị thoi ho theo thi gian l nhng vấn
đ ph bin. V vy chng cn phi đưc khôi phục v chỉnh sửa bằmg nhng
kỹ thut phân tch ti liu.
- Ngy nay cc văn phng hin đi cc công vic đu đưc gii quyt
dự a và o má y tí nh . Cc ti liu văn bn vi nhiu đi tưng (chữ , hnh nh ,
cc sơ đồ) đượ c tạ o ra trên nhiề u m y tnh khc nhau , phầ n mề m khá c nhau
do đó có thể là cá c đị nh dạ ng củ a cá c tà i liệ u đó là không tương thí ch vớ i
nhau, kch thưc cng khc nhau . Như vậ y cầ n mộ t hệ phân tí ch tà i liệ u giúp
nhn dng cc loi ti liu, trch chn ra đưc cc phn chc năng v c thể
chuyn từ một định dng my tnh ny sang một định dng khc.
- Mộ t bi ton khc đượ c đề cậ p l cc my phân loi thư t động
dng đ phân loi, sp xp thư v nhn dng địa chỉ thư. Nhng my ny đã
có từ nhng thp kỷ trưc, nhưng ngy nay yêu cu cao hơn đ l xử l nhiu
thư hơn, nhanh hơn v yêu cu chnh độ xc cao hơn.
Nhng bi ton trên đã to ra thch thc v động lc cho s pht trin
Hnh 2.2 Sơ đồ quá trì nh phân tí ch trang tà i liệ u
Các h phân tích tài liu sẽ ngày càng phát trin và hin nhiên là
chúng sẽ có trong các h xử lý tài liu. Chẳng hn như, h thng OCR sẽ
đưc sử dụng rộng rãi đ lưu tr, tìm kim và trích dn từ các tài liu lưu tr
trên giấy. Các kỹ thut phân tích cách b trí trong một trang tài liu giúp nhn
dng nhng biu mu (form) riêng bit, hay định dng ca một trang tài liu
và cho phép sao lưu ti liu đ. Cc sơ đồ có th đưc đưa vo từ các bc nh
hay vẽ bằng tay và có th thay đi, son tho li chúng. Sử dụng máy tính có
th chuyn các tài liu vit bằng tay thành các tài liu đin tử đưc lưu tr
trong máy tính. Các tài liu đưc lưu tr trong cc thư vin, các tài liu kỹ
thut trong các công ty sẽ đưc chuyn đi sang thành tài liu đin tử nhằm
nâng cao hiu qu, thun tin trong vic lưu tr và dễ dng mang đn cơ quan
hay mang v nhà. Mặc dù tài liu sẽ ngy cng đưc xử lý v lưu tr nhiu
trong my tnh nhưng trên thc t có rất nhiu các h thng khác nhau mà tài
Thu nhậ n dữ liệ u
Trang tà i liệ u
Xử lý điể m ả nh
Phân tí ch đặ c trưng
Phân tích và nhn
dng đi tưng văn
bn
Phân tích và nhn
dng đi tưng nh
Mô tà i liệ u
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
9
10
2.4.1. Xƣ̉ lý nh phân
Vi nhng nh đa cấp xám các thông tin đã sẵ n ở dng nhị phân chẳng
hn như các chuỗi văn bn hay các đi tưng nh, thì phương pháp nhị phân
thông thưng sẽ đưc thc hin trưc. Mục đch ca phương pháp này là sẽ t
động chn một ngưỡng cn thit đ tách nh ra làm hai phn: thông tin nh và
thông tin nn. Vic la chn một ngưỡng tt (ngưỡng mà có th phân tách
nh thành hai phn: phn nh, phn nn một cách chính xác) luôn là một quá
trình khó và dễ gây ra lỗi (0).
Hnh 2.3 Phương pháp nhị phân ảnh. (a) Histogram của ảnh đa cấp xám nguyên bản, (b)
chọn ngưỡng thấp, (c) chọn ngưỡng hợp lý, (d) chọn ngưỡng quá cao.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
11
Qu trnh xử l ny sẽ gặ p khó khăn trong các trưng hp khi: độ
tương phn gia giá trị các đim nh văn bn và nn là thấp (chẳng hn như
văn bn đưc son tho trên một nn xám thun nhất), nét ca văn bn mng
hoặc d liu không đưc chiu sáng tt khi thc hin quét tài liu giấy. Rất
nhiu phương pháp đã đưc phát trin đ khc phục nhng hn ch trên,
chẳng hn như phương pháp tách ngưỡng t động tìm ra giá trị θ thích hp đ
chia nh thành hai phn.
2.4.2. Giảm nhiu
Nhiễu trong tài liu nh là do nhiu nguyên nhân bao gồm: s thoái
hoá theo thi gian, qu trnh sao ch ép, quá trình quét tài liu. Một s kỹ thut
xử lý nh sẽ đưc áp dụng đ loi b nhiễu. Sau khi đưc nhị phân hoá, tài
liu nh sẽ đưc lc đ gim nhiễu. Trên thc t tồn ti nhiu loi nhiễu, tuy
tưng vừa tch ở trên, vi văn bn xc định cc cột, cc đon văn bn, cc từ
v cc k t; vi lp đi tưng nh thc hin phân tch cc biu tưng, cc
hnh vẽ, cc đưng kẻ v cc hnh nh. Chẳng hn như một ti liu nh c
cha cc đon văn bn v cc hnh minh ho ging như một trang tp ch, đu
tiên văn bn v nh sẽ đưc tch riêng. Sau đ văn bn sẽ đưc tch ra thnh
cc chuỗi k t. Ảnh th đưc tch ra cc thnh phn như hnh ch nht, hnh
trn, cc đưng kẻ, biu tưng .v.v.. Sau bưc trên ti liu nh sẽ phân tch ra
thnh nhng đi tưng nh hơn như cc k t v cc thnh phn cơ bn ca
nh.
2.4.4. Lm mảnh v xác đnh vùng
Lm mnh nh l một thao tc xử l nh trong đ đi tưng nh đưc
biu diễn như l nhng đưng trục đưc gi l đưng tâm hay cn gi l lấy
xương ca nh. Một đi tưng nh khi đ chỉ đưc biu diễn bởi đưng
xương ca n bằng vic gim bt s lưng đim nh c gi trị ON ca đi
tưng v vn đm bo tnh chất liên thông ca đi tưng. Mục đch ca vic
lm mnh nh l gim bt cc thnh phn m chỉ lưu tr cc thông tin thit
yu phục vụ cho vic phân tch v nhn dng sau ny thun tin hơn. Chẳng
hn như một đưng kẻ thẳng c th vẽ bằng tay vi độ đm ca nét bt l
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
13
khc nhau nhưng c th biu diễn chng ging nhau. Trong Hnh 2.4 đưa ra ví
dụ nh đưc phân tch bằng phương php lm mnh.
đim nh một cch đơn gin cc gi trị ON v OFF. Một trong nhng phương
php lưu nh hiu qu đ l lưu dưi dng mã xch CC (Chain Code –
Freeman 1974), trong đ cc đim c gi trị ON đưc biu diễn thông qua tp
cc đim lng ging đi theo một hưng quy định. Thay v phi lưu tr vị tr
ca đim nh c gi trị ON chng ta sẽ lưu tr hưng ca cc đim lng
ging. Cc đim lng ging ca một đim x l tất c cc đim nằm lin k vi
x thuộc ma trn 3 x 3 vi đim x l tâm. C hai ưu đim khi biu diễn gi trị
đim nh theo hưng thay v phi lưu vị tr ca đim nh. Th nhất đ l vic
lưu tr hiu qu hơn. Thông thưng vi nhng nh c kch thưc ln hơn 256
x 256, to độ gi trị đim nh ON thưng đưc biu diễn bởi 16 bt; tri li
vi cch lưu tr CC một đim lng ging thuộc 1 trong tm hưng, do đ mỗi
một đim nh ON chỉ cn biu diễn bằng 1 byte hay thm ch chỉ cn 3 bt đ
lưu. Một ưu đim khc c th thấy trong CC đ l v CC lưu theo cấu trc cc
đim nh c liên quan vi nhau v do đ da vo cch thc lưu tr ny c th
thc hin cc công vic xử l như lm trơn cc đưng cong v tnh xấp xỉ cc
đưng thẳng trơn.
Sau bưc xử l đim nh, d liu thô ca nh đã đưc biu diễn ở cấp
độ trừu tưng cao hơn: đã khoanh đưc vng bao ca chuỗi k t, biu diễn
CC v véctơ ca cc đưng cong v đưng thẳng, hay đã xc định đưc vng
biên ca cc đi tưng.
Ti liu nh qua cc qu trnh tin xử l sẽ l ti liu cơ sở cho qu
trnh phân tch cấu trc ca ti liu đ . Hnh 2.5 minh ha một ti liu trưc
v sau khi thc hin qu trnh tin xử l. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
15
(a)
(b) (c) (d)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
16
từ đ hiu đưc cấu trc, vị tr, chc năng ca cc khi văn bn (tiêu đ
chnh, tiêu đ phụ, đon văn bn, ch thch .v.v..). Phụ thuộc vo cch sp xp
ca cc khi văn bn, một trang văn bn c th l một trang tiêu đ, một bng
mục lục ca tp ch, một biu mu kinh doanh, hay l một phong b thư. Nhn
dng k t quang hc v phân tch sơ đồ trnh by c th đưc thc hin một
cch riêng rẽ, hay c th lấy kt qu ca phn ny đ sử dụng cho phn kia.
Nhn dng k t quang hc thưng đưc nhn bit như l ng dụng nhn
dng k t vit tay hay cc k t trong ti liu in. Kỹ thut phân tch sơ đồ
trnh by đưc p dụng đ phân tch định dng ca trang, một loi ng dụng
phân tch sơ đồ trnh by đ l nhn dng biu mu, gip phân tch v nhn
dng cấu trc biu mu v cc văn bn c trong biu mu. Trong một s
trưng hp ngưi ta cn phi xc định độ nghiêng ca ti liu bởi v ti liu
đưc quét c th bị nghiêng so vi b ngang ca trang giấy trong trưng hp
ti liu đ không đưc đặt đng khi quét vo từ my quét. Ưc lưng độ
nghiêng v phân tch sơ đồ trnh by ca văn bn sẽ đưc mô t ngn gn
trong phn dưi đây. Phương php nhn dng k t quang hc sẽ đưc đ cp
đn ở phn sau.
2.6.1. Xác đnh gc nghiêng của văn bản
Một dng văn bn bao gồm một nhm cc k t, biu tưng v cc từ
nằm lin k nhau, kh gn nhau v đu nằm trên cng một đưng thẳng (c
th theo chiu thẳng đng hay chiu dc). Thông thưng hưng ca cc dng
văn bn sẽ xc định độ nghiêng ca ti liu. Bnh thưng một trang ti liu sẽ
c độ nghiêng l 0 khi m cc dng văn bn theo chiu ngang hay chiu dc
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
18
10 dòng văn bn. Do đ vi mỗi phép chiu nghiêng ta sẽ tnh s đo độ cao
ca cc đỉnh v s đo độ cao cc vng trng, gc chiu no m c s khc
nhau gia hai s đo ny l ln nhất th chnh l gc nghiêng ca văn bn.
2.6.2. Phân tí ch bố cụ c củ a trang tà i liệ u ả nh
Sau khi xc định đưc gó c nghiêng ca trang ti liu , nh sẽ đưc
quay một gc đ độ nghiêng ca trang bằng 0, sau đ qu trnh phân tch bố
cục ca trang ti liu đưc thự c hiệ n. Phân tích bố cụ c trang đưc thc hin
đ lấy ra đưc cấu trc cc khi văn bn (cc đon văn bn) trong ti liu.
Tuỳ thuộc vo định dng ca từng loi ti liu, qu trnh phân đon c th
thc hin phân tch cc từ, cc dng văn bn hay cấu trc cc khi (nhm cc
dng văn bn, chẳng hn cc đon văn bn hay cc bng danh mục). Thông
thưng ngưi ta da vo quy tc sp xp thông tin trong trang ti liu đ nhn
dng từng khi v gn nhãn cho chng. Một th dụ đưa ra kt qu sau khi
phân tch trang đu tiên ca một ti liu kỹ thut bao gồm: tên ti liu, tc gi,
tm tt, từ kho, cc đon trong thân văn bn...v.v. Hnh 2.7 đưa ra một th
dụ vi kt qu sau khi đã thc hin phân tch cấu trc v gn nhãn cho cc
khi trên một trang ti liu nh. Phân tch cấu trc ca trang c th sử dụng
phương php tip cn trên - xung [11] hay tip cn dưi – lên[10]. Vi
phương php tip cn từ trên - xung, một trang ti liu đưc phân tch từ cc
thnh phn ln xung cc thnh phn nh hơn, chẳng hn trang ti liu c th
phân tch thnh cc cột, sau đ cc cột đưc phân tch thnh cc đon văn
bn, từ cc đon văn bn li tch ra thnh cc dng văn bn, sau đ tch cc
từ .v.v.. Vi phương php tip cn từ dưi – lên, cc thnh phn liên thông
đưc trộn vi cc k t đ nhn dng từ, cc từ li đưc trộn vi nhau đ to
thnh cc dng văn bn, từ cc dng văn bn xây dng thnh cc đon văn