Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
ĐẠI HỌC THÁI NGUYÊN
KHOA CÔNG NGHỆ THÔNG TIN
Nguyễn Thị Hiếu
TÌM HIỂU PHƢƠNG PHÁP PHÂN TÍCH BẰNG
BÊN TRONG TÀI LIỆU ẢNH
Luận văn Thạc sỹ Công nghệ thông tin
Thái Nguyên, tháng 11 năm 2009 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
MỤC LỤC
Trang phụ bìa
Lời cảm ơn
MỤC LỤC i
THUẬT NGỮ TIẾNG ANH: iii
DANH MỤ C CÁ C HÌ NH VẼ iv
CHƢƠNG I: MỞ ĐẦU 1
1.1. Cơ sở nghiên cứu và mục đích của luận văn 3
1.2. Tổ chức của luận văn: 4
CHƢƠNG II: TỔNG QUAN VỀ HỆ PHÂN TÍCH TÀI LIỆU ẢNH 5
2.1. Tài liệu ảnh 5
2.2. Hệ phân tích trang tài liệu 5
2.3. Thu thập dữ liệu ảnh 6
2.4. Tiền xử lý điểm ảnh 9
2.4.1. Xử lý nhị phân 10
2.4.2. Giảm nhiễu 11
2.4.3. Phân đoạn ảnh 12
2.4.4. Làm mảnh và xác định vùng 12
2.4.5. M ha CC và vctơ ha 13
4.2.4. Những mặt hạn chế của thuật toán khởi tạo 47
4.3. Các bƣớc xử lý khối sau khi phân đoạn 48
4.3.1. Trộn các khối phân đoạn sai 48
4.3.2. Phân tách các cột bị trộn vào một khối 49
4.3.3. Nhm các từ bị phân tách 52
4.4. Phân tích khối 53
4.5. Xác định cấu trúc các cột, hàng 54
CHƢƠNG 5 CHƢƠNG TRÌ NH THƢ̉ NGHIỆM VÀ MINH HỌ A THUẬ T
TOÁN T-RECS++ 56
5.1. Mô tả chƣơng trình 56
5.2. Mộ t số kế t quả 58
KẾ T LUẬ N VÀ ĐỀ XUẤ T 61
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
THUẬT NGỮ TIẾNG ANH
3 – D
3 Dimensions
CAD
Computer Aided Design
CAM
Computer Aided Manufacturing
CC
Chain Code
CCs
Connected Components
CPU
Control Processing Unit
DP
Dynamic Programming
Hnh 2.1
Sơ đồ quá trì nh xử lý tà i liệ u
Hnh 2.2
Sơ đồ quá trì nh phân tích trang tà i liệ u
Hnh 2.3
Phương pháp nhị phân ảnh. (a) Histogram của ảnh đa cấp xám nguyên
bản, (b) chọn ngưỡng thấp, (c) chọn ngưỡng hợp lý, (d) chọn ngưỡng
quá cao.
Hnh 2.4
Ảnh nguyên bản(Vân tay) bên trái và ảnh sau khi làm mảnh bên phải.
Hnh 2.5
Tài liệu ảnh trưc và sau các bưc tin x lý. Ảnh (a) gốc, ảnh (b) ảnh
sau khi chuyển v ảnh nhị phân, ảnh (c) ảnh sau khi chỉnh nghiêng, ảnh
(d) ảnh sau khi lọc nhiễu.
Hnh 2.6
văn bả n bị nghiêng sau khi đượ c qué t qua má y qué t.
Hnh 2.7
V d minh họa kt quả phân tch bố cc của trang tài liệu ảnh
Hnh 2.8
Chữ viế t tay có thể gây nhầ m lẫ n
Hnh 3.1
V d v các đối tượng văn bản và đối tượng ảnh
Hnh 3.2
Biểu diễn các điểm ảnh giao nhau
Hnh 3.3
Một số trường hợp ngoại lệ
Hnh 3.4
Sơ đồ thuậ t toá n phân tá ch văn bả n
Hnh 3.5
Nhậ n dạ ng khố i văn bả n vớ i T-Recc++
Hnh 5.3
Nhậ n dạ ng tà i liệ u ả nh là bả ng quy chế vớ i T-Recs++
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Lêi c¶m ¬n
Trong quá trình là m luậ n văn vừ a qua , dướ i sự giú p đỡ và chỉ bả o
nhiệ t tình ca PGS. TS Ngô Quố c Tạ o – Việ n Công nghệ Thông tin – Việ n
khoa họ c Việ t Nam , luậ n văn củ a tôi đã đượ c hoà n thà nh . Mặ c dù đã cố gắ ng
không ngừ ng cng vi s tn tâm ca thy hưng dn song do thi gian v
kh năng vn cn nhiu hn ch nên lun vă n kh trnh khi nhng thiu st
trong quá trình là m luậ n văn .
Để hoà n thà nh đượ c luậ n văn ny. Em xin bà y t lng bit ơn sâu sc
tớ i PGS. TS Ngô Quố c Tạ o - ngườ i thầ y đã tậ n tình giú p đỡ em trong suố t
qu trnh tm hiu , xây dự ng và phá t triể n luậ n văn nà y .
Em xin chân thà nh cả m ơn cá c thầ y , cô giá o trong Việ n Công nghệ
Thông tin – Việ n khoa họ c Việ t N am đã giả ng dạ y và hướ ng dẫ n em trong
suố t 2 năm hc qua. Em cũ ng xin cả m ơn ban lã nh đạ o khoa và toà n thể thầ y
cô giá o trong khoa Công Nghệ thông tin – Đạ i Họ c Thá i Nguyên đã tạ o điề u
kiệ n tố t nhấ t giú p em họ c tậ p và hoà n thà nh luậ n văn nà y . V cui cng tôi
cng xin cm ơn gia đnh , cc bn trong nhm luậ n văn và toà n thể cá c họ c
viên lớ p Cao họ c K 6 đã độ ng viên , quan tâm và giú p đỡ tôi trong thờ i gian
qua.
Cuố i cù ng tôi rấ t mong nhậ n đượ c sự chỉ dẫ n , gp ca cc thy cô
v cc bn đ lun văn ca tôi đưc hon thin hơn .
d liu nh.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
2
Một ti liu nh l một cch biu diễn trc quan ca cc trang ti liu
đưc in như một bi tp ch, một l thư, một trang bo, một mẩu thư hay một
bn vẽ kỹ thut, .v.v Một ti liu nh c th bao gồm cc chuỗi k t, cc
hnh vẽ, cc bc nh, .v.v Bên cnh vic chuyn ton bộ nội dung ca ti
liu sang ti liu đin tử cng cn phi bo ton cấu trc v định dng ca ti
liu. Mục tiêu cơ bn ca một h phân tch ti liu nh hon chỉnh đ l
chuyn một ti liu lưu tr bằng giấy sang dng biu diễn c th t cấu trc
v nội dung ca n. Ti liu đưc chuyn sang phi c kh năng thay đi,
son tho v lưu tr bởi v nội dung ca ti liu c th truy cp bởi cấu trc
ca n thay v phi truy cp dưi dng nhng mu nh. C một s lưng ln
ng dụng ca h phân tch ti liu nh đưc ng dụng trong cc lĩnh vc như:
dịch vụ bưu chnh, Chnh ph, chăm sc y t, thư vin, v.v.
Mục đch ca lun văn là nghiên cứ u kỹ thuậ t nhậ n dạ ng bả ng và trích
chn ra đi tưng ca ti liu nh. Kỹ thut “Phân tích bng – T-Recs” l
nghiên cứ u chính .
Vi tư tưởng chnh ca “Phương php phân tch bng” đ l không
xem xét đn bất c một loi đưng phân cch no đ xc định cấu trc bng.
Thay vào đ phương php sẽ tp trung vào vic nhn bit cc từ trong cng
một khi logic (chẳng hn cc từ trong cng một cột d liu sẽ đưc cho vo
trong cng một khi). Phương php sẽ không đi tm nhng đặc trưng đ phân
bit hai vng d liu (hai cột) khc nhau m tm nhng đặc trưng đ tm ra
cc từ trong cng một khi logic v từ đ xây dng cấu trc riêng theo
phương php tip cn bottom - up.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
4
1.2. Tổ chức của luận văn
Lun văn đưc trình bày thành 5 chương và 1 phụ lục.
Chương 1 Trình bày tóm tt cơ sở nghiên cu và mục đch cng như
cách t chc ca lun văn.
Chương 2 Tổ ng quan về hệ phân tích tà i liệ u ả nh và cá c thà nh phầ n
chnh trong hệ phân tí ch tà i liệ u ả nh : Lấ y dữ liệ u , xử lý ả nh , trch chn đặc
trưng, nhậ n dạ ng đố i tượ ng ả nh và nhậ n dạ ng văn bả n .
Chương 3 trnh by bi ton phân tch văn bn v nh một cch riêng
rẽ. Trong chương ny một thut ton phân tch văn bn v nh cng sẽ đưc
trnh by da vo vic phân tch cc thnh phn liên thông (CCs).
Chương 4 trình bày phương php phân tch bng ( T-Recs) da trên
nhng hnh ch nht bao quanh một từ v đu ra l cấu trc logic ca khi
văn bn, cụ th vi nhng bng nhn dng đưc sẽ l cấu trc cc cột v cc ô
ca bng d liu. Phân tch nhng mặt hn ch ca thut toán - trưng hp
nhn dng chưa chnh xc cc cột d liu trong bng lun văn đưa ra thut
toán khc phục nhng mặt hn ch đ.
Chương 5 Chương trnh thử nghim v minh ha phân tch bng trong
trang ti liu nh.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
5
CHƢƠNG 2: TỔNG QUAN VỀ HỆ PHÂN TÍ CH TÀ I LIỆ U Ả NH
nhn dng văn bn (có th thêm các thuộc tính như loi phông ch, kích
thưc ca phông ch) bởi phương pháp nhn dng ký t quang hc (OCR).
Phn th hai là xử lý các đi tưng nh là các đi tưng to ra từ các đưng
kẻ trong sơ đồ, các đưng kẻ phân tách gia các đon văn bn, các hình vẽ,
các lôgô ca công ty… Sau khi áp dụng các kỹ thut phân tích nh và văn
bn, các đi tưng cn nhn dng trong tài liu nh đưc trích ra và đưc biu
diễn dưi dng một tài liu định dng khác, chẳng hn như word, html…
Ta có thể tm tt qu trnh xử lý ca h phân tch ti liu theo sơ đồ
Hnh 2.1 [8]: Hnh 2.1 Sơ đồ quá trì nh xử lý tà i liệ u
Ti sao li phi phân tch ti liu ? Nhữ ng bà i toá n trong phầ n giớ i
thiệ u đã đề cậ p , ta hã y xem xé t kỹ hơn về bà i toá n điể n hình để thấ y đượ c sự
cầ n thiế t củ a việ c phân tích tà i liệ u .
- Lượ ng tri thứ c vô giá củ a nhân loạ i vớ i số lượ ng lớ n đượ c lưu trữ
trong cá c thư việ n cổ điể n dướ i cá c chấ t liệ u như giấ y , vi, gỗ vẫ n cò n tồ n tạ i
rấ t nhiề u, việ c cá c tà i liệ u bị mất cc thông tin , thiu thông tin, s lưng bn
Xử l ti liu
đ ph bin. V vy chng cn phi đưc khôi phục v chỉnh sửa bằmg nhng
kỹ thut phân tch ti liu.
- Ngy nay cc văn phng hin đi cc công vic đu đưc gii quyt
dự a và o má y tính . Cc ti liu văn bn vi nhiu đi tưng (chữ , hnh nh ,
cc sơ đồ ) đượ c tạ o ra trên nhiề u m y tnh khc nhau , phầ n mề m khá c nhau
do đó có thể là cá c đị nh dạ ng củ a cá c tà i liệ u đó là không tương thích vớ i
nhau, kch thưc cng khc nhau . Như vậ y cầ n mộ t hệ phân tích tà i liệ u giúp
nhn dng cc loi ti liu, trch chn ra đưc cc phn chc năng v c thể
chuyn từ một định dng my tnh ny sang một định dng khc.
- Mộ t bi ton khc đượ c đề cậ p l cc my phân loi thư t động
dng đ phân loi, sp xp thư v nhn dng địa chỉ thư. Nhng my ny đã
có từ nhng thp kỷ trưc, nhưng ngy nay yêu cu cao hơn đ l xử l nhiu
thư hơn, nhanh hơn v yêu cu chnh độ xc cao hơn.
Nhng bi ton trên đã to ra thch thc v động lc cho s pht trin
nhng gii php trong tương lai ca một h phân tch ti liu.
Hnh 2.2 mô tả cá c bướ c xử lý cho mộ t hệ phân tí ch tà i liệ u [8]. Sau
khi dữ liệ u (ti liu nh ) đượ c đưa và o , ti liu nh tri qua cc bưc xử lý
đim nh v phân tch đặc trưng v sau đ phn nhn dng văn bn và phầ n
nhậ n dạ ng nh đượ c tá ch ra hai chứ c năng riêng rẽ. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
8
Trang tà i liệ u
Xử lý điể m ả nh
Phân tí ch đặ c trưng
Phân tích và nhn
dng đi tưng văn
bn
Phân tích và nhn
dng đi tưng nh
Mô tà i liệ u
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
9
liu giấy l phương tin làm vic hiu qu và chc chn rằng tài liu giấy vn
sẽ l phương tin làm vic vi chúng ta trong một vài thp kỷ na. Vấn đ ở
đây l làm sao chúng ta tích hp nhng tài liu giấy vào trong máy tính xử lý.
Sau đây ta sẽ tm hiu ngn gn cc bưc xử lý ca một h phân tch
ti liu nh.
2.3. Thu nhậ n dƣ̃ liệ u ảnh
Cc d liu trên cc trang ti liu giấy thưng đưc quét qua máy quét
v đưa vo my tnh dưi dng file nh , chng bao gồm cc đim nh (pixels)
v đượ c lưu trữ . Vớ i ả nh nhị phân g i trị đim nh c th l 0 hoặ c 1 ,vớ i nh
đa cấp xm v nh mu giá trị điể m ả nh nằ m trong khoả ng 0 đn 255 vi 3
gi trị R, G, B từ 0 đn 255. Ở độ phân gii thông thưng th c 120 đim nh
trên 1 centimet v vi 1 trang c kch thưc 20 x 30 cm th to ra một nh vi
2400 x 3600 đim nh. Do đ c th thấy rằng một ti liu nh chỉ bao bồm
cc d liu thô (gi trị cc đim nh) v chng sẽ đưc sử dụng nhng kỹ
thut phân tch thch hp đ lấy ra đưc cc thông tin cn thit.
2.4. Tiề n xử l đim ảnh
11
Qu trnh xử l ny sẽ gặ p khó khăn trong các trưng hp khi: độ
tương phn gia giá trị các đim nh văn bn và nn là thấp (chẳng hn như
văn bn đưc son tho trên một nn xám thun nhất), nét ca văn bn mng
hoặc d liu không đưc chiu sáng tt khi thc hin quét tài liu giấy. Rất
nhiu phương pháp đã đưc phát trin đ khc phục nhng hn ch trên,
chẳng hn như phương pháp tách ngưỡng t động tìm ra giá trị θ thích hp đ
chia nh thành hai phn.
2.4.2. Giảm nhiu
Nhiễu trong tài liu nh là do nhiu nguyên nhân bao gồm: s thoái
hoá theo thi gian, qu trnh sao ch ép, quá trình quét tài liu. Một s kỹ thut
xử lý nh sẽ đưc áp dụng đ loi b nhiễu. Sau khi đưc nhị phân hoá, tài
liu nh sẽ đưc lc đ gim nhiễu. Trên thc t tồn ti nhiu loi nhiễu, tuy
nhiên ngưi ta thưng xem xét 3 loi nhiễu chính: nhiễu cộng, nhiễu nhân và
nhiễu xung. Chúng xuất hin như nhng đim nh khác bit so vi vùng xung
quanh, chẳng hn các đim nh nhiễu ON (đim mang thông tin nh) trong
vùng nn OFF (đim mang thông tin nn) hay ngưc li các đim nh OFF
trong vùng nn ON và các cnh gồ gh ca ký t hay các đi tưng nh.
Bn chất ca nhiễu là thưng tương ng vi tn s cao và cơ sở lý
thuyt ca các bộ lc là chỉ cho nhng tín hiu có tn s nào đ thông qua, do
đ đ lc nhiễu ngưi ta thưng sử dụng bộ lc thông thấp hay lc trung bình.
Vi nhiễu cộng v nhiễu nhân ta dng cc bộ lc thông thấp, trung bnh
;
vi nhiễu xung ta dng lc trung vị, gi trung vị.
Trong lc trung bnh, thưng ngưi ta ưu tiên cho cc hưng đ bo v
biên ca nh khi bị m khi lm trơn nh. Cc kiu mặt n đưc sử dụng ty
theo cc trưng hp khc nhau. Cc bộ lc trên l bộ lc tuyn tnh theo nghĩa
l đim nh ở tâm cửa s sẽ đưc thay bởi t hp cc đim lân cn chp vi mặt
n. Lc thông thấp thưng đưc sử dụng đ lm trơn nhiễu.
yu phục vụ cho vic phân tch v nhn dng sau ny thun tin hơn. Chẳng
hn như một đưng kẻ thẳng c th vẽ bằng tay vi độ đm ca nét bt l
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
13
khc nhau nhưng c th biu diễn chng ging nhau. Trong Hnh 2.4 đưa ra ví
dụ nh đưc phân tch bằng phương php lm mnh.
Hnh 2.4 Ảnh nguyên bản(Vân tay) bên trái và ảnh sau khi làm mảnh bên phải.
Lưu rằng nu một hnh trn hay một hnh vuông m đưc tô kn bởi
cc đim đen th kt qu lm mnh nhng đi tưng trên sẽ l một đim nh
nằm ti tâm ca hnh vẽ bất k kch thưc ca đi tưng l như th no. Do
đ c th thấy rõ rng rằng vic xc định đưc vng biên ca đi tưng l rất
quan trng.
Nói chung vi cc đi tưng c kch thưc ln, d biên l phương
php la chn thch hp đ biu diễn đi tưng, cn đi vi nhng đi tưng
đưc to thnh bởi nhng nét kt ni di th lm mnh l phương php thch
hp hơn. Lm mnh thưng đưc sử dụng như l một qu trnh tin xử l đi
vi nhng ng dụng phân tch ti liu như xử l sơ đồ hay bn đồ. Vi nhng
đi tưng nh ln m vng nh đưc tô đy chẳng hn như nhng lôgô th
phương php d biên đi tưng thch hp hơn. Nhưng vi nhng vng nh,
chẳng hn từng k t riêng bit th cng không phi phương php lm mnh
Sau bưc xử l đim nh, d liu thô ca nh đã đưc biu diễn ở cấp
độ trừu tưng cao hơn: đã khoanh đưc vng bao ca chuỗi k t, biu diễn
CC v véctơ ca cc đưng cong v đưng thẳng, hay đã xc định đưc vng
biên ca cc đi tưng.
Ti liu nh qua cc qu trnh tin xử l sẽ l ti liu cơ sở cho qu
trnh phân tch cấu trc ca ti liu đ . Hnh 2.5 minh ha một ti liu trưc
v sau khi thc hin qu trnh tin xử l. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
15
Hnh 2.5 Tài liệu ảnh trưc và sau các bưc tin xử lý . Ảnh (a) gốc, ảnh (b)
ảnh sau khi chuyển v ảnh nhị phân, ảnh (c) ảnh sau khi chỉnh nghiêng, ảnh
(d) ảnh sau khi lọc nhiễu.
2.5. Phân tích đặ c trƣng củ a tà i liệ u ả nh
Sau quá xử l trên cc đim nh , cc đặc trưng ca cc đi tưng trên
ti liu nh sẽ đưc trch chn v phân tch đ gip ch cho nhng bưc nhn
dng sau ny. Ti bưc phân tch đặc trưng nh, d liu nh lm mnh v biu
diễn dưi dng CC sẽ đưc phân tch đ xc định cc đưng thẳng, cc đưng
dng k t vit tay hay cc k t trong ti liu in. Kỹ thut phân tch sơ đồ
trnh by đưc p dụng đ phân tch định dng ca trang, một loi ng dụng
phân tch sơ đồ trnh by đ l nhn dng biu mu, gip phân tch v nhn
dng cấu trc biu mu v cc văn bn c trong biu mu. Trong một s
trưng hp ngưi ta cn phi xc định độ nghiêng ca ti liu bởi v ti liu
đưc quét c th bị nghiêng so vi b ngang ca trang giấy trong trưng hp
ti liu đ không đưc đặt đng khi quét vo từ my quét. Ưc lưng độ
nghiêng v phân tch sơ đồ trnh by ca văn bn sẽ đưc mô t ngn gn
trong phn dưi đây. Phương php nhn dng k t quang hc sẽ đưc đ cp
đn ở phn sau.
2.6.1. Xác đnh gc nghiêng của văn bản
Một dng văn bn bao gồm một nhm cc k t, biu tưng v cc từ
nằm lin k nhau, kh gn nhau v đu nằm trên cng một đưng thẳng (c
th theo chiu thẳng đng hay chiu dc). Thông thưng hưng ca cc dng
văn bn sẽ xc định độ nghiêng ca ti liu. Bnh thưng một trang ti liu sẽ
c độ nghiêng l 0 khi m cc dng văn bn theo chiu ngang hay chiu dc
sẽ song song vi cc cnh tương ng ca trang ti liu, tuy nhiên trong một s
trưng hp khi một trang ti liu đưc quét hay sao chụp bằng tay, độ
nghiêng ca ti liu khi đ sẽ khc 0.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
17 Hnh 2.6 Văn bả n bị nghiêng sau khi đượ c qué t qua má y qué t.
Hnh 2.6 cho ví dụ về mộ t văn bả n nghiêng sau khi qué t ả nh gố c qua
mộ t má y scan.
V cc bưc phân tch như OCR hay phân tch sơ đồ trnh by phụ
thuộc vo trang ti liu đu vo vi độ nghiêng l 0 do đ xc định độ
thc hin phân tch cc từ, cc dng văn bn hay cấu trc cc khi (nhm cc
dng văn bn, chẳng hn cc đon văn bn hay cc bng danh mục). Thông
thưng ngưi ta da vo quy tc sp xp thông tin trong trang ti liu đ nhn
dng từng khi v gn nhãn cho chng. Một th dụ đưa ra kt qu sau khi
phân tch trang đu tiên ca một ti liu kỹ thut bao gồm: tên ti liu, tc gi,
tm tt, từ kho, cc đon trong thân văn bn v.v. Hnh 2.7 đưa ra một th
dụ vi kt qu sau khi đã thc hin phân tch cấu trc v gn nhãn cho cc
khi trên một trang ti liu nh. Phân tch cấu trc ca trang c th sử dụng
phương php tip cn trên - xung [11] hay tip cn dưi – lên[10]. Vi
phương php tip cn từ trên - xung, một trang ti liu đưc phân tch từ cc
thnh phn ln xung cc thnh phn nh hơn, chẳng hn trang ti liu c th
phân tch thnh cc cột, sau đ cc cột đưc phân tch thnh cc đon văn
bn, từ cc đon văn bn li tch ra thnh cc dng văn bn, sau đ tch cc
từ .v.v Vi phương php tip cn từ dưi – lên, cc thnh phn liên thông
đưc trộn vi cc k t đ nhn dng từ, cc từ li đưc trộn vi nhau đ to
thnh cc dng văn bn, từ cc dng văn bn xây dng thnh cc đon văn
bn.v.v Một cch ln lưt, hai phương php trên c th kt hp cng nhau
đ phân tch cấu trc ca ti liu.