ĐẠI HỌC QUỐC GIA HÀ NỘI
NHẬN DẠNG CÁC FORM TÀI LIỆU
( Báo cáo tổng hợp đề tài nghiên cứu khoa học cấp ĐHQGHN)
Mã số: QC.06.01
Chủ nhiệm đề tài: Đặng Việt Dũng
ÒAI HOC QUỘC GIA HA NỘI
í < ’
UNG TAM THÕNG TIN THỊ r
' / Ị
5fsj
i M / m
Hà NỘI - 2007
THÔNG TIN CHUNG
Chủ trì đề tài: Đặng Việt Dũng
Các cộng sự: ThS. Đào Kiến Quốc, Đào Thanh Khiết, Nguyễn Thanh Phúc, Nguyễn Thu
Trang, Đinh Văn Phương
Nội dung: Nghiên cứu giải pháp “đọc” tự động các phiếu bằng nhận dạng ảnh. Công việc
cụ thể gồm: tách vùng nhập liệu trên form tài liệu, quản trị cẩu trúc form.
MỤC LỤC
BẢNG CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮ T 5
DANH SÁCH NHỮNG NGƯỜI THAM GIA THỰC HIỆN ĐẺ T À I
5
DANH MỤC CÁC HÌNH V Ẽ 6
DANH MỤC CÁC BẢNG SÓ LIỆU 7
TÓM TẮT NHỮNG KẾT QUẢ CHÍNH CÙA ĐÊ TÀI
8
CHƯƠNG 1. GIỚI THIỆU 10
11 Đặt vấn đề 10
1 2 Mục tiêu nghiên cứu và ý nghĩa cùa đe tài
11
28
3.3.2 1. Phương pháp đối chiểu các đường thẳng 28
3.3.2.2. Ước lượng về khoảng cách và kích thước :
29
3.3 .3 .Thuật toán tim đường tương ứng giữa ảnh mẫu và ảnh scan
30
3.3.4. Tách vùng nhập dừ liệu trên ảnh scan 32
3 .4. ứn g dụng quản trị form tài liệu vào bài toán nhận dang form
34
3 .5. Xây dựng các mô đun phần mềm thừ nghiệm
37
3.5.1. Mô đun phần mềm tách vùng trên form
37
Thực nghiệm ]: Xác đinh các đường thẳng
39
Thực nghiệm 2: Tỉm cặp các đường thẳng giữa ảnh scan VỚI ảnh mẫu
40
Thực nghiệm 3: Xác định các vùng cẩn nhận dang
40
3.5.2. Mô đun phần mềm quản trị form tài liệu42
CHƯƠNG 4 TÓM TẢT KÉT QUÀ NGHIÊN c ứ u 46
Công nghệ phần mềm
ThS Thạc sĩ
GVC Giảng viên chính
CN
Cử nhân 1
KS Kỹ sư.
HCI
Human - computer interaction
CSDL Cơ sở dữ liệu
DANH SÁCH NHỮNG NGƯỜI THAM GIA THỰC HIỆN ĐẺ TÀI
s r r
Họ ten
' - - : •- :
Nơi eôngtảc, chửc đanh
1
Đãng Việt Dũng
KS
Trung tâm NC&PT CNPM
1
2;
Đào Kiến Quốc
ThS
Giám đổc Trung tâm NC&PT CNPM
•. J.vị;;
Đào Thanh Khiết
CN
Trung tâm NC&PT CNPM
4.
Nsuvễn Thanh Phúc
CN
được trên ả nh 26
Hình 9: (a) Đường thẳng mờ và bị đứt doan (b) Đường thang xác đmh đươc khi tính đến mât
đ ộ
.
27
Hình 10: Xác đinh nhầm đường thẳng do phân bố không đều trên đ ư ờ ng
27
Hừih 11 Chia đường thẳng thành các đoan ngắn rồi tinh mật đỏ Ưẽn các đoan này 28
Hình 12: (a) Ảnh mẫu, (b) Đinh nohĩa các vùng nhâp dừ liệu trên ảnh mẫu, (c) Anh scan sau
khi tiền xử lý; (d) Kết quá tách vùng trên ảnh scan
34
Hình 13: Mầu form có cấu trúc 35
Hình 14: Giao diên chính của chương trình 38
Hình 15: (a) Ảnh mẫu, (b) Kết quả thu đươc sau khi phân vùng
41
Hình 16: Giao diện chính 43
Hình 17: Mầu dữ liêu 43
Hinh 18: Thiết kế form 45
Hình 19: Ví du thiết kế form 45
Bào cào tồng hợp đế tài "Nhân dạng các form tàì liệu
6
Trung tởm Nghiên cứu và Phát triển Cóng nghệ Phân mềm. Truừng Đại học Công nghệ. ĐHQGHN
DANH MỤC CÁC BÀNG s ổ LIỆU
Bảng 1: Độ chính xác của phương pháp xác định đường thẳng 40
Bảng 2: Độ chính xác của phuơng pháp ghép cặp các đường thẳng 40
Bào cào tỏng họp đề tài "Nhón dạng các form tàỉ liệu
8
Trung tâm Nghiên cứu và Phát triến Công nghệ Phản mểm, Trường Đại học Công nghệ. ĐHQGHN
(d2). Qua thực hiện đề tài, Trung tâm Công nghệ Phần mềm đã tích lũy thêm đươc
• một mũi nhọn ữong tiềm năng nghiên cứu triển khai ứng dụng của Trung tâm
đó là nhận dạng các form tài liệu.
e Tinh hình sử dụng kinh phí
- đã sử dụng hết kinh phí được cấp (28 triệu VND)
- đã chi các khoản như sau:
Muc
•
Tên mục Số tiền
(triệu đồng)
110
Cung ứng vãn phòng
1
112 HỘI nghi, hội thảo, xemina
o
D
114
Chi phí thuê mướn
17
119
Chí phí hoạt động chuyên môn
5
145
Mua sắm TSCĐ
(Thiết bị tích hợp VỚI các hệ thống điện thoại được mua
từ một nguồn kinh phí nghiên cửu khác)
0
hiện thực trong phần mềm VnDOCR. Tuy nhiên phân mêm này chi nhân dang chữ m, trong
khi đó hầu hết các phiếu đăng ký thi chi có chừ viêt tay Hơn nữa việc nhân dans môt tai liêu
dừng ờ mức sinh ra môt tài liệu (dưới dans rtf) còn nhân dang form còn có môt đãc điểm
khác là thông tin nhân dang đươc 0' mỗi vùn ° cản đưọc hên kêt VỚI môt trường nào đó cùa cơ
sờ dừ liệu để cập nhât dữ liệu tự đông Vi thê nhận dang form còn có một vấn đề đãc thu là
phân tích và/hoăc quản lý cẩu trúc form và tươrm tác VỚI cơ sở dừ liêu
Với các văn bàn thôns thườn 2 ta khỏ có thẻ đat đươc đỗ chính xác cao thỏno qua nhân
dano tuy nhiên trong các form văn bản lả những loai văn bản có câu trúc ta có thê đưa ra các
qưy tắc ràng buỏc để tăna đô chính xác cho viẻc nhân dang Chăng han các chừ đươc viết
nêng rẽ trên các ô riêng biẻt của các vùng nháp liệu Mặt khác việc nhản dana khônu cân tiến
Bão cào tổng hợp đề ỉòi "Nhân dang các form tời liệu'
10
Trung tâm Nghiên cửu và Phát triển Công nghệ Phần mềm. Trường Đại học Công nghệ. ĐHQGHN
hành trên toàn bộ ảnh của tài liệu mà chỉ giới hạn ờ những vùng nhập dừ liêu Đặc điểm này
cũllg cho phép người ta tiếp cận một cách có hiệu quả hon, chẳng hạn có thể tân dụn° các
thông tin sẵn có từ thiết kế form làm các tham sổ nhận dạng Môt khía canh khác của nhân
dạng form tài liệu là các dữ liệu nhận dạng được của mỗi vùng của form sẽ phải được tư đông
gắn vào một trường dữ liệu xác định của ứng dụng.
Trong để tài này, chúng tôi nghiên cửu phương pháp nhân dạng các form tài liệu nhầm
phục vụ cho bài toán nhập dữ liệu tự động từ vào máy tính.
1.2. Mục tiêu nghiên cứu và ý nghĩa của đề tài
Nghiên cứu giải pháp “đọc” tự động các phiếu bằng nhân dạng ảnh
Đưa ra đuợc phương pháp quàn trị form, phương pháp nhân dang form và phương pháp
tích hợp VỚI các ứng dung dựa trên cơ sờ dữ liệu
Từ phương pháp quản trị form và nhận dạng form đã đề xuất, tiếp tục phát triển sàn
phẩm công nghê như một too] cung cấp khả năng design form, nhân dang form, khai báo
tuơng tác với các úng dung khác để có thể tích hợp VỚI các ứng dụng khác
Đảy là một đề tài triẻn khai nghiên cứu và triển khai, có khả năng ứníỉ duno cao Rất
nhiều nơi có nhu cầu nhâp dữ liệu nhanh từ các phiếu.
1.3. Nội dung nghiên cứu
giới, chọn lọc và đề xuất, cải tiến phương pháp nhận dạng phù hợp với các form tài liệu Để
tài cũng kế thừa kinh nghiệm đã có trong việc phát triển thuật toán nhận dạng phiếu thỉ trẳc
nghiệm đã được ứng dụng thành công trong phần mềm MrTest
2.2. Phân công trách nhiệm:
- Quản lý dự án, tham gia phân tích và thiết kế hệ thống: Đặng Việt Dũng, Đào Kiến
Quốc (Giám đốc Trung tâm Công nghệ Phần mềm), Đảo Thanh Khiết.
- Nghiên cứu đề xuất phượng pháp nhận dạng form và phát triển mô đun phần mềm
nhận dạng form: Nguyễn Thanh Phúc, Đinh Văn Phương
- Nghiên cứu phương pháp đặc tả form và xây dưng mô đun phần mềm quản tri form
Nguyễn Thu Trang
- Chuẩn bị báo cáo khoa học tại hôi thảo khoa học FAIR 2007: Nsuyễn Thanh Phúc
Đào Kiến Quốc, Nguyễn Thu Trang
- Kiềm thử sản phẩm và xây dựng tài liệu: Đào Kiến Quổc, Đặng Viêt Dùne
Bào cáo tồng hợp đế tàĩ "Nhận dọng cóc form tàì hệu
13
Trung tăm Nghiên cứu và Phát triển Công nghệ Phỗn mếm, Trường Đại học Công nghệ, ĐHQGHN
CHƯƠNG 3. NỘI DUNG NGHIÊN cừu
3.1. Hệ thống nhập dữ liệu tự động vào máy tính bằng nhận dạng quang
học
Hình 1 mô tả hệ thổng nhập dữ liệu tự động bằng nhận dạng quang học. Bài toán nhập dừ
liệu tự động từ form tài liệu gồm các vấn đề sau:
- Quản trị form bao gồm : thiết kế form nhập liệu, quản lý và lưu trữ tự động các tham
số của form để có thể cung cấp thông tin cho quá trình nhận dạng sau này thêm nhanh,
tin cậy vả có thể tích hợp được với cơ sờ dữ liệu của ứng dụng
- Nhận dạng các vùng dữ liệu (bài toán phát hiện và phân vùng dữ liệu).
- Nhận dạng chữ viết tay trên các vùng dữ liệu, xừ lý từ vựng và ghi nhân vào cơ sờ dữ
liệu.
- Tiền xử lý ảnh để phuc vụ cho quá trình nhận dạng, đảm bào độ tin cây
/•" *s
\
darig 1
< :
Data bare 1
T iền xù Iv ảnh
File
Tem plate ỵ
"%-""'
Quán tri Form
Hình ì: Sơ đỏ hệ thổng nhập dừ liệu tự động
Các phần tiếp theo sẽ trình bàv nghiên cứu của chứng tôi về bước tiền xử lý ảnh, bước
nhận dan° cấu trúc form tài liêu, phương pháp quản trị form tài liêu Trono mỗi phản sẽ dê
xuẩt thuật toán mới hoặc cải tiến thuât toán đã có nhăm đáp ứng bài toán nhản dano form
Bào cào tỏng hợp đế tài "Nhận dạng các form tài liệu
14
Trung tám Nghiên cứu vá Phát triển Công nghệ Phẩn mểm. Trường Đại học Công nghệ. ĐHQGhTN
3.2. Tiền xừ lý ành áp dụng cho hệ thổng nhận dạng form
•
Quy trình nhận dạng được tóm tắt như sau: đẩu tiên vãn bản cần nhận dạng đươc đưa qua
hệ thống tiền xử lý để lọc nhiễu, chính xác lại góc nghiêng, sau đó ảnh sẽ được phân vùn°
dựa trên việc xác định các đường thẳng có trong ảnh, CU01 cùng là tách nêng và nhận dano
trên các vùng nhập dữ liệu - Hình 1. Saii.đây chúng tôi sẽ trình bày chi tiết về phẩn loc nhiễu
và chính xác lại góc nghiêng.
3.2.1. Thuật toán lọc nhiễu và nhị phân hoá.
3.2.1.1. Giới thiệu
Thông thường vãn bản được quét và lưu trữ dưới dạng hình ảnh đa mức xám Trong đó
hầu hết các thuật toán về xử ]ý và phân tích văn bản dều dưa trên ảnh nhị phân Việc sử dụng
ảnh nhị phân chì VỚI hai mức trẳng và đen giảm bớt được khối lượng tính toán và đơn oiàn
hoá các phương pháp phân tích so với ảnh xám (256 mức) Do đó việc tim ra môt thuát toán
nhị phân hóa nhanh và hiệu quả là một điêu rấi cân thiêt
Nhiều phương pháp về nhị phân hóa ảnh đã được phát triển, trong số đó có những
>'=]
_________
W *H
w : Width
H: Heigh
Công thức 0-2
Ta có thể tóm tắt quy trình lọc nhiễu như sau :
Bước 1 : Tính già trị độ xâm trang bình T
T, =
H W
Y Z h ( x > y )
x=ữ v=0
W*H
Bước 2 : Tăng độ rương phàn cho ánh mới
L ,
Bước 3 : Lập lại bước 1 cho tới khi giá rrỊ T giữa 2 ỉản ìoc liên riếp nhau lã gán như nhau
Với cách lọc trực tiểp trên ảnh ờ ưên, thỉ tiếp chi phí tính toán cho phương pháp lọc nảy
chủ yếu tập trung vào chi phí tính toán ờ Tk và Ik+]. Do vậy đề-giảm chi phí tính toán cho
phép lọc náy chúng ta chì tính T0 (tức giá trị mức xám trung bình của ảnh gốc) duy nhất một
lần và các giá trị Tk tiếp theo sẽ được tính dựa trên Tk.j Mặt khác ta nhân thấy giá trị mức
xám của ảnh nằm trong khoáng [0. 255], mà giá trị các điểm ảnh I(x,y) chỉ nẳm trong
khoảng giá trị mức xám cho phép này, do vậy chúng ta sẽ thực hiện các phép lọc ảnh nhiều
lần chì trên ỉược đồ m ức xám và CU01 cùng mới thực hiện tăng độ tương phàn cho ảnh cuối
Ta có thể hình dung các bước thưc hiện chính như sau:
Bước 0 : Tính giá trị mức xám trung bình T(J cùa ánh góc.
Bào cáo tông hợp đế tờì "Nhận dọng cóc form tài liệu'
16
Trung tâm Nghiên cứu và Phát triến Công nghệ Phần mềm, Trường Đại học Công nghệ. ĐHQGHN
Bước 1 : Tăng độ tircmgphàn ánh trên lược đỗ mức xám.
Bước 2 : Tính giá trị trung bình Tkí dựa trẽn Tk.j.
Tnơig tâm Nghiên cứu và Phát triến Công nghệ Phán mềm. Trường Đại học Cõng nghệ, ĐHQGHN
U I) ( b ì
Hình 3: (a) Anh scan cỏ đường viển màu đen, (b) Anh sau khi được ĩọc nhiễu
Đẻ khẳc phục trường hợp này, trước tiên chúng ta phải khừ các đường viền đen này
Thực tế nghiên cứu nhiều ành scan khác nhau chúns tôi nhận thấy rang các điềm đen trẽn
đường viền phân bổ môt cách rời rạc, không liên tục, có xen kẽ cảc điểm trắna (hoăc củm
điểm trắng), và có các hình dạng rất khác nhau tủy thuộc vào chất lượno máy scan và sóc
nghiêng cùa ảnh.
Do vậy để khử đường các đuờng viền đen này chúng tôi đề xuất giài pháp khử đườns
viền bằng cách dựa vào phương pháp phân cụm có tính đến mật đô (Density-Based
Clusturing) [3] Đặc điểm của phương pháp phân cụm :
• Có thể phân cụm VỚI nhiều hình dạng khác nhau, kê các các hình dans bất thườno
• Chấp nhận nhiễu
• Chì thực hiện duyệt môt lân
• Cần tham sổ mật độ cho điêu kiên kêt thúc
Báo cào tông hợp đế tòi "Nhộn dạng các form tòi liệu'
18
Trung tõm Nghiên cứu và Phàt triển Công nghệ Phõn mềm, Trường Đại học Công nghệ, ĐHQGHN
Hình 4: Các kiểu hình dạng khác nhau của cụm, mỗi màu tương ứng với một cụm
Áp dụng phương pháp phân cụm, chúng tôi đề xuất phương pháp khử đường viền đen có
thể thực hiện các bước chính sau:
Bước ỉ : Xuất phát từ điểm p ta đi tỉm một cụm, sao cho p thuộc vào cụm đơ);
Bước 2: Đặt tat cà các điêm trong cụm cúa p lờ điẽm trang
Bước 3: Lặp lại bước ì cho tới khi không còn tồn tại cụm nào.
Chú ý : Thuật toán nà)> chi áp dụng với các điểm gàn viển ỉà màu đen, không áp dụng với
các điểm đen bên trong
3.2.1.4. Kết luận
Dựa trên kết quả thực nghiệm sau khi áp dụng thuật toán đổi VỚI 60 form văn bản thuôc
về 4 loại khác nhau, chúng tôi thấy rằng kết quả thu đuơc hoàn toàn có thề so sánh VỚI kết
quả của các thuật toán khác. Thời gian đề nhị phân hóa ành có độ phân giải là 300 DPI VỚI 10
hình hộp cùng thường đươc đặt theo chiêu ngang Do đặc trưns này nên khi ta chiếu các đỉêm
đen của một văn bàn VỚI góc nghiêng bàng không theo chiêu ngang thi ta sẽ thu được mòi đõ
thi rất sẳc và có độ biến thiên lớn. VỚI các văn bản bị nghiêng, ta có thẻ thấv là phép chiếu sẽ
tạo ra một đồ thị trơn và thấp hơn. Dựa trên việc đánh giả các đồ thi này ta sẽ tim đươc 2ÓC
nạhiẽng chính xác của ảnh
Hình 5: (a)anh với góc nghiêng bâng không; (h) đồ ihi của phép chiểu ngang í rên anh (a
iHiriKiỉttlittt iỉ AỉfH-< VÌÍỈ1K
,ỉ í>~1J M;V; ĩ V*’
REGISTRATION FORM
p.wuux*. .*ỉHS?í; B A ÍÍĨĨĨÌ
íỉ-:*«lí ■■ M TM O K R H O S '. i? < t Kì* >.*> * <■» ftr-ii íỉv^xV- ?| i. -):kì ■>«•> ;■
V ‘ ĩ n * x M IỈĨS if.? ie. »ồ*vi wánĩ. Ĩ U
Bão cáo tổng hợp để tài "Nhộn dạng cóc form tài liệu ■
20
Trung tâm Nghiên cửu và Phát triển Công nghệ Phan mềm. Trường Đại học Công nghệ, ĐHQGHN
Hình 6: (a) Anh với góc nghiêng 5°; (b) Đỗ thị cua phép chiếu rĩ gang trên anh (a)
Mô tả phương pháp phép chiếu [11] :
• Các điểm đen trên hình ảnh sẽ đươc chiếu theo các đưÒTig thẳns so na sons váo
một mảng tích lũy ( A). Mỗi phẩn tử của mảnq tương úng với một đưòna chiếu vả
giá trị cùa nó là sổ điểm đen nằm ừên đường chiếu đó.
• Sử dụng phép chiếu đối VỚI mỗi góc nghiêng giả định, ta thu đươc môt tập các
mảng tích lũy ( Atì). Dựa vào hàm đánh giá F ( Afl) với MĨNANGLE < p í
MAXANGLE, ta tim được góc nghiêne chính xác 9 của ảnh lả góc làm cho Q]á tri
của hàm đảnh giá F ( A(i) đạt cực đai.
Dựa trên các đặc trưng của văn bản ta có hai hàm đánh giá :
(Dựa trên đặc điêm : đồ thị phép chiểu cua văn ban VỚI góc nghiêng chính x á c thườn? c ó
độ biến thiên lớn)
F,{Ae ) = ỵ j (A0[i}-A e[i-\]ý
; = ]
Công thức 1: Đánh giá độ biên ihìẽr, trên đó thị cua.phép chìếìi
độ chính xác cẩn thiết là ±0. ] 0 .
Thực nghiêm cho thấy trong bước đầu tiên, nếu lấy khoảng cách là 10 hoăc 20 không làm
thay đổi độ chính xác của thuât toán
Đe tăng cường hơn nữa hiêu quả tinh toán, trong bước đâu tiên khi đô chinh xác là nhò,
do đó không cần phài sừ dung ảnh lớn và chi tiết Chúng tôi sử dung ảnh cỡ khoảng 50DPI (
thu nhò từ ảnh ban đầu) cho các bước ước lương ban đảu: còn ưong các buớc tiếp theo thi sừ
duns ảnh sốc để đảm bảo đô chinh xác
Báo cào tống hợp đè tài "Nhận dạng các form lài liệu ■
22
Trung tâm Nghiên cứu và Phát triển Công nghệ Phần mềm, Trường Đại học Công nghệ, ĐHQGHN
’ ***»*«»,
•
, •**
<%: >K». M- w)lVj<> -Va*:-
> ><%
f)Â S r> kt'lftattc;?*. v*l> n> 1-:
T T r f - v ’n ■ ?yV •
t ?
**
ữ t m X X D i ì T - í - í - - ,
»1 i'/ V iiw«y tsivv
•'Ja< >»>;<»• V. V';X.;::>:«»« :< <■ : a'
; í'* $ w * f
•ifci; T • i / . f •%.* *'.5.,^ < • Ĩ • >•*.('; 1 J •: J
’f Í • •••-J : V V
yA AM>;v*-A w , [’TT*:.T*; T j : *T*;*V7 T”t T*i • Vr*T • T •
r t l I i • ; í ‘Í*'Ị - ■?'! : r H • Ị : H f H
Trung tám Nghiên cứu và Phát triển Công nghệ Phần mềm, Trường Đại học Công nghệ, ĐHQGHN
• Các hàm ước lượng về biểu đồ của phép chiếu chưa thề hiện được hết bản chất của
• phép chiếu. Mỗi công thức chi mô tả được một khía cạch cụ thề
3.3. Nhận dạng vùng nhập dữ liệu trong form tài liệu
Sau các bước xử lý lọc nhiễu và xác,định góc quay của ảnh, công việc tiếp theo cân tiến
hành đỏ là xác định các vùng vãn bản cần xử lý, đây cũng chính là đầu vào cho phần nhân
dạng dừ liệu.
Chú ý rằng vãn bản chúng tôi xử lý ờ đây là văn bàn dạng form nhập dữ liêu dưa trên
mẫu form đã có sẵn. Sau khi form được nhập dữ liệu và quét lại vào máy tính, dựa trên mầr
có sẵn và đổi chiếu với ảnh scan, ta tim các vùng trên ảnh scan được nhập dữ liệu và xừ lý
nhận dạng trên các vùng này. Dữ liệu sau khi nhận dạng sẽ được lưu lại tưcmg ứng VỚI các
trường dữ liệu trong form mẫu Khi xử ]ý văn bản, ta không cần nhận dạng toàn bộ vãn ban
mà chi giới hạn nhận dạng trên các vùng mà thông tin được nhập vào.
Xác định các vùng cẩn nhân dạng luôn luôn là công viêc quan trọng nhất trong nhân
dạng form nhập dữ liệu. Một số phương pháp thướng dùng hiện nay đe xác định các vừng nay
đã được nêu ờ phần tổng quan nhu : dùng hệ tọa độ tuyệt đối và hệ tọa độ tưong đối để phân
vùng.
Trong phương pháp thứ nhất, do trong quá ừình scan, ảnh có thể bị biến dạng làm cho VỊ
trí các vùng thay đổi Thêm vào đó, sai số trong việc xác định góc quay và đô dich của ảnh
cùng ảnh hường đến VỊ trí tuyệt đối của các vùng Theo phương pháp này, các vùng cànọ xa
goc tọa độ thi sai số vẻ vị trí càng lớn. Tuy nhiên phương pháp nảy đơn giải] va dễ cái đãl
Phương pháp thứ hai là pbưong pháp sừ dụng tọa độ tương đối. tiêu biểu lả phươĩìữ pháp
xác đinh các block, sau đó dựa vào các block này đê tính vị trí tưo ns đổi cùa các vùna cẩn
tách [10], Trong phương pháp này, các khối trong ảnh sẽ đươc đổi chiếu VỚI các khối troni:
form mẫu. Sau đó vùng nhập dữ liệu sẽ đuợc xác đinh thòng qua toa độ cục bộ Phưoma pháp
này tỏ ra rất hiêu quả đối với sai sô về vị trí do văn bản bị dịch hoăc bị nghiẻno troníì mót
giới hạn cho phép. Mặc đù vậy, việc xác định các block trong ánh khôns phải là cônụ việc
đon giàn, hon thế nừa việc đôi chiêu môt số lượng lỏn block với form mẫu đòi hòi các phép
tính phức tap. Các block mang thông tin chỉ chiếm mỏt ti lê nhò và việc đối chiếu đún° phân
lớn các block không hẻ có ý nghĩa trong viêc nhận dạns vê sau, irons khi đó nếu đối chiếu sai