Header Page 1 of 89.
ĐẠI HỌC THÁI NGUYÊN
KHOA CÔNG NGHỆ THÔNG TIN
------------ ------------
Nguyễn Thị Hiếu
TÌM HIỂU PHƢƠNG PHÁP PHÂN TÍCH BẰNG
BÊN TRONG TÀI LIỆU ẢNH
Luận văn Thạc sỹ Công nghệ thông tin
Thái Nguyên, tháng 11 năm 2009
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Footer Page 1 of 89.
Header Page 2 of 89.
ĐẠI HỌC THÁI NGUYÊN
KHOA CÔNG NGHỆ THÔNG TIN
------------ ------------
Nguyễn Thị Hiếu
TÌM HIỂU PHƢƠNG PHÁP PHÂN TÍCH BẰNG
2.1.
2.2.
Tài liệu ảnh ---------------------------------------------------------------------5
Hệ phân tích trang tài liệu --------------------------------------------------5
2.3.
Thu thập dữ liệu ảnh ---------------------------------------------------------6
2.4. Tiền xử lý điểm ảnh -----------------------------------------------------------9
2.4.1.
Xử lý nhị phân ----------------------------------------------------------10
2.4.2.
Giảm nhiễu---------------------------------------------------------------11
2.4.3.
Phân đoạn ảnh -----------------------------------------------------------12
2.4.4.
2.4.5.
Làm mảnh và xác định vùng -----------------------------------------12
Mã hóa CC và véctơ hóa ----------------------------------------------13
2.5.
Phân tí ch đặc trƣng của tài liệu ảnh -------------------------------------15
2.6. Phân tí ch đối tƣợng văn bản trong tài liệu -----------------------------15
3.1.
3.2.
3.3.
Tổng quan về phân tách văn bản – ảnh ---------------------------------24
Những đặc trƣng chung của một tệp tài liệu ảnh ---------------------27
Thuật toán phân tách văn bản - ảnh --------------------------------------30
3.3.1.
Xoá bỏ các đối tƣợng tuyến tính ---------------------------------31
3.3.2.
Phân tích các thành phần liên thông của nét bút ---------------32
3.3.3.
3.3.4.
Kết hợp các nét ký tự tạo thành các chuỗi văn bản ------------34
Thực hiện các phép toán hình thái -------------------------------35
3.3.5.
3.3.6.
Phân tích các thành phần liên thông mới -----------------------35
Biểu diễn cấu trúc thông tin của các chuỗi văn bản -----------36
CHƢƠNG IV: PHƢƠNG PHÁP PHÂN TÍCH BẢNG T-RECS TRONG
TRANG TÀI LIỆU ẢNH------------------------------------------------------------39
4.1.
Giới thiệu --------------------------------------------------------------------39
4.2. Thuật toán phân đoạn khởi tạo ----------------------------------------41
CHƢƠNG 5 CHƢƠNG TRÌ NH THƢ̉ NGHIỆM VÀ MINH HỌA THUẬT
TOÁN T-RECS++ ---------------------------------------------------------------------56
5.1. Mô tả chƣơng trình -------------------------------------------------------56
5.2. Một số kết quả -------------------------------------------------------------58
KẾT LUẬN VÀ ĐỀ XUẤT ----------------------------------------------------------61
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Footer Page 4 of 89.
Header Page 5 of 89.
THUẬT NGỮ TIẾNG ANH
3–D
3 Dimensions
CAD
Computer Aided Design
CAM
Computer Aided Manufacturing
CC
NCCs
New Connected Components
NNR
Nearest Neighbour Rule
OCR
Optical Character Recognition
T-Recs
Table Recognition System
WBRatio
White Black Ratio
WDG
White-space Density Graphs
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Footer Page 5 of 89.
Hình 3.5
Hình 4.1
Hình 4.2
Hình 4.3
Hình 4.4
Hình 4.5
Hình 4.7
Hình 4.8
Hình 4.9
Hinh 4.10
Hình 4.11
Hình 4.12
Hình 4.14
Hình 4.15
Hình 5.1
Hình 5.2
Hình 5.3
Hình 3.5 Nhận dạng đường kẻ nghiêng với phép toán kéo dãn
Ví dụ minh họa tư tưởng của thuật toán khởi tạo
thuật khởi tạo đối với một đoạn văn bản
Trường hợp thuật toán nhận dạng sai cột
Trường hợp giữa các dòng của một cột trong bảng có ô trắng
Mô phỏng việc thực hiện các bước đã cải tiến của thuật toán
Quá trình phân đoạn các cột của bảng
Trường hợp một ô của bảng chiếm nhiều dòng
Những mặt hạn chế của thuật toán
Trộn hai khối bị phân tách
Tách các cột bị trộn
khả năng vẫn còn nhiều hạn chế nên luận vă n khó tránh khỏi những thiếu sót
trong quá trì nh làm luận văn .
Để hoàn thành được luận văn này. Em xin bày tỏ lòng biết ơn sâu sắc
tới PGS. TS Ngô Quốc Tạo - người thầy đã tận tì nh giúp đỡ em trong suốt
quá trình tìm hiểu , xây dựng và phát triển luận văn này .
Em xin chân thành cảm ơn các thầy , cô giáo trong Viện Công nghệ
Thông tin – Viện khoa học Việt N am đã giảng dạy và hướng dẫn em trong
suốt 2 năm học qua. Em cũng xin cảm ơn ban lãnh đạo khoa và toàn thể thầy
cô giáo trong khoa Công Nghệ thông tin – Đại Học Thái Nguyên đã tạo điều
kiện tốt nhấ t giúp em học tập và hoàn thành luận văn này
. Và cuối cùng tôi
cũng xin cảm ơn gia đình , các bạn trong nhóm luận văn và toàn thể các học
viên lớp Cao học K 6 đã động viên , quan tâm và giúp đỡ tôi trong thời gian
qua.
Cuối cù ng tôi rất mong nhận được sự chỉ dẫn , góp ý của các thầy cô
và các bạn để luận văn của tôi được hoàn thiện hơn .
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Footer Page 7 of 89.
Header Page 8 of 89.
1
động những thông tin lưu trữ trong tài liệu giấy thành biểu diễn dưới dạng
những cấu trúc mà có thể truy xuất, thay đổi được bằng máy tính. Quy trình
xử lý của một hệ phân tích tài liệu bắt đầu bằng việc lấy dữ liệu, các tài liệu từ
giấy in sẽ được quét qua máy quét để lưu trữ trong máy tính dưới dạng các tệp
dữ liệu ảnh.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Footer Page 8 of 89.
Header Page 9 of 89.
2
Một tài liệu ảnh là một cách biểu diễn trực quan của các trang tài liệu
được in như một bài tạp chí, một lá thư, một trang báo, một mẩu thư hay một
bản vẽ kỹ thuật, .v.v.. Một tài liệu ảnh có thể bao gồm các chuỗi ký tự, các
hình vẽ, các bức ảnh, .v.v.. Bên cạnh việc chuyển toàn bộ nội dung của tài
liệu sang tài liệu điện tử cũng cần phải bảo toàn cấu trúc và định dạng của tài
liệu. Mục tiêu cơ bản của một hệ phân tích tài liệu ảnh hoàn chỉnh đó là
chuyển một tài liệu lưu trữ bằng giấy sang dạng biểu diễn có thứ tự cấu trúc
và nội dung của nó. Tài liệu được chuyển sang phải có khả năng thay đổi,
soạn thảo và lưu trữ bởi vì nội dung của tài liệu có thể truy cập bởi cấu trúc
của nó thay vì phải truy cập dưới dạng những mẫu ảnh. Có một số lượng lớn
ứng dụng của hệ phân tích tài liệu ảnh được ứng dụng trong các lĩnh vực như:
dịch vụ bưu chính, Chính phủ, chăm sóc y tế, thư viện, ...v.v.
Mục đích của luận văn là nghiên cứu kỹ thuật nhận dạng bảng và trí ch
tiếp nhận và xử ảnh theo cách của con người. Trong các bước xử lý đó nhiều
khâu hiện nay đã xử lý theo các phương pháp trí tuệ của con người. Những hệ
thống nhận dạng cấu trúc không chỉ đơn giản là chuyển một tài liệu in thành
một tài liệu điện tử mà hơn thế nữa còn là xây dựng những quá trình xử lý kết
hợp chẳng hạn như: tự động chép nội dụng, đánh chỉ mục và phân loại. Do đó
việc quan trọng là kèm theo nội dung của tài liệu cũng phải trích chọn ra
những cấu trúc đi kèm với từng nội dung đó.
Nhận dạng bảng là bài toán nhận dạng ra cấu trúc bảng có trong trang
tài liệu ảnh, bao gồm việc nhận dạng các cột, các dòng và các ô có chứa dữ
liệu trong bảng. Nhận dạng đối tượng ảnh là bài toán nhằm phân tách các đối
tượng ảnh trong những trang tài liệu ảnh có chứa hỗn hợp các đối tượng là
chuỗi ký tự và các đối tượng ảnh như: các sơ đồ, hình vẽ, bức ảnh …v.v.
Mặc dù đã có nhiều kỹ thuật trong hệ thống nhận dạng cấu trúc. Tuy
nhiên những nghiên cứu trên những vấn đề đó vẫn còn tiếp tục phát triển bởi
vì chất lượng, độ chính xác, tính hiệu quả của những phương pháp được công
bố trước đây vẫn còn chưa hoàn chỉnh và cần phải cải tiến chúng. Luận văn
này trình bày kỹ thuật nhận dạng cấu trúc bảng bên trong tài liệu ảnh T-Recs
và đề xuất một số phương pháp khắc phục hạn chế thuật toán T-Recs để hoàn
thiện hiện hơn phương pháp phân tích bảng.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Footer Page 10 of 89.
Header Page 11 of 89.
4
CHƢƠNG 2: TỔNG QUAN VỀ HỆ PHÂN TÍ CH TÀI LIỆU ẢNH
2.1. Tài liệu ảnh
Hình ảnh của một đối tượng là sự sao chụp lại chính bản thân đối
tượng đó. Ảnh được hình thành qua một hệ thống ảnh.
Tài liệu ảnh là các file ảnh đã được số hóa thu được bằng cách: quét các
trang tài liệu, chụp ảnh, máy fax, hoặc từ vệ tinh, các file ảnh này được lưu trữ
trong máy tính. Ảnh tài liệu có nhiều loại: đen trắng, ảnh màu, ảnh đa cấp
xám,…v.v.
2.2. Hệ phân tí ch trang tài liệu
Hệ phân tí ch trang tài liệu : Là một hệ thống bao gồm những thuật
toán và các k ỹ thuật có thể áp dụng cho các tài liệu ảnh để lấy ra được các
thông tin mà máy tính có thể đọc được và hiểu được từ các điểm dữ liệu ảnh.
Một lĩnh vực thu được nhiều thành công nhất trong
phân tích tài liệu ảnh đó
là Nhận dạng Ký tự Quang học (OCR), phần mềm có khả năng nhận, chuyển
đổi các ký tự từ các loại tài liệu dưới dạng ảnh sang tài liệu dưới dạng text .
OCR giúp người dùng có khả năng soạn thảo và tìm kiếm nội dung của tài
liệu.
Thành phần chính có trong một hệ phân tích tài liệu: Mục đích của
một hệ phân tích tài liệu là có khả năng nhận dạng ra các đối tượng văn bản,
đối tượng ảnh trong tài liệu ảnh và có khả năng trích chọn ra được các thông
tin mà người dùng mong muốn. Chúng ta có thể chia một hệ phân tích tài liệu
thành hai phần. Phần thứ nhất là xử lý văn bản, liên quan đến việc xử lý các
đối tượng văn bản: ký tự, chuỗi ký tự, các từ. Xử lý văn bản bao gồm các
công việc sau: xác định độ nghiêng của tài liệu (độ nghiêng hay độ xiên của
tài liệu ảnh do tài liệu được đặt không đúng khi thực hiện quét vào từ máy
quét), tìm các cột, các đoạn văn bản, các dòng văn bản, các từ và cuối cùng là
học
Văn bản
Phân tích
cấu trúc
trang
Xử lý
đường
kẻ
Xử lý vùng
và ký tự đặc
biêt
Xác định độ nghiêng, Đường thẳng,
Vùng được tô
dòng văn bản, các khối đường cong,
văn bản, các đoạn văn
góc
bản
Hình 2.1 Sơ đồ quá trì nh xử lý tài liệu
Tại sao lại phải phân
tích tài liệu ? Những bài toán trong phần giới
thiệu đã đề cập , ta hã y xem xét kỹ hơn về bài toán điển hì nh để thấy được sự
cần thiết của việc phân tí ch tài liệu .
dùng để phân loại, sắp xếp thư và nhận dạng địa chỉ thư. Những máy này đã
có từ những thập kỷ trước, nhưng ngày nay yêu cầu cao hơn đó là xử lý nhiều
thư hơn, nhanh hơn và yêu cầu chính độ xác cao hơn.
Những bài toán trên đã tạo ra thách thức và động lực cho sự phát triển
những giải pháp trong tương lai của một hệ phân tích tài liệu.
Hình 2.2 mô tả các bước xử lý cho một hệ phân tí ch tài liệu
[8]. Sau
khi dữ liệu (tài liệu ảnh ) được đưa vào , tài liệu ảnh trải qua các bước xử lý
điểm ảnh và phân tích đặc trưng và sau đó phần nhận dạng văn bản và phần
nhận dạng ảnh được tách ra hai chức năng riêng rẽ.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Footer Page 14 of 89.
Header Page 15 of 89.
8
Trang tài liệu
Thu nhận dữ liệu
Xử lý điểm ảnh
Phân tí ch đặc trưng
Header Page 16 of 89.
9
liệu giấy là phương tiện làm việc hiệu quả và chắc chắn rằng tài liệu giấy vẫn
sẽ là phương tiện làm việc với chúng ta trong một vài thập kỷ nữa. Vấn đề ở
đây là làm sao chúng ta tích hợp những tài liệu giấy vào trong máy tính xử lý.
Sau đây ta sẽ tìm hiểu ngắn gọn các bước xử lý của một hệ phân tích
tài liệu ảnh .
2.3. Thu nhận dƣ̃ liệu ảnh
Các dữ liệu trên các trang tài liệu giấy thường được quét qua máy quét
và đưa vào máy tính dưới dạng file ảnh , chúng bao gồm các điểm ảnh (pixels)
và được lưu trữ . Với ảnh nhị phân g iá trị điểm ảnh có thể là 0 hoặc 1 ,với ảnh
đa cấp xám và ảnh màu giá trị điểm ảnh nằm trong khoảng
0 đến 255 với 3
giá trị R, G, B từ 0 đến 255. Ở độ phân giải thông thường thì có 120 điểm ảnh
trên 1 centimet và với 1 trang có kích thước 20 x 30 cm thì tạo ra một ảnh với
2400 x 3600 điểm ảnh. Do đó có thể thấy rằng một tài liệu ảnh chỉ bao bồm
các dữ liệu thô (giá trị các điểm ảnh) và chúng sẽ được sử dụng những kỹ
thuật phân tích thích hợp để lấy ra được các thông tin cần thiết.
2.4.
Tiền xử lý điểm ảnh
Bước tiếp theo trong một hệ phân tích tài liệu là thực hiện một số thao
tác xử lý trên tài liệu ảnh thu được để chuẩn bị cho những bước phân tích tiếp
theo. Chẳng hạn như các thao tác: chọn ngưỡng để chuyển ảnh đa cấp xám,
ảnh màu về dạng ảnh nhị phân, giảm nhiễu để loại bỏ những dữ liệu không
Footer Page 17 of 89.
Header Page 18 of 89.
11
Quá trình xử lý này
sẽ gặp khó khăn trong các trường hợp khi: độ
tương phản giữa giá trị các điểm ảnh văn bản và nền là thấp (chẳng hạn như
văn bản được soạn thảo trên một nền xám thuần nhất), nét của văn bản mỏng
hoặc dữ liệu không được chiếu sáng tốt khi thực hiện quét tài liệu giấy. Rất
nhiều phương pháp đã được phát triển để khắc phục những hạn chế trên,
chẳng hạn như phương pháp tách ngưỡng tự động tìm ra giá trị θ thích hợp để
chia ảnh thành hai phần.
2.4.2. Giảm nhiễu
Nhiễu trong tài liệu ảnh là do nhiều nguyên nhân bao gồm: sự thoái
hoá theo thời gian, quá trình sao ch ép, quá trình quét tài liệu. Một số kỹ thuật
xử lý ảnh sẽ được áp dụng để loại bỏ nhiễu. Sau khi được nhị phân hoá, tài
liệu ảnh sẽ được lọc để giảm nhiễu. Trên thực tế tồn tại nhiều loại nhiễu, tuy
nhiên người ta thường xem xét 3 loại nhiễu chính: nhiễu cộng, nhiễu nhân và
nhiễu xung. Chúng xuất hiện như những điểm ảnh khác biệt so với vùng xung
quanh, chẳng hạn các điểm ảnh nhiễu ON (điểm mang thông tin ảnh) trong
vùng nền OFF (điểm mang thông tin nền) hay ngược lại các điểm ảnh OFF
trong vùng nền ON và các cạnh gồ ghề của ký tự hay các đối tượng ảnh.
tượng vừa tách ở trên, với văn bản xác định các cột, các đoạn văn bản, các từ
và các ký tự; với lớp đối tượng ảnh thực hiện phân tách các biểu tượng, các
hình vẽ, các đường kẻ và các hình ảnh. Chẳng hạn như một tài liệu ảnh có
chứa các đoạn văn bản và các hình minh hoạ giống như một trang tạp chí, đầu
tiên văn bản và ảnh sẽ được tách riêng. Sau đó văn bản sẽ được tách ra thành
các chuỗi ký tự. Ảnh thì được tách ra các thành phần như hình chữ nhật, hình
tròn, các đường kẻ, biểu tượng .v.v.. Sau bước trên tài liệu ảnh sẽ phân tách ra
thành những đối tượng nhỏ hơn như các ký tự và các thành phần cơ bản của
ảnh.
2.4.4. Làm mảnh và xác định vùng
Làm mảnh ảnh là một thao tác xử lý ảnh trong đó đối tượng ảnh được
biểu diễn như là những đường trục được gọi là đường tâm hay còn gọi là lấy
xương của ảnh. Một đối tượng ảnh khi đó chỉ được biểu diễn bởi đường
xương của nó bằng việc giảm bớt số lượng điểm ảnh có giá trị ON của đối
tượng và vẫn đảm bảo tính chất liên thông của đối tượng. Mục đích của việc
làm mảnh ảnh là giảm bớt các thành phần mà chỉ lưu trữ các thông tin thiết
yếu phục vụ cho việc phân tích và nhận dạng sau này thuận tiện hơn. Chẳng
hạn như một đường kẻ thẳng có thể vẽ bằng tay với độ đậm của nét bút là
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Footer Page 19 of 89.
Header Page 20 of 89.
13
khác nhau nhưng có thể biểu diễn chúng giống nhau. Trong Hình 2.4 đưa ra ví
2.4.5. Mã hóa CC và véctơ hóa
Khi một đối tượng ả nh được biểu diễn dưới dạng xương của ảnh hay
bằng đường viền, chúng có thể biểu diễn một cách hiệu quả hơn là lưu các
điểm ảnh một cách đơn giản các giá trị ON và OFF. Một trong những phương
pháp lưu ảnh hiệu quả đó là lưu dưới dạng mã xích CC (Chain Code –
Freeman 1974), trong đó các điểm có giá trị ON được biểu diễn thông qua tập
các điểm láng giềng đi theo một hướng quy định. Thay vì phải lưu trữ vị trí
của điểm ảnh có giá trị ON chúng ta sẽ lưu trữ hướng của các điểm láng
giềng. Các điểm láng giềng của một điểm x là tất cả các điểm nằm liền kề với
x thuộc ma trận 3 x 3 với điểm x là tâm. Có hai ưu điểm khi biểu diễn giá trị
điểm ảnh theo hướng thay vì phải lưu vị trí của điểm ảnh. Thứ nhất đó là việc
lưu trữ hiệu quả hơn. Thông thường với những ảnh có kích thước lớn hơn 256
x 256, toạ độ giá trị điểm ảnh ON thường được biểu diễn bởi 16 bít; trái lại
với cách lưu trữ CC một điểm láng giềng thuộc 1 trong tám hướng, do đó mỗi
một điểm ảnh ON chỉ cần biểu diễn bằng 1 byte hay thậm chí chỉ cần 3 bít để
lưu. Một ưu điểm khác có thể thấy trong CC đó là vì CC lưu theo cấu trúc các
điểm ảnh có liên quan với nhau và do đó dựa vào cách thức lưu trữ này có thể
thực hiện các công việc xử lý như làm trơn các đường cong và tính xấp xỉ các
đường thẳng trơn.
Sau bước xử lý điểm ảnh, dữ liệu thô của ảnh đã được biểu diễn ở cấp
độ trừu tượng cao hơn: đã khoanh được vùng bao của chuỗi ký tự, biểu diễn
CC và véctơ của các đường cong và đường thẳng, hay đã xác định được vùng
biên của các đối tượng.
Tài liệu ảnh qua các quá trình tiền xử lý sẽ là tài liệu cơ sở cho quá
trình phân tích cấu trúc của tài liệu đó . Hình 2.5 minh họa một tài liệu trước
và sau khi thực hiện quá trình tiền xử lý.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
độ chặt của hình bao (tỉ lệ giữa diện tích và chu vi), tính không đối xứng, độ
đậm đặc của các điểm đen, tính trơn của đường viền, số lượng đường viền, số
lượng các đường thẳng giao nhau và các đường đầu mút đều được tính toán
để làm dữ liệu đầu vào phục vụ cho việc nhận dạng từng đối tượng.
2.6. Phân tí ch đối tƣợng văn bản trong tài liệu
Có hai loại phân tích được áp dụng trong việc phân tích văn bản trong
tài liệu ảnh. Loại thứ nhất là nhận dạng ký tự quang học (OCR) để nhận dạng
từng ký tự, các chuỗi ký tự từ ảnh bitmap (bmp), loại thứ hai là phân tích sơ
đồ trình bày của trang tài liệu nhằm nhận biết được định dạng của văn bản, và
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Footer Page 22 of 89.
Header Page 23 of 89.
16
từ đó hiểu được cấu trúc, vị trí, chức năng của các khối văn bản (tiêu đề
chính, tiêu đề phụ, đoạn văn bản, chú thích .v.v..). Phụ thuộc vào cách sắp xếp
của các khối văn bản, một trang văn bản có thể là một trang tiêu đề, một bảng
mục lục của tạp chí, một biểu mẫu kinh doanh, hay là một phong bì thư. Nhận
dạng ký tự quang học và phân tích sơ đồ trình bày có thể được thực hiện một
cách riêng rẽ, hay có thể lấy kết quả của phần này để sử dụng cho phần kia.
Nhận dạng ký tự quang học thường được nhận biết như là ứng dụng nhận
dạng ký tự viết tay hay các ký tự trong tài liệu in. Kỹ thuật phân tích sơ đồ
trình bày được áp dụng để phân tích định dạng của trang, một loại ứng dụng
phân tích sơ đồ trình báy đó là nhận dạng biểu mẫu, giúp phân tích và nhận
Hình 2.6 cho ví dụ về một văn bản nghiêng sau khi quét ảnh gốc qua
một máy scan.
Vì các bước phân tích như OCR hay phân tích sơ đồ trình bày phụ
thuộc vào trang tài liệu đầu vào với độ nghiêng là 0 do đó xác định độ
nghiêng và điều chỉnh độ nghiêng của tài liệu là một việc làm cần thiết trước
khi thực hiện những bước trên. Một phương pháp xác định độ nghiêng của tài
liệu phổ biến đó là phép chiếu nghiêng. Phép chiếu nghiêng là phương pháp
tính số lượng điểm ảnh ON (điểm ảnh có giá trị 1 trong ảnh nhị phân) khi quét
ảnh theo các dòng hay các cột và lưu giá trị này vào một mảng, trong đó chỉ
số của mảng chính là dòng hay cột được quét. Do đó giá trị các điểm ảnh ON
khi quét qua trang ảnh sẽ được biểu diễn bởi một đồ thị tần suất. Mỗi một lần
thực hiện phép chiếu nghiêng ta sẽ chiếu ảnh theo các góc khác nhau (từ 0
đến 180 độ), tức là sẽ thực hiện quay ảnh một góc tương ứng. Phép chiếu
nghiêng thường được thực hiện theo chiều ngang hoặc dọc và được gọi là các
phép chiếu nghiêng theo chiều ngang, dọc tương ứng. Với một tài liệu ảnh mà
góc nghiêng bằng 0 thì các đỉnh của phép chiếu biểu diễn các dòng có chứa
ký tự, còn các vùng trũng biểu diễn cho khoảng không gian trắng giữa các
dòng. Để tìm được góc nghiêng của văn bản thì sẽ tìm góc quay sao cho đồ
thì tần suất có nhiều những đỉnh cao nhất và những vùng trũng nhất. Nếu đồ
thị tần suất có 10 đỉnh và 10 vùng trũng thì có thể suy ra rằng tài liệu ảnh có
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Footer Page 24 of 89.
Header Page 25 of 89.
bản.v.v... Một cách lần lượt, hai phương pháp trên có thể kết hợp cùng nhau
để phân tích cấu trúc của tài liệu.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Footer Page 25 of 89.