luận văn tìm hiểu phương pháp phân tích trang tài liệu bằng fractal signature - Pdf 41

Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy

Mục lục
Mục lục..........................................................................................................................i
Danh mục các hình ảnh...............................................................................................iii
MỞ ĐẦU......................................................................................................................1
I. Đặt vấn đề..............................................................................................................1
II. Nội dung nghiên cứu............................................................................................2
III. Bố cục của luận văn............................................................................................4
Chương I. TỔNG QUAN VỀ NHẬN DẠNG CHỮ VIẾT.........................................5
VÀ PHÂN TÍCH TRANG TÀI LIỆU.........................................................................5
I.1. Ảnh tài liệu và nhận dạng ảnh tài liệu...............................................................5
I.1.1. Tổng quan về ảnh tài liệu............................................................................5
I.1.2. Nhận dạng tài liệu và vai trò của phân tích ảnh tài liệu.............................6
I.2. Cấu trúc của ảnh tài liệu.....................................................................................7
I.2.1. Cấu trúc vật lý.............................................................................................8
I.2.2. Cấu trúc logic............................................................................................10
I.3. Quá trình phân tích tài liệu...............................................................................10
I.3.1. Tiền xử lý(preprocessing):........................................................................11
I.3.2. Phân tích cấu trúc vật lý............................................................................12
I.3.3. Phân tích cấu trúc logic.............................................................................13
I.4. Một số hệ thống phân tích tài liệu hiện nay.....................................................14
I.4.1. VnDOCR...................................................................................................14
I.4.2. OminiPage.................................................................................................18
I.4.3. Finereader..................................................................................................20
I.5. Kết luận............................................................................................................22
Chương II: CÁC PHƯƠNG PHÁP TIẾP CẬN.........................................................23
ĐỂ PHÂN TÍCH TRANG TÀI LIỆU........................................................................23
II.1. Các phương pháp phân tích định dạng trang tài liệu.....................................23
II.1.1. Top-down.................................................................................................23
II.1.2. Bottom-up................................................................................................29

TÀI LIỆU THAM KHẢO..........................................................................................74
Phục Lục.....................................................................................................................75
A. Mã nguồn đầy đủ của chương trình...................................................................75
A.1. Danh mục các chương trình con trong chương trình.................................75
A.2. Sơ khối liên kết giữa các thủ tục trong chương trình.................................76
A.3. Mã nguồn các module................................................................................76

ii

GVHD: PGS. TS. Ngô Quốc Tạo


Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy

Danh mục các hình ảnh
Hình 1: Sơ đồ OCR cơ bản...........................................................................................7
Hình 2: Ví dụ loại tài liệu có bố cục phức tap...........................................................10
Hình 3: Sơ đồ nguyên lý hệ thống xử lý tài liệu[6]...................................................11
Hình 4: a - Ảnh gốc b - Ảnh sau khi tách nền............................................................12
Hình 5: Ví dụ một ảnh tài liệu bị nghiêng một góc 5 độ...........................................13
Hình 6: VnDOCR và một ví dụ nhận dạng................................................................15
Hình 7: Ảnh mẫu có cấu trúc vật lý phức tạp............................................................16
Hình 8: Kết quả ra hai vùng ảnh với ảnh mẫu 11......................................................16
Hình 9: Mẫu ảnh có cấu trúc vật lý phức tạp, nhưng các khối bao bởi hình chữ nhật
.....................................................................................................................................17
Hình 10: Kết quả phân tích với ảnh 13......................................................................18
Hình 11: Đầu ra phân vùng chỉ có 1 vùng văn bản....................................................19
Hình 12: Đầu ra có vùng chứa cả ảnh và text............................................................19
Hình 13: Với ảnh 13 đạt hiệu quả 90%......................................................................20
Hình 14 Với ảnh I-15 hiệu quả đạt 100%..................................................................21

Hình 35: Kết quả phân tích của FS trên một trang quảng cáo...................................71
Hình 36: Kết quả phân tích của FS trên tài liệu đơn giản..........................................72

iv

GVHD: PGS. TS. Ngô Quốc Tạo


Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy

MỞ ĐẦU
I. Đặt vấn đề
Ngày nay việc sử dụng máy tính để lưu trữ tài liệu không còn là vấn đề mới
mẻ và cần phải chứng minh tính an toàn, thuận tiện của nó. Tuy nhiên việc sử dụng
giấy để lưu trữ tài liệu trong một số mục đích vẫn không thể thay thế được (như
báo, sách, công văn,…). Hơn nữa lượng tài liệu được tạo ra từ nhiều năm trước vẫn
còn rất nhiều mà không thể bỏ đi được vì tính quan trọng của chúng.
Chúng ta mong muốn có thể điện tử hóa hàng tỉ trang tài liệu đó và cất chúng
chỉ trong một ổ cứng kích thước bằng một cuốn sách nhỏ, tìm kiếm thông tin mà chỉ
cần tốn vài giây với một cái gõ phím Enter. Giải pháp là gì?
Thông thường người ta sẽ phải thuê người cùng với việc tốn hàng tháng,
hàng năm mới có thể nhập vào máy tính được hết lượng tài liệu đó. Hiện nay chúng
ta đã có các máy Scan với tốc độ cao, công nghệ xử lý của máy tính ngày càng siêu
việt với tốc độ tính toán vượt cả tốc độ ánh sáng, vậy tại sao chúng ta không quét
toàn bộ các trang tài liệu vào và chuyển chúng thành văn bản một cách tự động?
Bằng cách đó tốc độ và tính chính xác sẽ tăng hàng trăm lần trong khi chi phí
lại là cực tiểu. Vấn đề là khi quét vào máy tính chúng ta không thu được ngay các
dòng văn bản từ các trang tài liệu kia, để có thể soạn thảo, sửa chữa và tìm kiếm
như làm trên Office. Tất cả những gì thu được chỉ là các tấm ảnh của các trang văn
bản, máy tính lại đối xử công bằng như nhau với mọi điểm ảnh, máy tính không có

nào, các từ trong câu phải như thế nào để câu có nghĩa. Từ đó có nội
dung đúng để lưu trữ, quản lý….
Trong thực tế không phải quá trình nhận dạng nào cũng chỉ trải qua hai bước
như trên, bởi vì có rất nhiều tham số ảnh hưởng đến kết quả của các chương trình
nhận dạng, như nhiễu, Font chữ, kích thước chữ, kiểu chữ nghiêng, đậm, gạch dưới.
Ngoài ra các dòng chữ cũng có thể trộn lẫn với các đối tượng đồ họa, vì thế trước
khi nhận dạng chữ, một số thao tác tiền xử lý sẽ được tác động lên ảnh như, lọc
nhiễu, chỉnh góc nghiêng và đặc biệt quan trọng là phân tích trang tài liệu để xác
định cấu trúc của trang văn bản đồng thời tách biệt hai thành phần là chữ và các đối
tượng đồ họa (phi chữ).
II. Nội dung nghiên cứu
1. Mục tiêu nghiên cứu chính của đềtài
• Tìm hiểu cấu trúc trang tài liệu (cấu trúc vật lý, logic)?
• Tìm hiểu một số kỹ thuật phân tích trang tài liệu (phân vùng, phân đoạn,
…)
• Cài đặt thử nghiệm một giải pháp phân tích có hiệu quả cao so với các
phương pháp truyền thống như top-down hay bottom-up trên ảnh vào là
ảnh đa cấp xám có cấu trúc phức tạp.
• Từ kết quả nghiên cứu có một sự chuẩn bị kiến thức đẩy đủ cho bước
nghiên cứu tiếp theo là nhận dạng ký tự quang.
2. Ý nghĩa khoa học của đềtài
• Giải quyết được vấn đề về học thuật: đề tài sẽ mang ý nghĩa cung cấp về
mặt lý thuyết để làm rõ về các phương pháp phân tích trang tài liệu.
2

GVHD: PGS. TS. Ngô Quốc Tạo


Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy


• Báo cáo lý thuyết
• Chương trình Demo.
3

GVHD: PGS. TS. Ngô Quốc Tạo


Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy

III. Bố cục của luận văn
Nội dung của luận văn được trình bày trong ba chương với nội dung chính
sau.
Chương 1: Trình bày các khái niệm và mô hình tổng quát của hệ thống nhận dạng
chữ viết, cùng với một số phần mềm nhận dạng tiêu biểu hiện nay.
Chương 2: Trình bày một số phương pháp phân tích trang tài liệu, từ đó đánh giá
ưu nhược điểm để lựa chọn phương pháp Fractal Signature cho chương trình thử
nghiệm. Trình bày về thiết kế cho chương trình demo.
Chương 3: Trình bày chi tiết về việc cài đặt chương trình cũng như các thủ tục sử
dụng trong chương trình với phương pháp phân tích Fractal Signature và ảnh đầu
vào là ảnh đa cấp xám có độ phức tạp cao.

4

GVHD: PGS. TS. Ngô Quốc Tạo


Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy

Chương I. TỔNG QUAN VỀ NHẬN DẠNG CHỮ VIẾT
VÀ PHÂN TÍCH TRANG TÀI LIỆU

Hình 2: Ví dụ ảnh tài liệu

I.1.2. Nhận dạng tài liệu và vai trò của phân tích ảnh tài liệu
Ngày nay, máy tính đang phát triển mạnh mẽ, tốc độ xử lý không ngừng
được nâng lên. Cùng với nó là sự ra đời của các phần mềm thông minh đã khiến
máy tính ngày một gần gũi với con người hơn. Một trong các khả năng tuyệt vời
của con người mà các nhà khoa học máy tính muốn đạt được đó là khả năng nhận
dạng và lĩnh vực nhận dạng thu được nhiều thành công nhất là nhận dạng ký tự
quang OCR–Optical Character Recognition. OCR có thể được hiểu là quá trình
chuyển đổi tài liệu dưới dạng file ảnh số hoá (là dạng chỉ có người đọc được) thành
tài liệu dưới dạng file văn bản (là tài liệu mà cả người và máy đều có thể đọc được).
OCR có rất nhiều ứng dụng hữu ích trong cuộc sống như:
-

Sắp xếp thư tín, dựa vào việc nhận dạng mã bưu chính (Zipcode) hay địa
chỉ gửi tới.

-

Tự động thu thập dữ liệu từ các mẫu đơn/báo biểu hay từ các hồ sơ lao
động.

-

Hệ thống tự động kiểm tra trong ngân hàng (tự động xác nhận chữ ký)

-

Tự động xử lý các hóa đơn hay các yêu cầu thanh toán


Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy

-

OCR hardware/software:
o Document analysis: Phân tích tài liệu
o Character recognition: Nhận dạng ký tự
o Contexttual processor: Xử lý văn cảnh

-

Output interface: Đầu ra

 Như vậy vai trò chính của khâu phân tích ảnh tài liệu là việc phân đoạn trang,
tách vùng văn bản ra khỏi nền và đồ họa tạo mẫu chuẩn cho khâu nhận dạng. Rõ
dàng là kết quả của khâu phân tích này ảnh hưởng rất lớn đến hiệu của của khâu
nhận dạng nếu sử dụng mẫu hay các chuỗi văn bản đầu ra của nó.

Hình 1: Sơ đồ OCR cơ bản

I.2. Cấu trúc của ảnh tài liệu
Một khái niệm mấu chốt trong xử lý tài liệu đó là cấu trúc của tài liệu. Cấu
trúc tài liệu thu được từ việc liên tiếp chia nhỏ nội dung của tài liệu thành các phần
nhỏ đơn vị (tức không thể phân chia được nữa) và chúng được gọi là các đối tượng
cơ sở (basic objects). Còn tất cả các đối tượng khác được gọi là các đối tượng hỗn
hợp.

7

GVHD: PGS. TS. Ngô Quốc Tạo

Bottom-up: Ý tưởng chính của các thuật toán loại này là bắt đầu từ những
phần tử nhỏ nhất (như từ các pixel hay các phần tử liên thông) sau đó liên
tục nhóm chúng lại thành các vùng lớn hơn.

-

Top-down: Thuật toán này bắt đầu từ vùng lớn nhất chứa cả trang tài liệu
sau đó liên tục phân chia thành các vùng nhỏ hơn.

-

Các thuật toán không theo thứ bậc: như Fractal Signature, Adaptive splitand-merge …

8

GVHD: PGS. TS. Ngô Quốc Tạo


Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy

Hình 4: b-Cấu trúc vật lý: c,d-Cấu trúc logic của một tài liệu[4]

9

GVHD: PGS. TS. Ngô Quốc Tạo


Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
I.2.2. Cấu trúc logic
Ngoài bố cục vật lý, các trang tài liệu còn chứa đựng nhiều thông tin về ngữ cảnh



Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy

Hình 3: Sơ đồ nguyên lý hệ thống xử lý tài liệu[6]

I.3.1. Tiền xử lý(preprocessing):
Hầu hết các ảnh tài liệu đều có nhiễu do quá trình thu nhận ảnh gây ra (môi
trường, chất lượng máy quét), vì thế trong quá trình xây dựng các thuật toán phân tích
cần loại bỏ các nhiễu này và công việc này thường được tiến hành trước khi bắt đầu phân
tích bố cục hay cấu trúc và gọi là Tiền xử lý. Nhiệm vụ chính của bước này là loại bỏ
nhiễu, tách nền ra khỏi nội dung, phát hiện và xoay góc nghiêng,…
 Lọc nhiễu(noise removal):
Nhiễu luôn là một vấn đề trong hầu hết các bài toán đọc hiểu tài liệu. Nhiễu sinh
ra không chỉ do quá trình scan ảnh mà còn bao gồm cả các nhiễu trắng gây ra từ chính
sensor hay các mạch thu nhận trong các máy thu nhận ảnh số. Nhiễu có thể được loại bớt
sử dụng một số các kỹ thuật như lọc trung bình, lọc trung vị, lọc thông thấp,…
 Tách nền (Background separation):
Đây là một vấn đề rất quan trọng ảnh hưởng trực tiếp đến hiệu quả của các thuật
toán phân tích tài liệu. Nếu đối với các loại tài liệu có nền đồng nhất màu trắng hoặc đen
thì việc tách có thể thực hiện đơn giản bằng phép phân ngưỡng, tuy nhiên trong thực tế
rất nhiều ảnh tài liệu có nền rất phức tạp như ảnh hay đồ họa (Hình 7) thì việc xác định
các pixell nào thực sự thuộc về “phần nổi” là một công việc khó khăn.
Ta có thể tách nền bằng một số kỹ thuật như sau:
-

Gán mỗi điểm ảnh vào “phần nổi” hay phần nền dựa theo một tiêu chí nào đấy
(như ngưỡng mức xám, …)

-

Có một số phương pháp phân tích và được phân ra làm hai loại như sau:
 Các phương thức có thứ bậc: Trong quá trình chia tài liệu thành các block
chúng ta quan tâm đến mối quan hệ về mặt hình học giữa các block. Có ba
phương pháp thuộc loại này là:
o Phân tích top-down (trên xuống)
o Phân tích buttom-up (dưới lên)
o Phân tích kiểu Adaptive split-and-merge (tách và nối thích nghi)
 Các phương pháp không có thứ bậc: Trong quá trình chia tài liệu thành các
khối chúng ta không quan tâm đến mối quan hệ hình học giữa các block.
12

GVHD: PGS. TS. Ngô Quốc Tạo


Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy

Hình 5: Ví dụ một ảnh tài liệu bị nghiêng một góc 5 độ

I.3.3. Phân tích cấu trúc logic
Từ kết quả của pha phân tích cấu trúc vật lý, phân tích cấu trúc logic sẽ đi xác
định mối quan hệ logic giữa các vùng đã được gắn nhãn như tiêu đề, văn bản, đề mục,
hearder,… Bước này là cơ sở cho việc nhận dạng ký tự.
-

Việc xác định được vị trí chính xác của mỗi vùng trong cấu trúc logic sẽ tăng
thêm thông tin cho quá trình nhận dạng như thông tin về ngữ cảnh, đoán nhận
được kiểu font và kích thước chữ nếu biết nó thuộc vùng tiêu đề, đề mục hay
trong đoạn văn,… (Hình 9)

13

thông tin. VnDOCR thu thập thông tin nhờ quá trình quét các loại sách báo thông qua
máy quét thành các tệp ảnh và chuyển đổi thành các tệp có định dạng *.doc, *.xls, *.txt,
*.rtf,... có thể đọc và chỉnh sửa được trên các phần mềm soạn thảo văn bản thông dụng
như Office, Wordpad,… (Hình 10)
Môi trường
 PC với hệ điều hành Windows 9x, ME, 2000, XP, NT,… Tiện ích: Bộ gõ chữ Việt,
bộ font ABC, VNI, Unicode,...
Thông tin đưa vào
 Quét trực tiếp các loại sách báo, văn bản qua máy quét (Scanner).
 Đọc và xử lý hơn 30 dạng tệp tin ảnh phổ dụng nhất như PCX, BMP, TIF, GIF,
JPG, ...
 Có thể nhận dạng trực tiếp tài liệu quét qua Scanner không cần lưu trữ dưới dạng tệp
ảnh trung gian. Các trang tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều
trang.
Các chức năng chính:
-

Phân tích cấu trúc vật lý của tài liệu và đưa ra cấu trúc phần vùng

-

Phân tích và nhận dạng chữ đầu ra là text có thể copy hay lưu trữ và soạn thảo
lại được.
14

GVHD: PGS. TS. Ngô Quốc Tạo


Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy



Kết quả phân tích của VnDOCR không tim thấy vùng văn bản nào mà chỉ
khoanh vùng được 2 vùng ảnh (1,2) như Hình 12

Hình 8: Kết quả ra hai vùng ảnh với ảnh mẫu 11

16

GVHD: PGS. TS. Ngô Quốc Tạo


Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Thí nghiệm 2:
Với ảnh đầu vào có cấu trúc vật lý đơn giản hơn (các vùng cơ sở có bao là hình
chữ nhật – Hình 13).

Hình 9: Mẫu ảnh có cấu trúc vật lý phức tạp, nhưng các khối bao bởi hình chữ nhật

Kết quả phân tích bởi VnDOCR bỏ sót một vùng văn bản và gồm nhầm 2 vùng
ảnh vào vùng văn bản số 1 (Hình 14).

17

GVHD: PGS. TS. Ngô Quốc Tạo


Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy

Hình 10: Kết quả phân tích với ảnh 13


2

Nguồn từ nhà sảnh xuất />
18

GVHD: PGS. TS. Ngô Quốc Tạo


Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy

Hình 11: Đầu ra phân vùng chỉ có 1 vùng văn bản
Vùng lỗi

Hình 12: Đầu ra có vùng chứa cả ảnh và text

19

GVHD: PGS. TS. Ngô Quốc Tạo


Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
I.4.3. Finereader
Finereader là một sản phẩm ORC của ABBYY với một số tính năng chính sau 3:
-

Cho phép kết nối và nhận dạng ảnh trực tiếp từ Camera.

-

Nhận dạng được 38 ngôn ngữ khác nhau.




Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status