phương pháp truyền thống như top-down hay bottom-up trên ảnh vào là ảnh đa cấp xám có cấu trúc phức tạp - Pdf 33

Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
i GVHD: PGS. TS. Ngô Quốc Tạo

Mục lục
Mục lục ........................................................................................................................ i
Danh mục các hình ảnh .............................................................................................. iv
MỞ ĐẦU .................................................................................................................... 1
I. Đặt vấn đề ........................................................................................................ 1
II. Nội dung nghiên cứu ....................................................................................... 2
III. Bố cục của luận văn ....................................................................................... 4
Chƣơng I. TỔNG QUAN VỀ NHẬN DẠNG CHỮ VIẾT ........................................... 5
VÀ PHÂN TÍCH TRANG TÀI LIỆU ......................................................................... 5
I.1. Ảnh tài liệu và nhận dạng ảnh tài liệu ............................................................ 5
I.1.1. Tổng quan về ảnh tài liệu ........................................................................ 5
I.1.2. Nhận dạng tài liệu và vai trò của phân tích ảnh tài liệu ........................... 6
I.2. Cấu trúc của ảnh tài liệu ................................................................................ 7
I.2.1. Cấu trúc vật lý ........................................................................................ 8
I.2.2. Cấu trúc logic ....................................................................................... 10
I.3. Quá trình phân tích tài liệu .......................................................................... 10
I.3.1. Tiền xử lý(preprocessing): .................................................................... 11
I.3.2. Phân tích cấu trúc vật lý ........................................................................ 12
I.3.3. Phân tích cấu trúc logic ......................................................................... 13
I.4. Một số hệ thống phân tích tài liệu hiện nay .................................................. 14
I.4.1. VnDOCR .............................................................................................. 14
I.4.2. OminiPage ............................................................................................ 18
I.4.3. Finereader ............................................................................................. 20
I.5. Kết luận ....................................................................................................... 22
Chƣơng II: CÁC PHƢƠNG PHÁP TIẾP CẬN ......................................................... 23
ĐỂ PHÂN TÍCH TRANG TÀI LIỆU ........................................................................ 23
II.1. Các phƣơng pháp phân tích định dạng trang tài liệu ................................... 23

Phục Lục ................................................................................................................... 85
A. Mã nguồn đầy đủ của chƣơng trình ............................................................... 85
A.1. Danh mục các chƣơng trình con trong chƣơng trình ............................... 85
A.2. Sơ khối liên kết giữa các thủ tục trong chƣơng trình............................... 86
Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iii GVHD: PGS. TS. Ngô Quốc Tạo

A.3. Mã nguồn các module ............................................................................ 86
Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iv GVHD: PGS. TS. Ngô Quốc Tạo Danh mục các hình ảnh
Hình 1: Sơ đồ tổng quan quá trình tạo ảnh tài liệu ................................................... 5
Hình 2: Ví dụ ảnh tài liệu ........................................................................................ 6
Hình 3: Sơ đồ OCR cơ bản ...................................................................................... 7
Hình 4: b-Cấu trúc vật lý: c,d-Cấu trúc logic của một tài liệu[4] .............................. 9
Hình 5: Ví dụ loại tài liệu có bố cục phức tap ........................................................ 10
Hình 6: Sơ đồ nguyên lý hệ thống xử lý tài liệu[6] ................................................ 11
Hình 7: a - Ảnh gốc b - Ảnh sau khi tách nền ........................................................ 12
Hình 8: Ví dụ một ảnh tài liệu bị nghiêng một góc 5 độ ......................................... 13
Hình 9: Ví dụ một cây mô tả cấu trúc logic của một trang tài liệu[5] ..................... 14
Hình 10: VnDOCR và một ví dụ nhận dạng .......................................................... 15
Hình 11: Ảnh mẫu có cấu trúc vật lý phức tạp ....................................................... 16
Hình 12: Kết quả ra hai vùng ảnh với ảnh mẫu 11 ................................................. 16
Hình 13: Mẫu ảnh có cấu trúc vật lý phức tạp, nhƣng các khối bao bởi hình chữ nhật
.............................................................................................................................. 17
Hình 14: Kết quả phân tích với ảnh 13................................................................... 18

Hình 36: : Kết quả phân tích của top-down trên tài liệu thuần văn bản................... 67
Hình 37: : Kết quả phân tích của top-down trên tài liệu có cấu trúc phức tạp (trang
tạp trí).................................................................................................................... 69
Hình 38 : Kết quả phân tích của top-down trên một tờ quảng cáo .......................... 71
Hình 39: Kết quả phân tích của top-down trên tài liệu có cấu trúc phức tạp ........... 73
Hình 40: Kết quả phân tích của top-down trên tài liệu bị nghiêng......................... 75
Hình 41: Kết quả phân tích của FS trên tài liệu bị nghiêng .................................... 77
Hình 42: Kết quả phân tích của FS trên tài có cấu trúc phức tạp ............................ 79
Hình 43: Kết quả phân tích của FS trên một trang quảng cáo ................................. 81
Hình 44: Kết quả phân tích của FS trên tài liệu đơn giản ....................................... 82
Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
1 GVHD: PGS. TS. Ngô Quốc Tạo

MỞ ĐẦU
I. Đặt vấn đề
Ngày nay việc sử dụng máy tính để lƣu trữ tài liệu không còn là vấn đề mới
mẻ và cần phải chứng minh tính an toàn, thuận tiện của nó. Tuy nhiên việc sử dụng
giấy để lƣu trữ tài liệu trong một số mục đích vẫn không thể thay thế đƣợc (nhƣ
báo, sách, công văn,…). Hơn nữa lƣợng tài liệu đƣợc tạo ra từ nhiều năm trƣớc vẫn
còn rất nhiều mà không thể bỏ đi đƣợc vì tính quan trọng của chúng.
Chúng ta mong muốn có thể điện tử hóa hàng tỉ trang tài liệu đó và cất chúng
chỉ trong một ổ cứng kích thƣớc bằng một cuốn sách nhỏ, tìm kiếm thông tin mà chỉ
cần tốn vài giây với một cái gõ phím Enter. Giải pháp là gì?
Thông thƣờng ngƣời ta sẽ phải thuê ngƣời cùng với việc tốn hàng tháng,
hàng năm mới có thể nhập vào máy tính đƣợc hết lƣợng tài liệu đó. Hiện nay chúng
ta đã có các máy Scan với tốc độ cao, công nghệ xử lý của máy tính ngày càng siêu
việt với tốc độ tính toán vƣợt cả tốc độ ánh sáng, vậy tại sao chúng ta không quét
toàn bộ các trang tài liệu vào và chuyển chúng thành văn bản một cách tự động?
Bằng cách đó tốc độ và tính chính xác sẽ tăng hàng trăm lần trong khi chi phí

tự, dùng trí tuệ nhân tạo để dự đoán các ký tự kề nhau phải nhƣ thế
nào, các từ trong câu phải nhƣ thế nào để câu có nghĩa. Từ đó có nội
dung đúng để lƣu trữ, quản lý….
Trong thực tế không phải quá trình nhận dạng nào cũng chỉ trải qua hai bƣớc
nhƣ trên, bởi vì có rất nhiều tham số ảnh hƣởng đến kết quả của các chƣơng trình
nhận dạng, nhƣ nhiễu, Font chữ, kích thƣớc chữ, kiểu chữ nghiêng, đậm, gạch dƣới.
Ngoài ra các dòng chữ cũng có thể trộn lẫn với các đối tƣợng đồ họa, vì thế trƣớc
khi nhận dạng chữ, một số thao tác tiền xử lý sẽ đƣợc tác động lên ảnh nhƣ, lọc
nhiễu, chỉnh góc nghiêng và đặc biệt quan trọng là phân tích trang tài liệu để xác
định cấu trúc của trang văn bản đồng thời tách biệt hai thành phần là chữ và các đối
tƣợng đồ họa (phi chữ).
II. Nội dung nghiên cứu
1. Mục tiêu nghiên cứu chính của đề tài
 Tìm hiểu cấu trúc trang tài liệu (cấu trúc vật lý, logic)?
 Tìm hiểu một số kỹ thuật phân tích trang tài liệu (phân vùng, phân
đoạn,…)
 Cài đặt thử nghiệm một giải pháp phân tích có hiệu quả cao so với các
phƣơng pháp truyền thống nhƣ top-down hay bottom-up trên ảnh vào là
ảnh đa cấp xám có cấu trúc phức tạp.
 Từ kết quả nghiên cứu có một sự chuẩn bị kiến thức đẩy đủ cho bƣớc
nghiên cứu tiếp theo là nhận dạng ký tự quang.
Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3 GVHD: PGS. TS. Ngô Quốc Tạo

2. Ý nghĩa khoa học của đề tài
 Giải quyết đƣợc vấn đề về học thuật: đề tài sẽ mang ý nghĩa cung cấp về
mặt lý thuyết để làm rõ về các phƣơng pháp phân tích trang tài liệu.
 Đáp ứng đƣợc yêu cầu của thực tiễn: từ các lý thuyết đã đƣợc nghiên cứu,
từ đó liên hệ và gắn vào thực tiễn để có thể áp dụng vào các lĩnh vực

 Tìm hiểu tài liệu liên quan đến lĩnh vực quan tâm để nắm bắt đƣợc bản
chất vấn đề đặt ra.
 Báo cáo lý thuyết
 Chƣơng trình Demo.
III. Bố cục của luận văn
Nội dung của luận văn đƣợc trình bày trong ba chƣơng với nội dung chính
sau.
Chƣơng 1: Trình bày các khái niệm và mô hình tổng quát của hệ thống nhận dạng
chữ viết, cùng với một số phần mềm nhận dạng tiêu biểu hiện nay.
Chƣơng 2: Trình bày một số phƣơng pháp phân tích trang tài liệu, từ đó đánh giá
ƣu nhƣợc điểm để lựa chọn phƣơng pháp Fractal Signature cho chƣơng trình thử
nghiệm. Trình bày về thiết kế cho chƣơng trình demo.
Chƣơng 3: Trình bày chi tiết về việc cài đặt chƣơng trình cũng nhƣ các thủ tục sử
dụng trong chƣơng trình với phƣơng pháp phân tích Fractal Signature và ảnh đầu
vào là ảnh đa cấp xám có độ phức tạp cao.
Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
5 GVHD: PGS. TS. Ngô Quốc Tạo Chƣơng I. TỔNG QUAN VỀ NHẬN DẠNG CHỮ VIẾT
VÀ PHÂN TÍCH TRANG TÀI LIỆU
Chƣơng này đƣa ra các khái niệm về đối tƣợng làm việc của đề tài là ảnh tài
liệu, khái niệm về cấu trúc vật lý và cấu trúc logic. Giới thiệu các khâu trong một hệ
thống nhận dạng chữ viết hoàn chỉnh. Đồng thời đƣa ra một số phần mềm nhận
dạng của Việt Nam và Thế giới cùng với các mẫu kết quả phân tích của nó nhàm
mục đích so sánh và xác định phạm vi cho đề tài.
I.1. Ảnh tài liệu và nhận dạng ảnh tài liệu
I.1.1. Tổng quan về ảnh tài liệu
Trang ảnh tài liệu đƣợc đề cập ở đây là các file ảnh số hoá thu đƣợc bằng

tài liệu dƣới dạng file văn bản (là tài liệu mà cả ngƣời và máy đều có thể đọc đƣợc).
OCR có rất nhiều ứng dụng hữu ích trong cuộc sống nhƣ:
- Sắp xếp thƣ tín, dựa vào việc nhận dạng mã bƣu chính (Zipcode) hay địa
chỉ gửi tới.
- Tự động thu thập dữ liệu từ các mẫu đơn/báo biểu hay từ các hồ sơ lao
động.
- Hệ thống tự động kiểm tra trong ngân hàng (tự động xác nhận chữ ký)
- Tự động xử lý các hóa đơn hay các yêu cầu thanh toán
- Hệ thống tự động đọc và kiểm tra passport
- Tự động phục hồi và copy tài liệu từ các ảnh quét.
- Máy đọc cho những ngƣời khiếm thính
- Các ứng dụng Datamining
- …
Sơ đồ một hệ thống OCR cơ bản ở Hình 3.
Trong đó:
Hình 2: Ví dụ ảnh tài liệu
Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
7 GVHD: PGS. TS. Ngô Quốc Tạo

- Scanner: Thiết bị quét ảnh
- OCR hardware/software:
o Document analysis: Phân tích tài liệu
o Character recognition: Nhận dạng ký tự
o Contexttual processor: Xử lý văn cảnh
- Output interface: Đầu ra
 Nhƣ vậy vai trò chính của khâu phân tích ảnh tài liệu là việc phân đoạn trang,
tách vùng văn bản ra khỏi nền và đồ họa tạo mẫu chuẩn cho khâu nhận dạng. Rõ
dàng là kết quả của khâu phân tích này ảnh hƣởng rất lớn đến hiệu của của khâu
nhận dạng nếu sử dụng mẫu hay các chuỗi văn bản đầu ra của nó.

hoặc nhiều block hoặc bao gồm các frame.
 Page là đối tƣợng hình học hoặc hỗn hợp các thành phần cơ sở tƣơng ứng với
một vùng hình chữ nhật, nếu là đối tƣợng hỗn hợp nó chứa một hoặc nhiều
block, một hoặc nhiều frame.
 Page set (tập trang) là một tập của một hoặc nhiều page.
 Điểm gốc của cấu trúc (hay nút gốc) là một đối tƣợng ở mức cao nhất trong sơ
đồ phân cấp của cấu trúc hình học tài liệu. Hình 4(b) cho ví dụ một cấu trúc hình
học mô tả bố cục vật lý của trang tài liệu tƣơng ứng.
Các thuật toán phân tích bố cục tài liệu có thể đƣợc chia làm ba loại chính
dựa theo phƣơng pháp thực hiện của nó.
- Bottom-up: Ý tƣởng chính của các thuật toán loại này là bắt đầu từ những
phần tử nhỏ nhất (nhƣ từ các pixel hay các phần tử liên thông) sau đó liên
tục nhóm chúng lại thành các vùng lớn hơn.
- Top-down: Thuật toán này bắt đầu từ vùng lớn nhất chứa cả trang tài liệu
sau đó liên tục phân chia thành các vùng nhỏ hơn.
- Các thuật toán không theo thứ bậc: nhƣ Fractal Signature, Adaptive split-
and-merge …
Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
9 GVHD: PGS. TS. Ngô Quốc Tạo Hình 4: b-Cấu trúc vật lý: c,d-Cấu trúc logic của một tài liệu[4]
Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
10 GVHD: PGS. TS. Ngô Quốc Tạo

I.2.2. Cấu trúc logic
Ngoài bố cục vật lý, các trang tài liệu còn chứa đựng nhiều thông tin về ngữ cảnh
và nội dung nhƣ các tiêu đề, đoạn văn, đề mục, …và mỗi vùng nội dung này lại đƣợc gán

Hình 6: Sơ đồ nguyên lý hệ thống xử lý tài liệu[6]
I.3.1. Tiền xử lý(preprocessing):
Hầu hết các ảnh tài liệu đều có nhiễu do quá trình thu nhận ảnh gây ra (môi
trƣờng, chất lƣợng máy quét), vì thế trong quá trình xây dựng các thuật toán phân tích
cần loại bỏ các nhiễu này và công việc này thƣờng đƣợc tiến hành trƣớc khi bắt đầu phân
tích bố cục hay cấu trúc và gọi là Tiền xử lý. Nhiệm vụ chính của bƣớc này là loại bỏ
nhiễu, tách nền ra khỏi nội dung, phát hiện và xoay góc nghiêng,…
 Lọc nhiễu(noise removal):
Nhiễu luôn là một vấn đề trong hầu hết các bài toán đọc hiểu tài liệu. Nhiễu sinh
ra không chỉ do quá trình scan ảnh mà còn bao gồm cả các nhiễu trắng gây ra từ chính
sensor hay các mạch thu nhận trong các máy thu nhận ảnh số. Nhiễu có thể đƣợc loại bớt
sử dụng một số các kỹ thuật nhƣ lọc trung bình, lọc trung vị, lọc thông thấp,…
 Tách nền (Background separation):
Đây là một vấn đề rất quan trọng ảnh hƣởng trực tiếp đến hiệu quả của các thuật
toán phân tích tài liệu. Nếu đối với các loại tài liệu có nền đồng nhất màu trắng hoặc đen
thì việc tách có thể thực hiện đơn giản bằng phép phân ngƣỡng, tuy nhiên trong thực tế
rất nhiều ảnh tài liệu có nền rất phức tạp nhƣ ảnh hay đồ họa (Hình 7) thì việc xác định
các pixell nào thực sự thuộc về “phần nổi” là một công việc khó khăn.
Ta có thể tách nền bằng một số kỹ thuật nhƣ sau:
- Gán mỗi điểm ảnh vào “phần nổi” hay phần nền dựa theo một tiêu chí nào đấy
(nhƣ ngƣỡng mức xám, …)
Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
12 GVHD: PGS. TS. Ngô Quốc Tạo

- Dựa theo độ đo xác suất xuất hiện của mỗi điểm ảnh mà phân lớp nó vào nền
hay phần nổi
- Dựa vào các pixel liên thông kết hợp với mạng noron để phân tách.

Hình 7: a - Ảnh gốc b - Ảnh sau khi tách nền
Hình 8: Ví dụ một ảnh tài liệu bị nghiêng một góc 5 độ

I.3.3. Phân tích cấu trúc logic
Từ kết quả của pha phân tích cấu trúc vật lý, phân tích cấu trúc logic sẽ đi xác
định mối quan hệ logic giữa các vùng đã đƣợc gắn nhãn nhƣ tiêu đề, văn bản, đề mục,
hearder,… Bƣớc này là cơ sở cho việc nhận dạng ký tự.
- Việc xác định đƣợc vị trí chính xác của mỗi vùng trong cấu trúc logic sẽ tăng
thêm thông tin cho quá trình nhận dạng nhƣ thông tin về ngữ cảnh, đoán nhận
đƣợc kiểu font và kích thƣớc chữ nếu biết nó thuộc vùng tiêu đề, đề mục hay
trong đoạn văn,… (Hình 9)

Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
14 GVHD: PGS. TS. Ngô Quốc Tạo

I.4. Một số hệ thống phân tích tài liệu hiện nay
I.4.1. VnDOCR
Vndocr phần mềm nhận dạng tiếng Việt là một sản phẩm của Viện công Nghệ
thông tin. VnDOCR thu thập thông tin nhờ quá trình quét các loại sách báo thông qua
máy quét thành các tệp ảnh và chuyển đổi thành các tệp có định dạng *.doc, *.xls, *.txt,
*.rtf,... có thể đọc và chỉnh sửa đƣợc trên các phần mềm soạn thảo văn bản thông dụng
nhƣ Office, Wordpad,… (Hình 10)
Môi trƣờng
 PC với hệ điều hành Windows 9x, ME, 2000, XP, NT,… Tiện ích: Bộ gõ chữ Việt,
bộ font ABC, VNI, Unicode,...

Một số hạn chế: Tính đến phiên bản 4.0
- VnDOCR chỉ làm việc với ảnh đen trắng
- Với các ảnh có cấu trúc vật lý phức tạp VnDOCR cho kết quả phân tích với
hiệu quả chƣa cao (Hinh 11, 12)

Thí nghiệm 1:
- Với ảnh đầu vào nhƣ sau:

1
Nguồn từ www.vndocr.com
Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
16 GVHD: PGS. TS. Ngô Quốc Tạo Hình 11: Ảnh mẫu có cấu trúc vật lý phức tạp
- Kết quả phân tích của VnDOCR không tim thấy vùng văn bản nào mà chỉ
khoanh vùng đƣợc 2 vùng ảnh (1,2) nhƣ Hình 12

Hình 12: Kết quả ra hai vùng ảnh với ảnh mẫu 11
Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
17 GVHD: PGS. TS. Ngô Quốc Tạo Thí nghiệm 2:
Với ảnh đầu vào có cấu trúc vật lý đơn giản hơn (các vùng cơ sở có bao là hình
chữ nhật – Hình 13).

Nguồn từ nhà sảnh xuất
Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
19 GVHD: PGS. TS. Ngô Quốc Tạo

Thí nghiệm 2: Với ảnh đầu vào 13, tƣơng tự nhƣ VnDOCR OmniPage vẫn phân vùng
sai (Hình 16)

Hình 15: Đầu ra phân vùng chỉ có 1 vùng văn bản

Vùng lỗi
Hình 16: Đầu ra có vùng chứa cả ảnh và text
Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
20 GVHD: PGS. TS. Ngô Quốc Tạo I.4.3. Finereader
Finereader là một sản phẩm ORC của ABBYY với một số tính năng chính sau
3
:
- Cho phép kết nối và nhận dạng ảnh trực tiếp từ Camera.
- Nhận dạng đƣợc 38 ngôn ngữ khác nhau.
- Nhận dạng cả text trong đồ họa.
- Với 2 mẫu văn bản có cấu trúc phức tạp nhƣ trên thì Finereader đều cho hiệu
quả cao, nói chung Fineread đều có hiệu quả cao với các tài liệu có bố cục
phức tạp. Hình 17: Với ảnh 13 đạt hiệu quả 90%

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

phương pháp truyền thống như top-down hay bottom-up trên ảnh vào là ảnh đa cấp xám có cấu trúc phức tạp - Pdf 33

Tài liệu, ebook tham khảo khác

Học thêm