NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU - Pdf 23



- 1 -

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

LẠI QUỐC ANH

NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM
VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01

TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2013 - 2 -
MỞ ĐẦU
Hiện nay công nghệ hiện đại đã giúp giảm tải quá trình xử lý,
lưu trữ, truyền tải hình ảnh tài liệu hiệu quả. Các công ty thường phát
triển hướng đến văn phòng không cầ n giấy tờ, một số lượng lớn các
tài liệu in được số hoá và lưu trữ như hình ảnh trong cơ sở dữ liệu.
Sự phổ biến, tầm quan trọng của hình ảnh tài liệu như nguồn thông
tin gốc. Hàng triệu tài liệu kỹ thuật số được truyền tải liên tục từ
điểm này đến điểm khác trên Internet. Định dạng phổ biến của các tài
liệu kỹ thuậ t số là văn bả n, trong đó các ký tự được mã hoá và máy
có thể hiểu được. Mặt khác, để thực hiện cho hàng tỷ tài liệu truyền
thống và di sản sẵn có dễ dàng tiếp cận trên Internet, chúng được
quét và chuyển đổi sang kỹ thuật số hoá hình ảnh bằng cách sử dụng
thiết bị số hóa. Mặc dù công nghệ xử lý hình ảnh tài liệu DIP có thể
được sử dụng để tự động chuyển đổi hình ảnh kỹ thuật số của các tài
liệu này về định dạng văn bản mà máy có thể đọc được, bằng cách sử
dụng công nghệ Nhận dạng ký tự quang học OCR, thường không
phải là một cách hiệu quả và thiết thực để xử lý một số lượng lớn các
tài liệu giấy.
Một lý do là các kỹ thuật phân tích cấu trúc trang trong xử lý
văn bản với các bố trí phức tạp chưa được hoàn thiện đầy đủ.
Một lý do khác là khả năng nhận dạng của công nghệ OCR
vẫn kém, đặc biệt là với hình ảnh tài liệu có chất lượng kém (giấy in
kém chất lượng, trang in sau bị hằn lên trang trước, tài liệu photo
kém, mực in kém, chữ mất nét, in chữ bị dính, ). Nhận dạng xong và
sửa chữ a kết quả OCR thường là không thể tránh khỏi trong hầu hết
các hệ thống DIP.
Kết quả, lưu trữ tài liệu ở định dạng hình ảnh truyền thống
và di sản sẵn có trở thành giải pháp thay thế trong nhiều trường hợp.
Ngày nay, chúng ta có thể tìm thấy trên Internet và rất nhiều các tài



!
Hình 1.1: Sơ đồ khối hệ thống duyệt từ khoá cho hình ảnh tài liệu.
1.2. So sánh và truy vấn từ các tài liệu thu thập
Nhiều thư viện kỹ thuật số hiện nay, hình ảnh tài liệu được
dùng phổ biến như là một nguồn thông tin. Do đó khi truy cập vào
Máy quét
ảnh, máy
ảnh,
Tài liệu,
Văn bản,
Fax,
Hình ảnh
Tài liệu,
Văn bản,
Fax,
Tiền xử lý ảnh
Trích chọn các
thành phần kết nố i
Trích chọn đặc trưng
Sử dụng các

các chuỗi đ ể lập chỉ mục liên quan đến rất nhiều bài toán về ký tự và
là nhân tố chính trong truy vấn hình ảnh tài liệu. Hình ảnh từ được
biểu diễn bởi một chuỗimẫu, kỹ thuật so sánh một phần hình ảnh từ
để đánh giá một hình ảnh từ liên quan đến hình ảnhtừ khác như thế
nào và quyết định liệu một từ có là một phần của từ khác.
Phương pháp xoắn thời gian động DTW sử dụng cho đối
sánh và truy vấn đối với hình ảnh tài liệu chữ viết tay. Thuật toán tìm
từ dựa trên DTW cho lập chỉ mục và truy vấn các tài liệu trực tuyến.
Đối sánh hình ảnh từ chữ viết tay sử dụng các đặc trưng mã hoá nhị - 7 -
phân gradient. Rút trích các đặc trưng nhị phân, độ đo tương tự dựa
trên sự tương quan đ ư ợc sử dụng cho các hình ảnh đối sánh từ.
Những khó khăn của việc đối sánh các ảnh từ của tài liệu in
ấn như sau:
- Ngôn ngữ: Mỗi ngôn ngữ có các quy ước riêng, phụ thuộc vào các
biến đổi hình thái của từ được tạo ra.
- Chấ t lư ợng in ấn: Tài liệu in ấn thường có chất lượng kém. Mẫu in
thực tế, từ thường bị mất nét, hay nét dầy thì từ dính nhau, hay có các
nhiễu dính xung quanh từ,
1.3. Những thách thức cho truy vấn thông tin từ hình ảnh
tài liệu chữ in
Hầu hết các sách in, tài liệu, tờ báo, lưu trữ tại các thư viện
số hoá đều có chất lượng kém, nhiều dạng in ấn, mẫu từ khác nhau.
Lập chỉ mục và truy vấn hình ảnh tài liệu có những thách thức lớn
trong các tình huống này.
1.3.1. Mô hình chất lượng trong tài liệu chữ in
Một số lỗi thường xuất hiện trong tài liệu in ấn như: mực in
tạo thành các đốm nhiễu tại các ký tự, mất nét chữ, dính chữ, chữ in

mỗi điểm ảnh với một giá trị số - kết quả của quá trình lượng hoá.
1.5. Một số kỹ thuật nâng cao chất lượng ảnh
1.5.1. Lọc nhiễu
- 9 -
1.5.1.1. Các loại nhiễu
Các tín hiệu nhiễu thường được chia thành các loại chính
như sau:
Nhiễu do thiết bị thu nhận ảnh là loại nhiễu gây ra do giới
hạn nhiễu xạ và quang sai của thấu kính, nhiễu do bộ phận cảm
quang, ảnh mờ nhòe do ống kính, nhiễu do rung động thiết bị trong
quá trình thu nhận.
Nhiễu ngẫu nhiên độc lập là các loại nhiễu gây ra do ảnh
hưởng của môi trường xung quanh, do ảnh hưởng của khí quyển.
Nhiễu do vật quan sát. Đây là nhiễu gây ra do bề mặt của bản
thân vật có độ nhám gồ ghề. Chính nhiễu này gây hiện tượng tán xạ
của các tia đơn sắc và sinh ra hiện tượng nhiễu lốm đốt.
1.5.1.2. Lọc nhiễu lốm đốm:
Mô hình quan sát có nhiễu lốm đốm như sau:
w
N
[m,n]= z[m,n] +η
N
[m,n] (1.1)
Trong công thức 1.5 thì η
N
[m,n] là nhiễu trắng dừ ng. Với
N≥2 thì ηN[m,n] có thể mô tả gắn với nhiễu ngẫu nhiên Gauusian

vấn từ dựa trên hình ảnh tài liệu. Giới thiệu sơ qua một số các
phương pháp trích chọn đặc trưng hình ảnh, đối sánh hình ảnh từ (N-
Gram, đối sánh đặc trưng chuỗi không chính xác, DTW).Các khái
niệm cơ sở xử lý ảnh. Các khái niệm về nâng cao chất lượng ảnh như
xoá nhiễu, hiệu chỉnh độ nghiêng của ảnh.
!
- 11 -
CHƯƠNG 2 - CÁC PHƯƠNG PHÁP TRÍCH
CHỌN ĐẶC TRƯNG TỪ HÌNH ẢNH TÀI LIỆU
Trích chọn đặc trưng là bài toán thu thập thông tin từ dữ liệu
thô, phù hợ p nhất cho một ứng dụng nhất định. Trích chọn đặc trưng
là trích chọn những thông tin hữu ích từ hình ảnh tài liệu. Bộ nhớ
được giảm tải chỉ cần lưu giữ thông tin cần thiết, tạo cho hệ thống trở
nên nhanh hơn và truy tìm tài liệu hiệu quả hơn. Khi một hoặc nhiều
đặc trưng được trích chọn sẽ được lưu trong cơ sở dữ liệu để sử dụng
cho công việc sau này. Số lượng thông tin hữu ích mà một máy tính
lấy ra từ hình ảnh là yếu tố rất quan trọng quyết định tính thông
minh, cũng như hiệu quả của hệ thống truy tìm hình ảnh. Nhiều đặc
trưng khác nhau đ ã được sử dụng trong xử lý ảnh và nhận dạng mẫu
(đại diện hình ảnh tài liệu). Thử nghiệm với các đặc trưng: cấu hình
từ, mô tả moment bất biến thống kê, biểu diễn miền biến đổi, sử
dụng phép chiếu ngang, biểu diễn đặc trưng của hình ảnh từ.
2.1. Cấu hình từ
Cung cấp biểu diễn thô của hình ảnh từ đối sánh. Phép chiế u,
chuyển vị, trên và thấ p hơn của cấu hình là các đặc trưng được xem
xét biểu diễn cho các hình ảnh từ.
2.2. Mô tả moment bất biến thống kê

), (2.1)
diff(Vi, Vj) là hàm tính toán khoảng cách giữa hai vector Vi và Vj.

Hình 2.1. (a) Ảnh gốc, (b) các đối tượng ký tự được nhận biết và
đánh dấu trong các hình hộp, (c) gắn các số lớp cho các đối tượng ký
tự, (d) tập hợ p tất cả các lớp đố i tượ ng được tìm thấ y trong ảnh gốc.
- 13 -
2.5. Mô tả chuỗi đặc trưng cho hình ảnh từ
Các đặc trưng được sử dụng biểu diễn cho hình ảnh từ
LRPS, chuỗi được mã hoá trình tự từ tận cùng bên trái đến ngoài
cùng bên phải của một từ. Đặc trưng dòng, mật độ ký tự được sử
dụng để trích chọn từ hình ảnh ban đầu. Một từ in trong các tài liệu
có các kích cỡ, phông chữ, khoảng cách khác nhau, sẽ được xem
xét khi trích chọn các đặc trưng.
2.5.1. Biểu diễn đặc trưng LRPS
Từ được phân tách một cách rõ ràng, từ tận cùng bên trái đến
ngoài cùng bên phải, thành các phần rời rạc. Mỗi phần ban đầu được
biểu diễn bằng các thuộc tính xác định. Một p ban đầu được mô tả
bằng cách sử dụng một bộ (𝜎, 𝜔), 𝜎 là các đ ặc trưng LTA ban đầu, 𝜔
là đặc trưng phần đầu, phần thấp của ký tự ADA. Kết quả, hình ảnh
từ được biểu diễn bởi dãy P tuần tự như sau:
P=<p
1
p
2
p
n

Tính LTA gồm 2 bước. Bước đầu tiên trích chọn các đặc
trưng đường nét thẳng của hình ảnh từ (Hình 2.2a). Bước này chỉ có
đường nét dọc, đường nét chéo được trích chọn. Sau đó, đặc trưng
đường ngang của phần còn lại được tính toán.
2.5.2.1. Đặc trưng đường nét thẳng
Phương pháp run-lenght-based sử dụng trích chọn đường nét
thẳng củ a hình ảnh từ. Sử dụng R(a,𝜃) biểu diễn cho một hướng
chạy, được định nghĩa là một tập hợp của các điểm ả nh kết nối màu
đen có chứa một điểm a, dọc theo hướng qui định 𝜃. 𝑅(𝑎, 𝜃) độ dài
khoảng chạy của R(a,!𝜃) , là số điểm điể m đen của khoảng chạ y.
2.5.2.2. Đặc trưng đường ngang
Để trích chọn các đặc trưng đường ngang, quét hình ảnh từ
cột theo cột, và số đư ờng ngang T
N
được ghi lại bằng cách đếm số
lượng quá trình chuyển đổi từ điểmảnh màuđen đến đ iểm ảnh màu
trắng, hoặc ngược lại, dọc theo mỗi cột.
2.5.3. Hậu xử lý
Để có thể để đối phó với các phông chữ khác nhau, chuỗi
gốc nên có kiểu chữ độc lập.Trong số các phông chữ khác nhau, sự
khác biệt đáng kể ảnh hưởng đến trích chọn của một LRPS được biểu - 15 -
diễn của font serif, đặc biệt là ở những phần thể hiện bởi các đặc
trưng đườ ng ngang.
2.6. Kết luận
Trong chương này đã giới thiệu các đặc trưng được trích
chọn trong hình ảnh tài liệu như: cấu hình từ, mô tả moment bất biến
thống kê, biểu diễn miền biến đổi, sử dụng phép chiếu ngang, mô tả

tuần tự:
G = G
1
, G
2
,…,G
M
, H = H
1
, H
2
,…H
N
. - 17 -
Giá trị trị DTW giữa hai dãy tuần tự là D(M,N), M, N là độ
dài của hai dãy tuần tự. Tính toán như sau:
D(i, j) = min
𝐷(𝑖 − 1, 𝑗 − 1)
𝐷(𝑖, 𝑗 − 1)
𝐷(𝑖 − 1, 𝑗)
+ 𝑑( 𝑖, 𝑗) (3.1)
d(i, j) là giá trị sắp xếp phần tử thứ i!∈G với phần tử thứ j!∈H.
Đường xoắn tối ưu (optimal warping path -OWP) là giá trị
nhỏ nhất trong các khoảng cách tối thiểu, trong số tấ t cả các đường
trong không gian đối sánh DTW, bắt đầu từ D(0, 0) đến D(M, N) với
độ dài L. Định nghĩa như sau:
OWP (G, H) =

!!!
!
!"
!
!
!!!
!
!"
!
!
!!!
(3.3)
X
m
, X
n
là các vectơ tài liệu của hình ảnh m và n, j là số chiều của mỗi
vectơ tài liệu và X
i
=x
i1
x
i2
x
iJ
. Như vậy văn bản tương tự trên ảnh
tương ứng với các đối tượng ký tự. Một n-gram sẽ là n đối tượng ký
tự liên tiếp được xác định dựa trên các trích chọn đặc trưng mô tả
ban đầu.
3.3. Phương pháp đối sánh đặc trưng không chính xác

0
𝑉(𝑖 − 1, 𝑗 − 1) ! + 𝜖(𝑎
!
, 𝑏
!
)
𝑉 𝑖 − 1, 𝑗 + 𝜇 𝑎
!
, −
𝑉(𝑖, 𝑗 − 1) + 𝑣(−, 𝑏
!
).
(3.5)
3. 4. Kết luận
Trong chương này đã giới thiệu các thuật toán tương ứng đối
với mỗi đ ặc trưng trích chọn tại chương 2 như: DTW, N-Gram, so
sánh đặc trưng không chính xác.

- 20 -
CHƯƠNG 4 - CHƯƠNG TRÌNH THỬ NGHIỆM
4.1. Môi trường cài đặt
- Hệ thống đề xuất được cài đặt với sự giúp đỡ của công cụ lập
trình Visual Studio 2010 và phát triển dựa trên
Microsoft.NET Framework 3.5.
- Ngôn ngữ lập trình là C#.
- Dữ liệu ảnh là 100 bức ảnh tham khảo từ trang
Sau đó, những bức ảnh này

Tiền xử lý ảnh
Rút trích các thành
phần kết nối
Trích chọn đặc trưng
Sử dụng các
phương pháp so
sánh hình ảnh từ
Đưa ra kết quả
Người
sử dụng
Đưa ra
từ khoá
Gắn cho
hình ảnh từ
Trích chọn
đặc trưng
Cơ sở
dữ liệu - 22 -
4.3. Giao diện chương trình

Hình 4. 1.Giao diện chương trình với phần cửa sổ nhập từ cần
truy vấn.

Hình 4. 2.Hiển thị kết quả các hình ảnh chứa từ cầm tìm kiếm. - 23 -

lượng của ảnh.
+ Tìm hiểu được một số thuật toán xử lý ảnh hay được
dùng trong bước tiền xử lý ả nh, căn chỉnh độ
nghiêng của trang văn bản, xoá nhiễu. Trên cở sở
hiểu biết đó có thể vận dụng được vào các bài toán
khác.
+ Tìm hiểu và tổng quát hoá các phương pháp trích
chọn đặc trưng hình ảnh tài liệu, cũng như nắm được
các phương pháp so sánh hình ảnh từ tương ứng. Từ
đó đưa ra được các giải pháp cho bài toán đặt ra
trong luận văn.
+ Đã áp dụng thành công các kiến thứ c tìm hiểu được
vào cài đặt thử nghiệm chương trình tìm kiếm văn
bản trong hình ảnh tài liệu. Kết quả của chươ ng trình
đạt đư ợc là tốt và có thể áp dụng vào thực tế. Đây là
bài toán khó, hiện nay chưa có giả i pháp nào khác - 25 -
được đưa gia để giải quyế t bài toán này. Đó là đóng
góp lớn nhất của luận văn.
Tuy nhiên, do thời gian làm luận văn hạn chế, trong khi khối
lượng công việc lớn nên còn nhiều vấn đề tồn tại chưa được giải
quyết:
+ Chương trình mới dừng lại ở bước thử nghiệm, chưa
phải là một chươ ng trình hoàn chỉnh, đầy đủ các tính
năng
Hướng phát triển tiếp theo là, tiếp tục nghiên cứu hoàn thiện
chương trình để có thể áp dụ ng vào thực tế. Mở rộng các tính năng
của chương trình (như thêm phần nhận dạng, ) để thành một chương


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status