tiểu luận Nghiên cứu các phương pháp tách văn bản nhúng trong ảnh - Pdf 26

MỤC LỤC
Tài liệu tham khảo 54
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Cụm từ, ký hiệu Ý nghĩa
TIE Text information extraction : Vấn đề tách thông tin về chữ
FI Foreground Identification : Xác định tiền cảnh
BAG
Blog Adjacency Graph : Đồ thị khối liền kề
OCR
Optical Character Recognization : Hệ thống nhận dạng ký tự quang
học
DANH MỤC HÌNH VẼ
Tài liệu tham khảo 54
LỜI MỞ ĐẦU
Ảnh là phương tiện truyền tải thông tin có ý nghĩa vô cùng lớn trong cuộc
sống. Ảnh truyền tải trong môi trường World Wide Web hiện nay được sử dụng khá
nhiều, tồn tại ở nhiều dạng khác nhau và vô cùng phong phú. Một yêu cầu đặt ra là
tìm kiếm, phân loại, cũng như xác định nội dung ảnh muốn truyền tải điều gì đang
là vấn đề cấp thiết hiện nay. Ta có thể kể ra một số ứng dụng như thế như tìm kiếm
ảnh theo nội dung trong môi trường World Wide Web hay lọc spam ảnh…vv. Ảnh
thường được nhúng kèm theo text trong nó và những text này thường quyết định
đến nội dung ảnh muốn truyền tải. Tất cả các ứng dụng kể trên như lọc spam ảnh
hay tìm kiếm ảnh trên web…vv đều sử dụng đến đặc tính text kèm theo ảnh để giải
quyết. Và như thế bài toán tách chữ nhúng trong ảnh được quan tâm. Đã có rất
nhiều phương pháp được đưa ra, tuy nhiên do dữ liệu ảnh là quá phong phú và text
nhúng kèm theo nó cũng rất phức tạp như kích cỡ, màu, chiều của chữ…Nờn mỗi
phương pháp đều có sự hạn chế riêng và đây vẫn là một bài toán mở đang được
nhiều người quan tâm.
Xuất phát từ thực tế đó, mục tiêu của đồ án này là nghiên cứu phương pháp
xác định vùng chứa chữ nhúng trong ảnh có độ chính xác cao đồng thời là tiền đề
cho việc lọc spam ảnh.

những máy tính chuyên dụng. Để có thể hình dung cấu hình của một hệ thống xử lý
ảnh chuyên dụng hay một hệ thống xử lý ảnh dùng trong nghiên cứu, đào tạo, trước
hết chúng ta sẽ xem xét các bước cần thiết trong xử lý ảnh.
Trước hết là quá trình thu nhận ảnh. Ảnh có thể thu được qua camera.
Thường ảnh thu được qua camera là tín hiệu tương tự(loại camera ống kiểu CCIR),
nhưng cũng có thể là tín hiệu số hoỏ(loại CCD-charge couped device).
Lưu trữ Hình 1.1a Các giai đoạn chính trong xử lý ảnh
Ảnh cũng có thể thu nhận từ vệ tinh qua các bộ cảm ứng(sensor), hay ảnh,
tranh được quột trờn scanner. Tiếp theo là quá trình số hoá (Digitalizer) để biến đổi
tín hiệu tương tự sang tín hiệu rời rạc (lấy mẫu) và số hoá bằng lượng hoá trước khi
chuyển sang giai đoạn xử lý, phân tích hay lưu trữ lại.
Nhận dạng ảnh
CAMERA
Lư
u
trữ
SENSOR
Thu nhận ảnh
Số hóa Phân tích ảnh
Hệ Q.định
Quá trình phân tích ảnh thực chất bao gồm nhiều công đoạn nhỏ. Trước hết
là công việc tăng cường ảnh để nâng cao chất lượng ảnh. Do những nguyên nhân
khác nhau: có thể do chất lượng các thiết bị thu nhận ảnh, do nguồn sang hay do
nhiễu ảnh có thể bị suy biến. Do vậy phải tăng cường và khôi phục lại ảnh để làm
nổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần giống với trạng thái
gốc- trạng thái trước khi bị biến dạng. Giai đoạn tiếp theo là xác định các đặc tính
như biên, phân vùng ảnh, trích chọn các đặc tính, …vv.

Màn hình
đồ họa
Bộ xử lý
tương tự
Camera Bộ nhớ ảnh
Máy chủ
Bộ
nhớ ngoài
Bộ xử lý ảnh số
Màn hình
Bàn phím
Máy in
1.2.1 Một số khái niệm
Pixel (picture element) phần tử ảnh
Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sang. Để
có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh. Trong quá trình
số hoá, người ta biến đổi tín hiệu liên tục dạng tín hiệu rời rạc thong qua quá trình
lấy mẫu ( rời rạc hoá về không gian) và lượng hoá thành phần giá trị mà vì thế về
nguyên tắc bằng mắt thường không phân biệt được hai điểm kề nhau. Trong quá
trình này người ta sử dụng khái niệm picture element mà ta quen gọi hay viết tắt là
pixel - phần tử ảnh. Ở đây cũng cần phân biệt khỏi niờm pixel hay đề cập đến trong
kỹ thuật đồ hoạ máy tính. Để tránh nhầm lẫn ta tạm gọi pixel này là pixel của thiết
bị. Khái niệm pixel thiết bị có thể xem xét như sau: Khi ta quan sát màn hình trong
chế độ đồ hoạ, màn hình không liên tục mà gồm nhiều điểm nhỏ gọi là pixel. Mỗi
pixel gồm một cặp toạ độ x,y và màu.
Cặp toạ độ x,y tạo nên độ phân giải ( resolution ). Như màu màn hình máy
tính có nhiều loại với độ phân giải khác nhau: như màn hình CGA với độ phân giải
là 320 x 200, màn hình VGA là 640 x 350,…
Như vậy một ảnh là tập hợp các điểm ảnh. Khi được số hoỏ nó, nó thường được
biểu diễn bởi mảng hai chiều I(n,p): n là biểu thị số dòng, p là biểu thị cột. Nói cách

ảnh đầu ảnh đầu
vào f(α,β) ra g(x,y)
f(α,ò)

ò
g(x,y)
nhiễu
ò

hệ thống
thu nhận
H ình 1.3 ảnh biến dạng do nhiễu.
Khôi phục ảnh là nhằm loại bỏ các suy giảm (degradation) trong ảnh. Với
một hệ thống tuyến tính, ảnh của một đối tượng có thể biểu diễn bởi :
G(x,y) =
Trong đó:
- η(x,y) là hàm biểu diễn nhiễu cộng.
- F(α,β) là hàm biểu diễn đối tượng.
- G(x,y) là ảnh thu nhận.
- H((x,y),(α,β)) là hàm tán xạ điểm (Point Spread Function).
Một vấn đề khôi phục ảnh tiêu biểu là tìm một xấp xỉ của f(α,β) khi PSF của nó
có thể đo lường hay quan sát được, ảnh mờ và có tính chất xác xuất của quá trình nhiễu.
1.2.4 Biến đổi ảnh
Thuật ngữ biến đổi ảnh (Image Transform) thường dùng để nói tới một lớp
các ma trận đơn vị và các kỹ thuật dung để biến đổi ảnh. Cũng như các tín hiệu một
chiều được biểu diễn bởi một chuỗi các hàm cơ sở, ảnh cũng có thể được biểu diễn bởi
một chuỗi rời rạc các ma trận cơ sở gọi là ảnh cơ sở. Phương trình ảnh cơ sở có dạng:
A*
k,l
= a

Cho A là ma trận kích thước và B là ma trận kích thước N
1
x N
2
.
Tích Kronecker của A và B ký hiệu là A
⊗
B là ma trận khối được định nghĩa
a
1,1
B a
1,2
B . . . . A
1,M2
B
A
⊗
B = . . . . . . . . . . . . . . . . . . . . .
a
M1,1
B a
M1,2
B . . . A
M1,M2
B
với a
i,j
là các phần tử của ma trận A.
Thí dụ

chữ…) phục vụ cho nhiều lĩnh vực.
Ngoài hai kỹ thuật nhận dạng trên, hiện nay một kỹ thuật nhận dạng mới dựa
vào kỹ thuật nhận dạng mạng nơ ron đang được áp dụng và cho kỹ thuật khả quan.
1.2.7 Nén ảnh
Dữ liệu ảnh cũng như các dữ liệu khác cần phải được truyền đi hay lưu trữ
trên mạng. Như đã nói ở trên lượng thông tin để biểu diễn cho một ảnh là rất lớn.
Trong phần 1.1 chúng ta đã thấy một ảnh đen trắng cỡ 512 x 512 với 256 mức xám
chiếm 256 kbs . Do đó làm giảm lượng thong tin hay nén dữ liệu là một nhu cầu cần
thiết. Nhiều phương pháp nén dữ liệu đã được nghiên cứu và áp dụng cho loại dữ
liệu đặc biệt này.
1.3 KẾT LUẬN
Như vậy các vấn đề cơ bản nhất liên quan đến xử lý ảnh đã được trình bày
chi tiết ở chương 1. Những vấn đề cơ bản và chung đó sẽ là tiền đề cho chúng ta
thực hiện nghiên cứu sâu hơn về vấn đề tách chữ nhúng trong ảnh.
Chương 2
CÁC PHƯƠNG PHÁP XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH
Chương 1 đồ án đã trình bày một cách tổng quan nhất về xử lý ảnh. Tiếp
theo trong chương này đồ án sẽ trình bày mô hình của hệ thống tách thông tin về
chữ nhúng trong ảnh TIE (Text Information Extraction) và một số phương pháp
thường sử dụng trong việc xác định vùng chứa chữ trong ảnh.
2.1 GIỚI THIỆU
Dữ liệu text được trình bày trong ảnh và video bao gồm những thông tin hữu
dụng cho việc cấu trúc chỉ mục và đánh chỉ mục cho ảnh. Việc tách thông tin này
bao gồm dũ tỡm xác định theo dõi tách làm nổi và xác nhận vùng text chứa trong
ảnh. Tuy nhiên một vài text có sự khác nhau về kích cỡ về hướng cũng như về kiểu
chữ, cũng như ảnh có độ tương phản thấp và nền phức tạp làm cho vấn đề tách text
trong ảnh trở lên rất khó khăn. Trong khi rất nhiều vấn đề liên quan như nhận dạng
mặt người, phân tích tài liệu và index của ảnh và video có thể dễ dàng được tìm
thấy thì vấn đề nhận dạng thông tin chữ nhúng trong ảnh không được nghiên cứu
nhiều. Có một số công nghệ được đề xuất để giải quyết vấn đề. Một trong số đó

ảnh có sự khác nhau về kích thức, màu sắc độ tương phản cả về hướng và font chữ.
Những khó khăn kể trên làm cho hệ thống TIE rất khó thực hiện.
Có một số lượng lớn các ứng dụng có thể áp dụng hệ thống TIE bao gồm
phân tích tài liệu, phân tích các tài liệu kỹ thuật và nén dữ liệu hướng đối tượng.
Dưới đây là một số ứng dụng như thế:
Máy tính cầm tay: với tốc độ phát triển của công nghệ phần cứng, máy tính
xách tay hiện nay đang rất phát triển. Một hệ thống TIE gồm một thiết bị cầm tay và
một camera được áp dụng như là một ứng dụng cho một hệ thống có khả năng quan
sát ảnh.
Mã hóa video dựa trên nội dung và mã hóa tài liệu. Chuẩn MPEG-4 hỗ trợ
việc giải mã dựa trên đối tượng. khi mà vùng text được tách ra khỏi vựng vựng
khỏc trong ảnh. Nó có thể cung cấp một cách nén ảnh tốc độ cao hơn và chất lượng
ảnh tốt hơn.
Miền ảnh nén: dựa trên ý tưởng rằng toàn bộ ảnh số và video frame đều được
lưu trữ xử lý và chuyển đổi đều ở dạng nén. Phương thức TIE có thể xử lý trực tiếp
trên ảnh nén định dạng MPEG hoặc JPG. Những thuật toán đó chỉ yêu cầu một số
lượng nhỏ việc giải mã và cho nên kết quả thực hiện thuật toán rất nhanh.
2.2 THẾ NÀO LÀ MỘT HỆ THỐNG TIE
Vấn đề hệ thống TIE cần được định nghĩa chính xác trước khi tiến tới những
bước nghiên cứu xa hơn. Một hệ thống TIE nhận dữ liệu đầu vào là những ảnh
thông thường hoặc những ảnh video liờn tiếp nhau. Đầu vào có thể là những ảnh
đen trắng, những ảnh màu những ảnh nén hoặc ảnh khụng nộn, text trong ảnh có thể di
chuyển hoặc không di chuyển. Vấn đề TIE có thể được chia thành những vấn đề nhỏ:
i. Detection
ii. Localization
iii. Tracking và enhancement
iv. Recognition(ORC)
Text detection localization và extraction có thể được hoán đổi trong tài liệu.
Tuy nhiên trong tài liệu này tác giả sẽ cho thấy sự khác nhau giữa chúng. Thuật ngữ
được sử dụng trong tài liệu này được đưa ra bởi Antani et al [28]. Text detection là

Wavelet, FFT có thể được sử dụng để tỡm ra các đăc tớnh về kết cấu của vùng text
trong ảnh
2.3.1.2 Một số phương pháp được đề xuất:
Ảnh, Video clip
Trong lĩnh vực tách chữ trong ảnh, một số phương pháp sau đây đã được dùng
để xác định đặc trưng về kết cấu của vùng text trong ảnh và cho kết quả khả quan.
Zhong [30] đã sử dụng sự biến đổi về mặt không gian trong ảnh mức xám để
dò tỡm ra vùng chứa text với độ chớnh xác khá cao. Họ đã sử dụng một của sổ
ngang kích cỡ 1 x 21 để tớnh toán sự khác nhau về mặt pixel với anh hàng xúm cục
bộ. Sau đó bờ ngang trong ảnh sẽ được xác định nhờ sử dụng bộ lọc Canny. Những
thành phần bờ nhỏ này sẽ được kết hợp lại với nhau để tạo ta những đường dài hơn.
Từ chớnh ảnh sau khi xác định bờ này, những bờ ảnh với những hướng đối diện sẽ
được ghép cặp thành vùng text. Mặc dù vậy, cách tiếp cận này chỉ dò tìm được ra
các vùng chứa text nằm ngang và có sự khác biệt tương đối rừ rang so với nền ảnh.
Trái ngược lại thì Wu [31,32] đã sử dụng phương pháp phõn chia một bức
ảnh đầu vào sử dụng một lược đồ phõn chia ảnh theo kết cấu sử dụng các giá trị
mức khác nhau. Những vùng text tiềm năng nhất sẽ được tỡm thấy dựa trên bộ lọc
Gaussian. Một phép biến đổi không tuyến tớnh sẽ được áp dụng cho mỗi bức ảnh.
Ảnh đầu ra sau đó được xử lý sử dụng thuật toán K-mean. Thao tác này được gọi là
sự phõn vùng ảnh dựa trên đặc trưng về kết cấu (texture segmentation). Bước tiếp
theo gọi là chip generation Bước này bao gồm 5 bước nhỏ hơn là:
i. stroke generation
ii. stroke filtering
iii. stroke aggregation
iv. chip filtering
v. chip extension
Kết quả được cài đặt và chạy thử trên 48 bức ảnh khác nhau bao gồm các
video frame, các trang báo, tạp chí…Chương trình thực hiện mất 10 giõy cho những
ảnh có kích cỡ 320 x 240 trên máy PC Pentium vói tốc độ 200MHz và 128 Mb bộ
nhớ. Phương pháp này có nhược điểm là để mất những vùng chữ rất nhỏ.

- Phương pháp phát hiện biên trực tiếp: Phương pháp này nhằm làm nổi biên
dựa vào sự biến thiên về giá trị độ sáng của điểm ảnh. Kỹ thuật chủ yếu
dùng phát hiện biên ở đây là kỹ thuật đạo hàm (kỹ thuật dũ biờn cục bộ),
nếu lấy đạo hàm bậc nhất của ảnh ta có phương pháp dũ biờn gradient, nếu
lấy đạo hàm bậc 2 ta có kỹ thuật Laplace.
- Phương pháp phát hiện biên gián tiếp: Phương pháp phát hiện biên kiểu này
dựa vào mối quan hệ giữa biên và cỏc vựng trong ảnh, nếu bằng cách nào đấy,
ta phân ảnh thành cỏc vựng thỡ đường ranh giới giữa cỏc vựng chớnh là biên.
b,Xử lý biên
Biên sau khi đã được xác định ở bước trên sẽ được xử lý để thu được các
thông tin chính xác nhất. Đối với một số kỹ thuật phát hiện biờn, biờn thu được có
độ rộng lớn hơn 1 pixel. Do vậy, ở bước này, người ta phải làm mảnh biên. Đồng
thời, tại bước này, biên cũng sẽ được nhị phân hóa để làm giảm nhiễu, phục vụ cho
việc mô tả biên sau này.
c,Mô tả biên.
Khi đã xác định được các điểm biờn thỡ kỹ thuật mô tả biên đơn giản nhất
chính là sử dụng chuỗi tọa độ của các điểm biên này để mô tả. Tuy nhiên cách thức
này có chi phí lớn và không cô đọng. Do vậy người ta phải nghĩ đến cỏc cỏch mã
hóa đường biên.
Các phương pháp mã hóa hay được dùng là : mã hóa theo tọa độ Đề các, mã
hóa Freeman hay xấp xỉ bởi đoạn thẳng. Biên sau khi được mô tả sẽ trở thành một
đặc trưng quan trọng của vùng mà nó bao quanh.
Dựa vào các thuộc tính của text trong ảnh, phương pháp dựa trên biờn ảnh
làm nổi bật “sự tương phản giữa các đoạn text với nền của ảnh”. Các cạnh của
đường biên vùng text sẽ được xác định và kết hợp lại với nhau, sau đó sẽ lọc ra các
miền không phải text ở trong ảnh. Các bộ lọc về bờ của vùng text (ví dụ: Canny
operator) thường được dùng để dũ tỡm bờ bao quanh vùng chứa chữ, các phương
pháp làm mịn và các toán tử hình thái được sử dụng kết hợp các tầng lại.
d,Các phương pháp
Smith và Kanade [35] áp dụng bộ lọc khác nhau chiều ngang 3x3 cho ảnh

bày một số phương pháp để giải quyết vấn đề tách chữ nhúng trong ảnh, mặc dù
mỗi phương pháp đều có những ưu nhược điểm riêng nhưng đây đều là những
phương pháp cho độ chính xác khá cao và khá tổng quát. Đồng thời, việc nghiên
cứu và tìm hiểu các phương pháp này sẽ mang lại những kiến thức cơ bản và gợi ý
cho cách tiếp cận nhằm giải quyết bài toán tách chữ nhúng trong ảnh ở chương sau.

Trích đoạn GIỚI THIỆU Chú thích video KẾT QUẢ THỰC NGHIỆM Khung video

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

tiểu luận Nghiên cứu các phương pháp tách văn bản nhúng trong ảnh - Pdf 26

Tài liệu, ebook tham khảo khác

Học thêm