Nhận dạng chữ cho ảnh màu thương hiệu luận văn ths công nghệ thông tin - Pdf 31

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN NGỌC TUẤN

NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN NGỌC TUẤN

NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU

Ngành: Công nghệ thông tin
Chuyên ngành: Khoa Học Máy Tính
Mã số: 60480101

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. LÊ THANH HÀ

Hà Nội - 2015

Lời cam đoan

MỞ ĐẦU
Nhận dạng chữ in nói chung và nhận dạng chữ in trên ảnh màu là những
bài toán có nhiều ứng dụng trong thực tế và thu hút được nhiều sự quan
tâm nghiên cứu. Máy tính tự động nhận dạng, xử lý ảnh đầu vào tạo ra
các dữ liệu văn bản phục vụ lưu trữ, tìm kiếm, phân tích... Nhờ đó giúp
chúng ta tiết kiệm chi phí, thời gian, công sức so với nhập liệu thủ công.
Ngày nay, dưới sự cạnh tranh mạnh mẽ về kinh tế, việc xây dựng hình
ảnh doanh nghiệp và truyền tải đến người tiêu dùng ngày càng trở nên
quan trọng. Ảnh thương hiệu (logo) là một phần không thể thiếu của quá
trình này, và luôn được bổ sung vào cơ sở dữ liệu về các doanh nghiệp.
Để khai thác thông tin ảnh thương hiệu trong các cơ sở dữ liệu, có thể
dựa vào hai thành phần chính: phần hình ảnh và phần chữ (text). Trong
đó, phần text có thể chứa nhiều thông tin hữu ích như tên sản phẩm, tên
doanh nghiệp, khẩu hiệu (slogan)..., phục vụ đắc lực cho việc tìm kiếm,
phân tích, lưu trữ... Phương pháp được đề cập trong luận văn này nhằm
giải quyết vấn đề trích xuất dữ liệu text từ ảnh thương hiệu một cách tự
động, nâng cao độ chính xác và giảm thiểu chi phí cho hoạt động nhập
liệu.
Quan sát một số cơ sở dữ liệu ảnh thương hiệu, có thể thấy ảnh thương
hiệu chỉ bao gồm thông tin dạng văn bản (text) chiếm một phần đáng kể,
và có thể giải quyết bằng phương pháp nhận dạng chữ thông thường. Tuy
nhiên, một phần không nhỏ ảnh màu thương hiệu ngoài text thường có các
yếu tố hình họa đi kèm, chính sự nhập nhằng giữa vùng chữ in và vùng
hình họa làm sự khó khăn khi trích xuất text tăng lên rất nhiều so với nhận
dạng chữ in trên ảnh xám truyền thống. Để giải quyết vấn đề đó, luận văn
đã đề xuất giải pháp kết hợp giữa phương pháp grayscale và phân đoạn
ảnh cải tiến, dựa trên chính sự khác biệt về màu sắc và cảm nhận của mắt
người, một nguyên tắc thường thấy trong thiết kế ảnh màu thương hiệu.

2 Cơ
2.1
2.2
2.3
2.4
2.5
2.6
2.7

.
.
.
.
.
.
.

13
13
15
17
17
18
20
21

. . . . .
. . . . .
. . . . .

Chuyển đổi ảnh màu sang ảnh mức xám
Phân đoạn ảnh . . . . . . . . . . . . . .
Một số phương pháp phân đoạn . . . . .
Máy nhận dạng văn bản Tesseract . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.

.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

Danh mục hình vẽ
2.1

Ảnh màu thương hiệu . . . . . . . . . . . . . . . . . . . .
Ảnh mức xám sau khi biến đổi sử dụng phương pháp của
Mark . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
(a) Biểu đồ Histogram và quá trình hòa nhập cụm (b) . . .
Nhận dạng văn bản trên ảnh đã phân đoạn bằng Tesseract

25

3.3
3.4
3.5
3.6
4.1
4.2
4.3
4.4

.
.
.
.
.

.
.
.
.
.

.

.
.
.
.

.
.
.
.
.

.
.
.
.
.

Ảnh thương hiệu sau phân đoạn áp dụng phương pháp Otsu
Ảnh thương hiệu sau phân đoạn bằng phương pháp phân
cấp Arafin . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ảnh thương hiệu sau phân đoạn bằng phương pháp phân
cấp K-means . . . . . . . . . . . . . . . . . . . . . . . . .
Kết quả nhận dạng với các chỉ số RCR, RJR và ER cho mỗi
mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

26
27
27

Optical Character Recognition
Red Green Blue
Hue Saturation Value
Cyan Magenta Yellow Key
International Commission on Illumination
Lightness a b
Lightness a* b*
Recognition rate
Rejection rate
Error rate
National Office of Intellectual Property

9

Chương 1

TỔNG QUAN
1.1

Đặt vấn đề

Nhận dạng kí tự quang học (OCR - Optical Character Recognition)
là quá trình chuyển đổi hình ảnh của văn bản thành văn bản máy tính.
Hiện nay, nhận dạng chữ in nói chung và nhận dạng chữ in trên ảnh màu
là những bài toán có nhiều ứng dụng trong thực tế, giúp tiết kiệm rất
nhiều các chi phí và thời gian cho việc nhập liệu. Trong một số điều kiện
thuận lợi, nhận dạng chữ in đạt độ chính xác rất cao cho các hệ chữ phổ
thông[12]. Tuy nhiên khi áp dụng ảnh màu, đặc biệt ảnh thương hiệu màu,

text và hình ảnh thường có sự kết hợp và đan xen lẫn nhau, việc phân
tách rõ ràng các thành phần này gặp nhiều trở ngại. Tuy nhiên các ảnh
thương hiệu màu vẫn có chung những nguyên tắc khi thiết kế có thể khai
thác như: sự tương phản và đồng nhất về màu sắc, sự ảnh hưởng màu
sắc lên thị giác con người, khả năng đơn giản hóa dễ nắm bắt... Luận văn
đã nghiên cứu đánh giá một số phương pháp được sử dụng trong phân
đoạn ảnh, và áp dụng vào bài toán nhận dạng chữ trên ảnh thương hiệu
màu, nhằm tách biệt vùng chứa text ra các lớp riêng biệt, từ đó đưa vào
máy nhận dạng có sẵn nhằm nâng khả năng nhận dạng. Trong giai đoạn
nhận dạng ký tự, máy nhận dạng Tesseract được đề xuất cho giai đoạn này.
Quá trình phân đoạn trải qua hai bước:
1. Biến đổi grayscale: đưa ảnh thương hiệu màu ban đầu (có các
điểm ảnh trong hệ màu RGB) sang ảnh mức xám. Mức xám (gray
level) của ảnh đích được tính toán dựa trên yếu tố màu sắc, thứ tự
độ sáng, sự liên tục đường nét...
2. Phân đoạn ảnh phân cấp: Sau khi đưa về ảnh mức xám, phân
đoạn ảnh phân cấp phân các điểm ảnh có mức xám tương đương
nhau về các cụm riêng biệt, từ đó tách ra các lớp để tạo ra ảnh đầu
vào của quá trình nhận dạng.
Sau khi trải qua các bước trên từ ảnh thương hiệu ban đầu ta thu được
các văn bản chứa text của ảnh. Việc đánh giá phương pháp trong luận văn
dựa trên 3 yếu tố: tỉ lệ kí tự nhận dạng đúng, tỉ lệ kí tự nhận dạng sai và
tỉ lệ kí tự không nhận dạng được so với kết quả từ mắt người.

1.3

Cấu trúc luận văn

Các phần còn lại của luận vặn có cấu trúc như sau:
Chương 2: trình bày cơ sở lý thuyết của phân đoạn ảnh, bao gồm các

hiệu, đồng thời gợi lên tất cả những thông tin và trông đợi gắn với sản
phẩm hoặc dịch vụ có thương hiệu đó.
Thông thường, ảnh thương hiệu phải được đảm bảo một số yêu cầu
sau:
-Nội dung: gồm hai phần chính là hình họa (phần không đọc được)
và text (phần đọc được). Phần không đọc được bao gồm những yếu tố
không đọc được mà chỉ có thể cảm nhận được bằng thị giác như hình vẽ,
biểu tượng (hình bông sen của Vietnam Airlines), màu sắc (màu xanh của
Nokia, đỏ của Coca-Cola, hay kiểu dáng thiết kế, bao bì (kiểu chai bia
Henniken) và các yếu tố nhận biết (bằng mắt) khác. Phần đọc được bao
gồm những yếu tố có thể đọc được, tác động vào thị giác con người như
tên công ty, doanh nghiệp (ví dụ như: Gateway, PGrand, 3M...), tên sản
phẩm (555, Coca-Cola...), câu khẩu hiệu, đặc trưng... Thông thường, ảnh
thương hiệu kết hợp cả hai thành phần với nhau để tăng khả năng nhận
dạng và truyền tải thông tin. Một số ảnh thương hiệu lại sử dụng chính
hình ảnh cách điệu của phần đọc được để giảm bớt số lượng chi tiết trong
ảnh. Phần còn lại chỉ sử dụng một trong hai thành phần chính để tạo nên
ảnh thương hiệu.
-Màu sắc: Màu sắc thường đơn giản, dễ dàng nhận thấy và ghi nhớ.
Thông thường khi thiết kế có thể ưu tiên vẽ màu trắng và đen, sau đó
13

Hình 2.1: Ảnh thương hiệu màu
đến các màu sắc nổi bật có thể đặt cạnh nhau như vàng-đỏ, xanh lá-đỏ...
Thực tế số lượng màu sắc trong ảnh thương hiệu thường bị hạn chế để dễ
ghi nhớ, đôi khi chỉ bao gồm các văn bản với hai màu đen và trắng. Các
thương hiệu nổi tiếng chỉ sử dụng một hoặc hai màu cơ bản như màu vàng
của Kodak, McDonanld, màu xanh da trời của IBM, hay màu đỏ của Coca
Cola.

ngày nay thường quá phức tạp khiến tên gọi hay hình ảnh có ý nghĩa thì
lại khó khác biệt, dễ nhớ và đảm bảo tính tượng trưng. Cho nên trong thực
tế tính ý nghĩa này thường được tạo ra qua các liên tưởng về thương hiệu
hơn là tự thân thương hiệu.

2.2

Không gian màu (color space)

Không gian màu là một mô hình toán học dùng để mô tả các màu sắc
trong thực tế được biểu diễn dưới dạng số học. Trong thực tế có rất nhiều
không gian màu khác nhau được mô hình để sử dụng vào những mục đích
khác nhau. Các không gian màu cơ bản và sử dụng trong luận văn gồm có
hệ không gian màu RGB, HSV và CMYK.
Không gian màu RGB
RGB là không gian màu rất phổ biến được dùng trong đồ họa máy tính
và nhiều thiết bị kĩ thuật số khác. Ý tưởng chính của không gian màu này
là sự kết hợp của 3 màu sắc cơ bản : màu đỏ (R, Red), xanh lục (G, Green)
và xanh lơ (B, Blue) để mô tả tất cả các màu sắc khác.
Nếu như một ảnh số được mã hóa bằng 24bit, trong đó 8 bit cho kênh R,
8 bit cho kênh G, 8 bit cho kênh B, thì mỗi kênh này màu này sẽ nhận giá
trị từ 0-255. Với mỗi giá trị khác nhau của các kênh màu kết hợp với nhau
ta sẽ được một màu khác nhau, ví dụ: màu đen là sự kết hợp của các kênh
màu (R, G, B) với giá trị tương ứng (0, 0, 0) màu trắng có giá trị (255, 255,
255), màu vàng có giá trị (255, 255, 0), màu tím đậm có giá trị (64, 0, 128)...
Không gian màu CMYK
CMYK là không gian màu được sử dụng phổ biến trong ngành công
nghiệp in ấn. Ý tưởng cơ bản của hệ không gian này là dùng 4 màu sắc cơ
bản để phục vụ cho việc pha trộn mực in. Trong thực tế, người ta dùng 3
15

và nằm trong khoảng từ 0 -1. Ở đáy hình trụ V có giá trị là 0, là tối nhất
16

và trên đỉnh hình trụ là độ sáng lớn nhất (V = 1). Đi từ tâm hình trụ ra
mặt trụ là giá trị bão hòa của màu sắc (S). S có giá trị từ 0 - 1. 0 ứng với
tâm hình trụ là chỗ mà màu sắc là nhạt nhất. S = 1 ở ngoài mặt trụ, là
nơi mà giá trị màu sắc là đậm đặc nhất. Như vậy với mỗi giá trị (H, S, V)
sẽ cho ta một màu sắc mà ở đó mô tả đầy đủ thông tin về màu sắc, độ
đậm đặc và độ sáng của màu đó.

2.3

Biểu đồ Histogram

Biểu đồ Histogram (còn được gọi là biểu đồ phân bố tần số) là biểu đồ
phân bố giá trị mức xám của một ảnh hoặc một vùng ảnh số. Nhìn vào
biểu đồ histogram chúng ta có thể đánh giá về sắc thái và mức độ tương
phản của bức ảnh. Biểu đồ này được sử dụng rộng rãi trong các ứng dụng
đồ họa và các thiết bị thu hình.
• Histogram của một ảnh số với mức xám thuộc dải xám {0, L − 1} là
h(rk ) = nk với rk là mức xám thứ k, nk là số điểm ảnh có cùng mức
xám thứ k.
• Biểu đồ Histogram có trục tung Oy biểu diễn số điểm ảnh của mức
xám nk và trục hoành Ox biểu diễn mức xám rk .
• Xác suất của mức xám: p(rk ) = nk /N với N là tổng số điểm ảnh
Tương tự với ảnh màu, histogram là biểu đồ cột thể hiện phân bố tần số
của các màu cơ bản được gộp lại với nhau.
Phân cụm trên biểu đồ histogram: Là quá trình gộp các các pixel
có mức xám kề nhau trên biểu đồ histogram về cùng một cụm.

CIE XYZ.Rec 709 với điểm trắng D65
 
  
0.412453 0.357580 0.180423
R
X
 Y  = 0.212671 0.715160 0.072169 G
Z
0.019334 0.119193 0.950227 B

(2.2)

(2.3)

Y là mức xám của ảnh đích.
Phương pháp của Fairchild
∗∗

L

2.5

H ∗ − 90
= L + (2.5 − 0.025L ) × 0.016 | sin
| +0.085 C ∗ (2.4)
2
∗

∗

• Các phương pháp dựa vào entropy (Entropy-Based Thresholding
Methods).
19

• Các phương pháp dựa vào thuộc tính giống nhau (Thresholding
Based on Attribute Similarity).
• Các phương pháp căn cứ vào không gian (Spatial Thresholding Methods)..
• Các phương pháp ngưỡng thích ứng cục bộ (Locally Adaptive Thresholding)..

2.6

Một số phương pháp phân đoạn

Phương pháp Niblack : Đây là phương pháp xác định ngưỡng cục bộ dựa
trên việc tính toán giá trị trung bình và độ lệch chuẩn cục bộ.

TN iblack = m + k

1
NP

(pi − m)2

(2.5)

Phương pháp của Sauvola: Cải tiến của phương pháp Niblack, việc tính
toán ngưỡng dựa trên độ lệch chuẩn.
TSauvola = m ∗ (1 − k ∗ (1 −

20

1. Chuyển ảnh I từ sắc xám về đen trắng Ib với ngưỡng Ir cho trước.
2. Tính giá trị mỗi điểm ảnh trong ảnh là khoảng cách Euclide. Trong
đó giá trị mỗi điểm ảnh là khoảng cách Euclide gần nhất đến giá trị
điểm ảnh khác zero trong ảnh Ib
3. Sắp xếp các điểm ảnh trong ảnh theo giá trị khoảng cách tăng dần.
4. Tất cả điểm ảnh có giá trị khoảng cách lớn nhất Dmax được gán nhãn
duy nhất Lmax và xem là các marker (có thể là một điểm ảnh hay là
nhóm các điểm ảnh kề nhau) và được lưu trong ảnh marker.
5. Xét các điểm ảnh có khoảng cách Dnext (giá trị lớn kế sau Dmax ).
Nếu có các điểm ảnh kề Lmax thì được sáp nhập vào Lmax . Các điểm
ảnh (hay nhóm các điểm ảnh kề nhau) chưa được sáp nhập sẽ tạo
thành các marker mới với nhãn mới.
6. Dmax = Dnext
7. Dnext = Giá trị khoảng cách lớn kế tiếp.
8. Lặp lại các bước B5, B6, B7 cho đến khi Dmax bằng Dmin

2.7

Máy nhận dạng văn bản Tesseract

Tesseract là một công cụ OCR mã nguồn mở phổ biến và có độ chính
xác cao. Ban đầu nó được nghiên cứu và phát triển bởi HP trong giai đoạn
1984-1994. Nó được biết như là một phần mềm thêm vào cho dòng sản
phẩm máy quét của HP. Trong giai đoạn này, nó vẫn còn rất sơ khai và chỉ
được dùng để cải thiện chất lượng của các bản in. Nó được phát triển cho
đến năm 1994 thì ngưng. Sau khi được cải thiện độ chính xác, nó được HP
đưa vào cuộc kiểm tra thường niên về độ chính xác của các công cụ OCR

Nó giúp Tesseract xử lý các trang có đường cơ sở là đường cong. Các
dòng cơ sở được thiết lập bằng cách phân vùng các blobs thành các
nhóm có thể thay thế thích hợp liên tục trong đường cơ sở thẳng
ban đầu. Một spline toàn phương được thiết lập cho phân vùng dày
đặc nhất, (giả định là đường cơ sở) của một hình có phương ít nhất.
Spline có lợi thế là tính toán ổn định, nhược điểm là sự gián đoạn có
thể xảy ra khi nhiều phân đoạn spline được yêu cầu.
• Cắt nhỏ từ:Tesseract sẽ xác định xem có các ký tự dính với nhau
trong một từ hay không. Nếu có nó sẽ cắt nhỏ các ký tự ra thành
các ký tự riêng lẻ.
• Nhận dạng khoảng cách giữa chữ hoặc số: Xác định khoảng
cách giữa các số hoặc giữa các chữ là một vấn đề khá phức tạp.
22

Tesseract giải quyết những vấn đề này bằng cách đo khoảng cách
trong một phạm vi hạn chế theo chiều dọc giữa dòng cơ sở và dòng
trung bình.
• Đào tạo dữ liệu nhận dạng: Ngoài việc cung cấp dữ liệu nhận
dạng cho ngôn ngữ thông dụng, Tesseract cho phép xây dựng dữ liệu
nhận dạng theo mục đích khác nhau.Đầu vào của quá trình là tập
ảnh các kí tự cần nhận dạng. Sau khi chạy quá trình huấn luyện,
Tessract tập hợp các kết quả và thêm dữ liệu từ điển vào thư mục
"/tessdata", dữ liệu này có thể cung cấp cho người sử dụng khác dễ
dàng.

23

Chương 3

24

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nhận dạng chữ cho ảnh màu thương hiệu luận văn ths công nghệ thông tin - Pdf 31

Tài liệu, ebook tham khảo khác

Học thêm