TRƯỜNG ĐẠI HỌC LẠC HỒNG
TRUNG TÂM THÔNG TIN TƯ LIỆU
BÁO CÁO
NGHIÊN CỨU KHOA HỌC
ĐỀ TÀI:
NGHIÊN CỨU MỘT SỐ KỸ THUẬT
HIỆU CHỈNH GÓC NGHIÊNG CỦA ẢNH
NGUYỄN TRỌNG VINH ĐỒNG NAI, THÁNG 06/2011
ĐỒNG NAI, THÁNG 06/2011
LỜI CẢM ƠN
Chúng tôi xin chân thành cảm ơn lãnh đạo và các Thầy Cô ở Trung tâm
Thông tin Tư liệu – Đại học Lạc Hồng, nơi tôi công tác, đã tạo mọi điều kiện
thuận lợi cho chúng tôi trong suốt thời gian hoàn thành báo cáo.
Bên cạnh đó, chúng tôi cũng gửi lời cảm ơn đến Ban Khảo thí – Đại
học Lạc Hồng đã tạo điều kiện thuận lợi cho chúng tôi trong quá trình thực
hiện luận văn cũng như ứng dụng sản phẩm nghiên cứu vào thực tế.
Cuối cùng, chúng tôi xin cảm ơn gia đình và bạn bè, những người đã
luôn ủng hộ và động viên để chúng tôi yên tâm nghiên cứu và hoàn thành báo
cáo nghiên cứu khoa học.
Nguyễn Trọng Vinh, Trần Đức Toàn
MỤC LỤC
Trang
LỜI CẢM ƠN i
MỤC LỤC ii
DANH MỤC HÌNH ẢNH iii
MỞ ĐẦU 1
CHƯƠNG 1. TỔNG QUAN VỀ XỬ LÝ ẢNH
1.2.4.2. Nhận xét 21
1.2.5. Phương pháp dùng phép toán hình thái (Morphology) 22
1.2.5.1. Thuật toán L. Najman 22
1.2.5.2. Nhận xét 24
1.2.6. Phương pháp dùng biến đổi Hough (Hough Transform) 24
1.2.6.1. Đường thẳng Hough trên tọa độ cực 24
1.2.6.2. Nhận xét 27
CHƯƠNG 2. BIÊN VÀ CÁC PHƯƠNG PHÁP DÒ BIÊN 28
2.1. Biên của đối tượng ảnh 28
2.1.1. Biên và các kiểu biên cơ bản trong ảnh 28
2.1.1.1. Biên lý tưởng 28
2.1.1.2. Biên dốc 29
2.1.1.3. Biên không trơn 30
2.1.2.
Vai trò của biên trong nhận dạng
31
2.2. Các phương pháp dò biên trực tiếp 32
2.2.1. Phương pháp Gradient 32
2.2.2. Phương pháp Laplace 34
2.3. Phương pháp dò biên tổng quát 34
2.3.1. Khái niệm chu tuyến 34
2.3.2. Phương pháp dò biên tổng quát 36
2.4. Một số phương pháp dò biên nâng cao 38
2.4.1. Phương pháp Canny 38
2.4.2. Phương pháp Shen – Castan 39
CHƯƠNG 3. ỨNG DỤNG BIẾN ĐỔI HOUGH PHÁT HIỆN
DANH MỤC HÌNH ẢNH Hình 1.1. Sơ đồ quá trình xử lý ảnh 5
Hình 1.2 Ma trận 8 láng giềng 10
Hình 1.3 Tổng quan quá trình tạo ảnh tài liệu 12
Hình 1.4 Đa giác 6 đỉnh và trọng tâm được xác định 16
Hình 1.5 Hình chữ nhật ngoại tiếp ảnh văn bản thay cho đa giác 16
Hình 1.6 Ảnh đầu vào và kết quả sau khi áp dụng thuật toán 17
Hình 1.7 Tìm các điểm xa nhất theo các hướng trên ảnh 18
Hình 1.8 Trọng tâm được xác định dựa vào các điểm xa nhất 18
Hình 1.9 Đường cơ sở được nối từ trọng tâm đến gốc tọa độ 18
Hình 1.10 Xác định góc nghiêng ảnh văn bản 18
Hình 1.11 Phân tích láng giềng 19
Hình 1.12 Các K-NN và vector chỉ phương ứng với K=2,3,4 21
trong thuật toán
Yue Lu-Chew Lim Tan
21
Hình 1.13 Đường thẳng Hough và trục tọa độ 25
Hình 1.14 Biểu diễn đường thẳng Hough đi qua 3 điểm 26
Hình 2.1 Đường biên lý tưởng 29
Hình 2.2 Đường biên dốc 29
Hình 2.3 Đường biên không trơn 30
Hình 2.4 Sơ đồ phân tích ảnh 31
Hình 2.5 Các 4- láng giềng của điểm ảnh P 35
Hình 2.6 Các 8- láng giềng của điểm ảnh P 35
Hình 2.7 Ví dụ về các chu tuyến đối ngẫu 36
Hình 2.8 Chu tuyến trong và chu tuyến ngoài của một đối tượng 36
Hình 3.1 Xác định hình chữ nhật ngoại tiếp các đối tượng 40
và ảnh kết quả sau khi hiệu chỉnh 1 góc 11.3
o
64
Hình 4.18 Một bảng điểm bị nghiêng góc không thể nhận dạng được của
hệ thống quản lý điểm và ảnh kết quả sau khi hiệu chỉnh 1 góc 7.61
o
64
Hình 4.19 Một mẫu phiếu đánh giá chất lượng giảng dạy bị nghiêng góc
không thể nhận dạng được và ảnh kết quả sau khi hiệu chỉnh 1 góc 9.72
o
65
Hình 4.20 Một ảnh màu tài liệu bị nghiêng
và ảnh kết quả sau khi hiệu chỉnh 1 góc 10.82
o
65
Hình 4.21 Một ảnh màu tài liệu bị nghiêng gồm nhiều biểu đồ
và ảnh kết quả sau khi hiệu chỉnh 1 góc 17.6
o
66
1
MỞ ĐẦU
Ngày nay việc sử dụng máy tính để lưu trữ tài liệu không còn là vấn đề
mới mẻ và cần phải chứng minh tính an toàn, thuận tiện của nó. Tuy nhiên
việc sử dụng giấy để lưu trữ tài liệu trong một số mục đích vẫn không thể thay
thế được (như báo, sách, công văn, hợp đồng, …). Hơn nữa, lượng tài liệu
Khi xem xét một văn bản, để kết luận văn bản có bị nghiêng hay không
cách làm của chúng ta là căn cứ vào một số đối tượng chủ đạo và góc nghiêng
văn bản được ước lượng dựa vào đường nối các trung điểm cạnh đáy của các
đối tượng này. Xuất phát từ nhận xét trên, tôi sẽ trình bày một phương pháp
phát hiện góc nghiêng văn bản từ kỹ thuật xác định chu tuyến một đối tượng
ảnh và biến đổi Hough nhưng có điểm khác là sẽ dựa trên những điểm đặc
trưng có kích thước chủ đạo trong ảnh. Từ đó áp dụng biến đổi Hough lên các
điểm ảnh đại diện cho chúng.
* Cấu trúc của luận văn gồm 4 chương như sau:
- Chương 1: Tổng quan về xử lý ảnh và bài toán góc nghiêng văn
bản: Chương này đề cập đến các khái niệm cơ bản về xử lý ảnh số, quá trình
xử lý ảnh. Bên cạnh đó là sự phân tích, đánh giá đối với một số phương pháp
phát hiện góc nghiêng văn bản.
- Chương 2: Biên và các phương pháp dò biên: Chương này gồm các
khái niệm cơ bản về biên của đối tượng ảnh và vai trò của việc dò biên trong
xác định góc nghiêng văn bản . Toàn bộ chương tập trung vào việc làm rõ các
khái niệm cơ bản cũng như đi sâu vào phân tích các phương pháp dò biên
như: phương pháp trực tiếp (Gradient, Laplace), phương pháp dò biên tổng
quát dựa vào chu tuyến, phương pháp dò biên nâng cao (Canny, Shen –
Castan).
3
- Chương 3: Ứng dụng biến đổi Hough phát hiện góc nghiêng văn
bản: Trên cơ sở các thuật toán đã tìm hiểu, toàn bộ chương này nêu rõ từng
bước thực hiện việc áp dụng biến đổi Hough vào xác định góc nghiêng và tiến
hành hiệu chỉnh góc nghiêng văn bản.
- Chương 4: Xây dựng chương trình thực nghiệm: Tiến hành xây
dựng chương trình thực nghiệm để phát hiện và hiệu chỉnh góc nghiêng văn
dung của ảnh.
5
Camera
Sensor
Thu nhận
ảnh
Số hoá Phân tích
ảnh
Nhận
dạng
Hệ quyết
định
Lưu trữ
Lưu trữ
Hình 1.1. Sơ đồ quá trình xử lý ảnh
Nhận biết và đánh giá các nội dung của ảnh là sự phân tích một hình
ảnh thành những phần có ý nghĩa, để phân biệt đối tượng này với đối tượng
khác. Dựa vào đó ta có thể mô tả cấu trúc của hình ảnh ban đầu. Có thể liệt kê
một số phương pháp nhận dạng cơ bản như nhận dạng cạnh của các đối tượng
trên ảnh, tách cạnh, phân đoạn hình ảnh v.v Kỹ thuật này được dùng nhiều
trong y học (xử lý tế bào, nhiễm sắc thể), nhận dạng chữ trong văn bản.
1.1.2.1. Thu nhận ảnh:
Đây là bước đầu tiên trong quá trình xử lý ảnh. Để thực hiện điều này,
ta cần có bộ thu ảnh và khả năng số hoá những tín hiệu liên tục được sinh ra
bởi bộ thu ảnh đó. Bộ thu ảnh ở đây có thể là máy chụp ảnh đơn sắc hay màu,
máy quét ảnh, Trong trường hợp bộ thu ảnh cung cấp chưa phải là dạng số
dụ: để nhận dạng chữ (hoặc mã vạch) trên phong bì thư cho mục đích phân
loại bưu phẩm, cần chia các câu, chữ về địa chỉ hoặc tên người thành các từ,
các chữ, các số (hoặc các vạch) riêng biệt để nhận dạng.
Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi,
làm mất độ chính xác của ảnh. Kết quả nhận dạng ảnh phụ thuộc rất nhiều
vào công đoạn này.
Mục đích của phân đoạn ảnh là để có một miêu tả tổng hợp về nhiều
phần tử khác nhau cấu tạo lên ảnh thô. Vì lượng thông tin chứa trong ảnh rất
7
lớn, trong khi đa số các ứng dụng chúng ta chỉ cần trích một vài đặc trưng nào
đó, do vậy cần có một quá trình để giảm lượng thông tin khổng lồ đó. Quá
trình này bao gồm phân vùng ảnh và trích chọn đặc tính chủ yếu.
1.1.2.4. Hệ quyết định:
Ảnh là một đối tượng khá phức tạp về đường nét, độ sáng tối, dung
lượng điểm ảnh, môi trường để thu ảnh phong phú kéo theo nhiễu.
Trong nhiều khâu xử lý và phân tích ảnh ngoài việc đơn giản hóa các
phương pháp toán học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt
chước quy trình tiếp nhận và xử lý ảnh theo cách của con người. Trong các
bước xử lý đó, nhiều khâu hiện nay đã xử lý theo các phương pháp trí tuệ con
người. Vì vậy, ở đây các cơ sở tri thức được phát huy.
1.1.2.5. Trích chọn đặc điểm:
Việc giải quyết bài toán nhận dạng trong những ứng dụng mới nảy sinh
trong cuộc sống không chỉ tạo ra những thách thức về giải thuật, mà còn đặt
ra những yêu cầu về tốc độ tính toán.
Đặc điểm chung của tất cả ứng dụng đó là những đặc điểm đặc trưng
cần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải được
trích chọn dựa trên các thủ tục phân tích dữ liệu.
chữ thu được trong ảnh. Giải thích là công đoạn gán nghĩa cho một tập các
đối tượng đã được nhận biết.
Chúng ta cũng có thể thấy rằng, không phải bất kỳ một ứng dụng xử lý
ảnh nào cũng bắt buộc phải tuân theo tất cả các bước xử lý đã nêu ở trên, ví
dụ như các ứng dụng chỉnh sửa ảnh nghệ thuật chỉ dừng lại ở bước tiền xử lý.
Một cách tổng quát thì những chức năng xử lý bao gồm cả nhận dạng
và giải thích thường chỉ có mặt trong hệ thống phân tích ảnh tự động hoặc bán
tự động, được dùng để rút trích ra những thông tin quan trọng từ ảnh, ví dụ
như các ứng dụng nhận dạng ký tự quang học, nhận dạng chữ viết tay v.v…
9
1.1.3. Một số vấn đề cơ bản trong xử lý ảnh.
1.1.3.1. Ảnh :
Ảnh là một mảng số thực hai chiều (I
i j
) có kích thước (m*n), trong đó
mỗi phần tử I
i j
(i=1 m, j=1 n) biểu thị mức xám của ảnh tại vị trí (i, j) tương
ứng.
1.1.3.2. Điểm ảnh:
Gốc của ảnh là ảnh liên tục về không gian và độ sáng. Để xử lý bằng
máy tính, ảnh cần phải được số hoá.
Số hoá ảnh là sự biến đổi gần đúng một ảnh liên tục thành một tập điểm
phù hợp với ảnh thật về vị trí (không gian) và độ sáng (mức xám). Khoảng
cách giữa các điểm ảnh đó được thiết lập sao cho mắt người không phân biệt
được ranh giới giữa chúng.
Mỗi một điểm như vậy gọi là điểm ảnh (PEL: Picture Element [20])
nền.
F: là điểm đen
F : là điểm trắng
Quan hệ K liên thông (K = 4, 8) là một quan hệ phản xạ, đối xứng, bắc
cầu, là quan hệ tương đương. Mỗi lớp tương đương của nó biểu diễn một
thành phần K liên thông của ảnh. Về sau ta gọi mỗi thành phần K liên thông
của ảnh là một đối tượng ảnh.
1.1.3.7. Kỹ thuật phóng to, thu nhỏ ảnh:
Khi ảnh quá lớn chúng ta muốn nhìn toàn bộ ảnh thì chúng ta phải thu
nhỏ ảnh lại và ngược khi ta muốn xem chi tiết một bộ phận nào đó của ảnh thì
ta phải phóng to nó lên.
+ Kỹ thuật phóng to ảnh:
Khi phóng to ảnh với một tỉ lệ k nào đó ta thu được ảnh mới to gấp k
lần ảnh cũ (k là độ phóng của ảnh) như thế ảnh mới sẽ có kích thước là :
Height=Height*k
Width=Widht*k
P
3
P
2
P
1
P
4
P P
0
P
5
P1.2. Tổng quan về bài toán phát hiện góc nghiêng văn bản
1.2.1. Góc nghiêng và vai trò việc phát hiện góc nghiêng văn bản
Góc nghiêng văn bản là một bài toán kinh điển trong xử ý ảnh văn bản.
Giải quyết bài toán góc nghiêng là nhiệm vụ tiên quyết và cũng không thể
tránh khỏi của bất kỳ một hệ thống xử lý ảnh văn bản nào. Vì lẽ đó, cùng với
sự phát triển của xử lý ảnh nói chung và xử lý ảnh văn bản nói riêng, bài toán
góc nghiêng văn bản cũng được quan tâm ngày càng nhiều và dưới nhiều góc
độ khác nhau. Giải quyết được vấn để góc nghiêng văn bản sẽ làm cho hiệu
quả ở khâu nhận dạng văn bản tăng lên đáng kể. Có rất nhiều hướng tiếp cận
cho bài toán góc nghiêng văn bản từ trước tới nay. Các thuật toán phát hiện
góc nghiêng thường được xây dựng cho các hệ thống phân tích ảnh văn bản
khác nhau nên chỉ giải quyết cho những loại ảnh văn bản cụ thể.
Sau đây là một số hướng tiếp cận phổ biến cho bài toán góc nghiêng
văn bản.
1.2.2. Phương pháp phân tích hình chiếu (Profile Projection)
Đây là một trong những phương pháp phổ biến nhất trong phát hiện góc
nghiêng văn bản. Ý tưởng chính của phương pháp này là tính histogram cho
tất cả các góc lệch. Histogram của một góc là số điểm ảnh đen trong ảnh sao
cho các điểm này nằm trên những đường thẳng có cùng một hướng tương ứng
Tài liệu
Thiết bị thu nhận ảnh ảnh số
Hình 1.3 Tổng quan quá trình tạo ảnh tài liệu
13
bản là góc tương ứng có giá trị hàm tối ưu hóa cực đại.
Sự khác nhau chủ yếu của các thuật toán theo phương pháp này chính
là việc xây dựng các hàm rút gọn F và hàm tối ưu hóa Ω.
14
1.2.2.1 . Thuật toán Postl
Postl [18] dùng các tần số lấy mẫu theo chiều ngang và chiều dọc để
lấy các điểm đen trong ảnh làm các điểm cơ sở. Hàm rút gọn và hàm tối ưu
hóa như sau:
F
P
(I) ={ (x.∆ξ,y.∆ŋ,1)| 0 < x < w/∆ξ , 0< y <h/∆ŋ ,I(x.∆ξ, y.∆ŋ)=1 }
Ω
P
(A
Φ
)=Σ(A
Φ
[p+1] - A
Φ
[p])
2
Với (x,y) là tọa độ của điểm ảnh đại diện, ∆ξ và ∆ŋ là các ngưỡng kích
thước, w và h tương ứng là chiều rộng và chiều cao của ảnh.
1.2.2.2 . Thuật toán Baird
(I)={( x,y,w) | (x,y) là tọa độ góc trái dưới của hình chữ nhật bao
quanh một đối tượng, w là chiều rộng của hình chữ nhật }
Ω
P
(A
Φ
[p])=Σ(1-U(A
Φ
[p]))
Với U(A
Φ
[p])=1 nếu A
Φ
[p]=0, ngược lại U(A
Φ
[p])=0.
Phát hiện góc lệch văn bản bằng cách chiếu các góc là một phương
pháp đơn giản và dễ hiểu. Tuy nhiên, những thuật toán dựa trên phương pháp
này còn hạn chế nhiều về độ chính xác với các góc lệch lớn. Baird cho rằng
để thuật toán cho kết quả có độ chính xác cao thì góc lệch văn bản phải giới
hạn trong khoảng ±15
0
. Hơn nữa, nếu văn bản có nhiều nhiễu và các đối
tượng phi văn bản như bảng biểu, hình ảnh thì độ chính xác của thuật toán
còn giảm đi đáng kể.
1.2.2.4 . Nhận xét
Gần đây, người ta đã kết hợp phương pháp hình chiếu và phương pháp
các đối tượng với mục tiêu giải quyết vấn đề về giới hạn góc lệch. Tuy vậy,
phương pháp này lại phụ thuộc nhiều vào khoảng cách giữa các dòng văn bản
và quan trọng là chỉ xử lý được với những ảnh có chứa nhiều dòng văn bản và
)(x
i
y
i+1
– x
i+1
y
i
)
c
y
= (y
i
+ y
i+1
)(x
i
y
i+1
– x
i+1
y
i
) Như vậy tùy theo đa giác tìm được qua bước xác định điểm xa nhất
theo các hướng mà ta áp dụng thuật toán cho từng trường hợp cụ thể. Hình
chữ nhật được thay thế cho đa giác như trong hình 1.5 cũng được mô tả như là
+ Bước 3: Để có được đường cơ sở, tiến hành kẻ đường thẳng nối trọng
tâm đến gốc tọa độ. Hình 1.9 cho thấy đường cơ bản được tìm thấy.
+ Bước 4: Tìm góc của đường cơ sở so với trục ngang để phát hiện góc
nghiêng. Hình 1.10 cho thấy việc phát hiện góc nghiêng trên ảnh văn bản.
+ Bước 5: Xoay ảnh với góc nghiêng tìm được theo chiều ngược chiều
kim đồng hồ để được ảnh văn bản ngay ngắn, dễ nhìn.
Hình 1.6 Ảnh đầu vào và kết quả sau khi áp dụng thuật toán