Tìm hiểu phương pháp đánh giá độ chính xác của các hệ thống nhận dạng chữ Việt (LV thạc sĩ) - Pdf 45

Trang - i-

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN&TRUYỀN THÔNG
-----------------------------------

NGÔ MINH HIẾU

TÌM HIỂU PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ CHÍNH XÁC
CỦA CÁC HỆ THỐNG NHẬN DẠNG CHỮ VIỆT

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên 2015
Số hóa bởi Trung tâm Học liệu – ĐHTN




Trang - ii-

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN&TRUYỀN THÔNG
===================

NGÔ MINH HIẾU

TÌM HIỂU PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ CHÍNH XÁC
CỦA CÁC HỆ THỐNG NHẬN DẠNG CHỮ VIỆT

Chuyên ngành: Khoa học máy tính



Trang - 2-

LỜI CẢM ƠN
Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và lòng biết ơn sâu sắc tới
TS Nguyễn Thị Thanh Tân, người đã chỉ bảo và hướng dẫn tận tình cho tôi và
đóng góp ý kiến quý báu trong suốt quá trình học tập, nghiên cứu và thực hiện
luận văn này.
Tôi xin trân trọng cảm ơn Ban giám hiệu Trường Đại học Công nghệ
Thông tin và Truyền thông, Đại học Thái Nguyên, khoa CNTT đã giúp đỡ và
tạo các điều kiện cho chúng tôi được học tập và làm khóa luận một cách thuận
lợi.
Và cuối cùng tôi xin gửi lời cảm ơn đến gia đình, người thân và bạn bè,
những người luôn bên tôi và là chỗ dựa giúp cho tôi vượt qua những khó khăn
nhất. Họ luôn động viên tôi khuyến khích và giúp đỡ tôi trong cuộc sống và
công việc cho tôi quyết tâm hoàn thành luận văn này.
Tuy nhiên do thời gian có hạn, mặc dù đã nỗ lực cố gắng hết mình nhưng
chắc rằng luận văn khó tránh khỏi những thiếu sót. Rất mong được sự chỉ bảo,
góp ý tận tình của quý Thầy Cô và các bạn.
Tôi xin chân thành cảm ơn!
Thái Nguyên, ngày tháng năm 2015

Ngô Minh Hiếu

Số hóa bởi Trung tâm Học liệu – ĐHTN





2.2. Bài toán hiệu chỉnh chuỗi ký tự (string editing) ................................. 29
2.3. Thuật toán Ukkonen........................................................................... 34
Số hóa bởi Trung tâm Học liệu – ĐHTN




Trang - 4-

2.4. Đánh giá độ chính xác mức ký tự ....................................................... 40
2.5. Đánh giá độ chính xác mức ký tự theo lớp mẫu ................................. 44
2.6. Hiệu quả của các ký tự đánh dấu ........................................................ 44
2.7. Độ chính xác mức từ .......................................................................... 46
CHƯƠNG 3 :THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ................... 51
3.1.Phân tích, cài đặt chương trình ........................................................ 51
3.1.1.Quy trình thực hiện ...................................................................... 51
3.1.2.Các cấu trúc dữ liệu ...................................................................... 52
3.1.3.Danh sách các từ dừng trong tiếng Việt ........................................ 54
3.1.4 Danh sách các ký tự đặc biệt ........................................................ 55
3.1.5.Module đánh giá độ chính xác mức ký tự ..................................... 56
3.1.6.Module đánh giá độ chính xác mức từ .......................................... 58
3.2.Đánh giá thực nghiệm ....................................................................... 65
3.2.1Dữ liệu thực nghiệm ...................................................................... 65
3.2.2 Kết quả thực nghiệm .................................................................... 68
3.3.Kết luận chương 3 ............................................................................. 70
KẾT LUẬN ................................................................................................. 71
DANH MỤC TÀI LIỆU THAM KHẢO ................................................... 72

Số hóa bởi Trung tâm Học liệu – ĐHTN






Trang - 6-

BẢNG
Bảng 2.1: Giải thuật cho bài toán chỉnh sửa chuỗi ........................................ 33
Bảng 2.2: Độ chính xác mức ký tự ............................................................... 43
Bảng 3.1 Bảng danh sách các từ dùng trong tiếng Việt ................................. 55
Bảng 3.2 Thông tin các thao tác hiệu chỉnh .................................................. 57
Bảng 3.3 Thông tin về đánh giá độ chính xác mức ký tự .............................. 57
Bảng 3.4: Các tập dữ liệu tiếng Anh ............................................................. 66
Bảng 3.5: Các tập dữ liệu Tiếng Việt............................................................ 67
Bảng 3.6: Độ chính xác mức ký tự trên tập dữ liệu tiếng Anh ...................... 68
Bảng 3.7: Độ chính xác mức ký tự trên các tập dữ liệu tiếng Việt ................ 69
Bảng 3.8: Độ chính xác mức từ trêntập dữ liệu tiếng Anh ............................ 69
Bảng 3.9: Độ chính xác mức từ tập dữ liệu tiếng Việt .................................. 69

Số hóa bởi Trung tâm Học liệu – ĐHTN




Trang - 7-

DANH MỤC CÁC TỪ VIÊT TẮT
STT
1



Trang - 8-

MỞ ĐẦU
1. Tính cấp thiết của luận văn
Nhận dạngmẫu là một ngành khoa học mà vai trò của nó là phân lớp các
đối tượng thành một số loại hoặc một số lớp riêng biệt.Tuỳ thuộc vào lĩnh vực
ứng dụng, các đối tượng có thể ở dạng ảnh, dạng tín hiệu sóng hoặc một kiểu
dữ liệu bất kỳ nào đó mà cần phải phân lớp. Những đối tượng này được gọi
bằng một thuật ngữ chung đó là “mẫu” (pattern). Nhận dạng mẫu đã được biết
đến từ rất lâu, nhưng trước những năm 1960 nó hầu như chỉ là kết quả nghiên
cứu về mặt lý thuyết trong lĩnh vực thống kê. Tuy nhiên, với sự phát triển không
ngừng của khoa học kỹ thuật về phần cứng cũng như phần mềm, các yêu cầu
về mặt ứng dụng thực tế của lĩnh vực nhận dạng mẫu ngày càng tăng lên và
hiện nay nhận dạng mẫu đã được sử dụng trong rất nhiều lĩnh vực như y học,
tự động hoá một số qui trình sản xuất công nghiệp, dự báo thời tiết, dự báo cháy
rừng,v.v. Ngoài ra nhận dạng mẫu còn là thành phần quan trọng trong hầu hết
các hệ thống máy tính thông minh được xây dựng để thực hiện việc ra quyết
định.
Cùng với sự phát triển của nhận dạng mẫu, nhận dạng chữ đã và đang ngày
càng trở thành một ứng dụng không thể thiếu được trong đời sống xã hội của
con người.Nhận dạng chữ là quá trình chuyển đổi từ dạng hình ảnh của một
hay nhiều trang ảnh chứa các thông tin văn bảnthành tệp văn bản thực sự có thể
soạn thảo được trên máy tính. Ngoài ứng dụng số hóa các trang văn bản, tài
liệu, hiện tại nhận dạng chữ còn được ứng dụng rộng rãi trong các hoạt động
giao dịch hàng ngày và qui trình tự động hóa các công việc văn phòng, chẳng
hạn như nhập liệu tự động phiếu chấm thi trắc nghiệm, phiếu điều tra, nhận
dạng các dòng địa chỉ trên phong bì thư, nhận dạng nhãn sản phẩm, nhận dạng
thông tin cá nhân trên chứng minh nhân, hộ chiếu, card visit,v.v.


phẩm nhận dạng chữ Việt chưa thể đáp ứng được hết các yêu cầu của người sử
dụng, chẳng hạn như độ chính xác nhận dạng không cao đối với chữ viết tay và
các văn bản đầu vào kém chất lượng, chỉ làm việc với ảnh đa cấp xám hoặc ảnh
nhị phân có nền đồng nhất,...[1]. Vì những lý do nêu trên, việc đầu tư nghiên

Số hóa bởi Trung tâm Học liệu – ĐHTN




Trang - 10-

cứu để tiếp tục nâng cao độ chính xác của các thuật toán nhận dạng chữ Việt là
một vấn đề thực sự cần thiết, có cả ý nghĩa khoa học lẫn thực tiễn. Vấn đề lớn
nhất mà hiện nay các nhóm nghiên cứu về nhận dạng chữ Việt đang phải đối
mặt là chưa có được một bộ công cụ cũng như cơ sở dữ liệu mẫu chuẩn, phục
vụ cho việc thử nghiệm và đánh giá các thuật toán nhận dạng.
2. Mục tiêu của luận văn
Nội dung nghiên cứu của luận văn hướng tới 2 mục tiêu chính:
 Xây dựng bộ công cụ đánh giá độ chính xác của các phần mềm nhận
dạng chữ Việt.
 Xây dựng cơ sở dữ liệu mẫu chuẩn, phục vụ cho việc nghiên cứu,
đánh giá và thử nghiệm các thuật toán nhằm nâng cao chất lượng nhận
dạng.
Phần thực nghiệm, luận văn sẽ tiến hành đánh giá độ chính xác của một
sốphần mềm nhận dạng chữ hiện đang được thương mại hóa hoặc công
bố rộng rãi trên thị trường như VnDOCR,FineReader, Omnipage,
VietOCR...
3. Bố cục của luận văn
Các nội dung trình bày trong luận văn được chia thành 3 chương:


CHƯƠNG1 - TỔNG QUAN VỀ NHẬN DẠNG CHỮ
Nhận dạng chữ là lĩnh vực được nhiều nhà nghiên cứu quan tâm và cho
đến nay lĩnh vực này cũng đã đạt được nhiều thành tựu cả về mặt lý thuyết lẫn
ứng dụng thực tế.Chương này sẽ trình bày các khía cạnh tổng quan về bài toán
nhận dạng chữ. Trong đó, phần đầu tiên của chương sẽ đề cập đến các thao tác
xử lý cơ bản trong qui trình chung của bài toán nhận dạng chữ. Phần tiếp theo
là những tìm hiểu, khảo sát về các phần mềm nhận dạng chữ đang được công
bố và thương mại hóa trên thị trường như phần mềm FineReader, VnDOCR,
Omnipage, VietOCR. Phần cuối cùng trình bày và hệ thống lại những vấn đề
thường gặp trong bài toán nhận dạng cũng như các yếu tố ảnh hưởng đến chất
lượng của một hệ thống nhận dạng.

1.1. Qui trình chung của một hệ nhận dạng chữ
Qui trình chung của một hệ thống nhận dạng chữ thường gồm hai giai đoạn
là: Phân lớp mẫu và nhận dạng văn bản.
1.1.1. Phân lớp mẫu
Phân lớp (sắp lớp) mẫu là giai đoạn quyết định trong quá trình nhận dạng.
Hai kiểu phân lớp điển hình thường được sử dụng là: phân lớp có giám sát(học
có giám sát) và phân lớp không giám sát (học không giám sát). Các vấn đề
thường được đặt ra trong bước phân lớp là:
 Độ chính xác: Độ tin tưởng của một luật phân lớp được thể hiện bởi tỷ
lệ phân lớp đúng. Nhìn chung, độ chính xác được đo bởi tập dữ liệu học
và độ chính xác được đo bởi tập dữ liệu thử nghiệm là khác nhau. Đây
không phải là một điều bất thường, đặc biệt trong các ứng dụng học máy,
đối với tập dữ liệu học thì có thể đúng hoàn toàn, nhưng trên tập dữ liệu
thử nghiệm có khi kết quả lại rất tồi tệ. Khi nói đến độ chính xác của một
thuật toán phân lớp thì thường là nói đến độ chính xác trên tập dữ liệu
thử nghiệm. Kinh nghiệm thực tế cho thấy, độ chính xác của một thuật
Số hóa bởi Trung tâm Học liệu – ĐHTN

bước không thể thiếu được trong một hệ thống nhận dạng hay xử lý ảnh.
Các kỹ thuật thường được sử dụng trong quá trình tiền xử lý là: Phân
ngưỡng, căn chỉnh độ lệch trang văn bản, lọc nhiễu, nối nét đứt trên ảnh,...
Số hóa bởi Trung tâm Học liệu – ĐHTN




Trang - 14-

3. Phân đoạn ảnh:Đây là một trong những công đoạn quan trọng nhất trọng
nhất của quá trình nhận dạng và có ảnh hưởng lớn đến kết quả nhận dạng.
Hai cách tiếp cận phổ biến được đề xuất trong quá trình phân đoạn ảnh là:
 Cách tiếp cận trên xuống (top-down): Toàn bộ ảnh văn bản cần phân
đoạn được coi là một khối lớn, sau đó khối này được phân thành các khối
nhỏ hơn, các khối nhỏ này lại tiếp tục được phân thành các khối nhỏ hơn
nữa cho đến khi thu được các ký tự hoặc không thể phân nhỏ hơn được
nữa. Nhìn chung, với cách tiếp cận này, phương pháp thường dùng để
phân đoạn ảnh là sử dụng các biểu đồ tần suất ngang và dọc. Tuy nhiên,
do biểu đồ tần suất bị ảnh hưởng nhiều bởi độ nghiêng trang văn bản nên
trước khi xử lý phân đoạn, ta thường phải căn chỉnh độ lệch của trang
văn bản.
 Cách tiếp cận dưới lên (bottom-up): Quá trình phân đoạn bắt đầu bằng
việc xác định những thành phần nhỏ nhất, sau đó gộp chúng lại thành
những thành phần lớn hơn, cho đến khi thu được tất cả các khối trong
trang văn bản.

Số hóa bởi Trung tâm Học liệu – ĐHTN



học thêm những mẫu này sẽ góp phần làm tăng chất lượng của hệ thống
nhận dạng.
6. Hậu xử lý: Đây là một trong những công đoạn cuối cùng của quá trình
nhận dạng. Trong nhận dạng chữ, có thể hiểu hậu xử lý là bước ghép nối các
ký tự đã nhận dạng được thành các từ, các câu, các đoạn văn nhằm tái hiện

Số hóa bởi Trung tâm Học liệu – ĐHTN




Trang - 16-

lại văn bản đồng thời phát hiện ra các lỗi nhận dạng bằng cách kiểm tra
chính tả dựa trên cấu trúc và ngữ nghĩa của câu, đoạn văn. Việc phát hiện ra
các lỗi, các sai sót trong nhận dạng ở bước này đã góp phần đáng kể vào
việc nâng cao kết quả nhận dạng. Đặc biệt đối với các ảnh văn bản đầu vào
không tốt (chẳng hạn: Bản in bị mờ, bị đứt nét do photo nhiều lần,...) hoặc
các văn bản in chứa nhiều thông tin hỗn hợp (chẳng hạn: Trong văn bản có
cả số lẫn chữ và các ký hiệu), điều này rất dễ gây nhầm lẫn trong nhận dạng.
Thậm chí có những trường hợp nhập nhằng chỉ có thể giải quyết được bằng
ngữ cảnh bằng cách phân tích ngữ cảnh của câu, chẳng hạn như trường hợp
nhập nhằng giữa từ “lO” với số “10”.
7. Lưu văn bản: Sau khi văn bản cần nhận dạng đã được tái tạo về dạng
nguyên bản sẽ được lưu lại ở các định dạng file được hệ thống hỗ trợ, chẳng
hạn như file dạng (.doc, .rtf, .xls, ...).

1.2.Tìm hiểu một số phần mềm nhận dạng chữ
1.2.1.VnDOCR
Phần mềm nhận dạng tiếng Việt VnDOCR là một sản phẩm của Viện




Trang - 18-

Các tính năng chính:
- Tiền xử lý: Căn chỉnh độ nghiêng, tăng cường chất ảnh (xóa nhiễu, làm
dày nét chữ nhằm nối nét đứt, làm mỏng nét chữ,… ).
- Phân tích cấu trúc trang văn bản nhằm xác định các vùng thông tin khác
nhau (chẳng hạn vùng ảnh, vùng văn bản, vùng bảng, các dạng tiêu
đề…).
- Nhận dạng văn bản: Nhận dạng các khối văn bản đã được xác định ở
bước phân trang.
- Hậu xử lý: Định dạng lại trang văn bản ban đầu, chỉnh lỗi chính tả,…
Một số hạn chế của phần mềm (Tính đến phiên bản 4.0)
- VnDOCR chỉ làm việc với ảnh đen trắng.
- Với ảnh có cấu trúc vật lí phức tạp thì hiệu quả phân tích trang và độ
chính xác nhận dạng còn chưa cao.
1.2.2.FineReader
FineReader là một sản phẩm của hãng ABBYY, có khả năng nhận dạng đa
ngôn ngữ (198 ngôn ngữ) bao gồm cả ngôn ngữ tiếng Việt.[19]

Hình 1.3:Màn hình làm việc của FineReader

Số hóa bởi Trung tâm Học liệu – ĐHTN




Trang - 19-



Trang - 20-

1.2.3.OmniPage
OmniPage là phần mềm nhận dạng văn bản của Nuance, có khả năng nhận
dạng trên 120 ngôn ngữ, độ chính xác có thể đạt tới 99% trên các file ảnh đầu
vào chất lượng tốt.[20]

Hình 1.4: Màn hình làm việc của OmniPage

Các tính năng cơ bản của phần mềm:
 Hỗ trợ nhiều định dạng file ảnh, bao gồm cả file pdf.
 Nhận dạng chính xác tới 99% trên hơn 120 ngôn ngữ khác nhau
 Nhận dạng được các trang có nhiều loại font, kiểu font hoặc có nền
là ảnh màu.
Hạn chế của phần mềm:
OminiPage chưa hiệu quả với các ảnh có cấu trúc phức tạp.
1.2.4. VietOCR
Phần mềm VietOCR được xây dựng từ engine nhận dạng mã nguồn mở
Tesseract của Google. VietOCR có thể hoạt động trên nhiều hệ điều hành khác
nhau như: Windows, Linux,…
Số hóa bởi Trung tâm Học liệu – ĐHTN




Trang - 21-

Hình 1.5: Màn hình làm việc của VietOCR

defect). Những lỗi này thường bao gồm các ký tự bị dính, bị nhiễu, in quá đậm,
các ký tự bị mờ, đứt hoặc mất nét. Ngoài ra các nhiễu vệt và các đường baseline
cong cũng là những nguyên nhân gây ảnh hưởng đến chất lượng nhận dạng.
Các lỗi hình ảnh thường sinh ra trong quá trình in ấn (printing process) hoặc
quá trình thu nhận hình ảnh (scanning process). Các băng mực máy in quá đậm
có thể tạo ra các ký tự bị nhòe hoặc có vết bẩn, trong khi các băng mực bị mòn
sẽ sinh ra các bản in mờ nhạt. Việc sao chụp (photocopy) các văn bản nhiều lần
sẽ làm mất dần các thông tin làm cho các ký tự trên đó bị đứt, gẫy và mất nét.Ở
bước thu nhận hình ảnh, các phần mềm điều khiển thiết bị quét thường cho
phép người dùng hiệu chỉnh ngưỡng độ sáng thông qua chức năng điều khiển
độ sáng (brightness control). Việc lựa chọn giá trị ngưỡng này ảnh hưởng trực
tiếp tới độ chính xác của hệ thống OCR bởi vì nếu chọn ngưỡng thấp sẽ làm
cho các ký tự bị đứt, mất nét (broken characters), nếu chọn ngưỡng cao sẽ làm
cho các ký tự bị dính (touching characters). Giá trị ngưỡng này đôi khi cũng
bất thường do các nhiễu nhiệt hoặc nhiễu điện, bản thân độ nhạy cảm
(sensitivity) cũng có thể rất khác nhau giữa các phần tử cảm ứng của máy quét
do sự không hoàn hảo của qui trình sản xuất. Do đó, các ký tự giống hệt nhau

Số hóa bởi Trung tâm Học liệu – ĐHTN




Trang - 23-

trên các phần khác nhau trên trang văn bản có thể có hình ảnh nhị phân khác
nhau[1].
1.3.1.Chữ bị dính, nhòe
Tách ký tự (character segmentation) là quá trình xác định vị trí của các ký
tự riêng biệt trong một từ. Khi các ký tự bị dính nhau hoặc bị nhòe do chữ được


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status