Nhận dạng chữ nôm bằng máy véc tơ hỗ trợ (SVM) - Pdf 30

Nhận dạng chữ Nôm bằng máy véc - tơ hỗ trợ
(SVM) Trần Nghi Phú

Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội
Luận văn ThS. Công nghệ thông tin : 60 48 10
Người hướng dẫn : PGS.TS. Nguyễn Ngọc Bình
Năm bảo vệ: 2013
74 tr .

Abstract. Nghiên cứu bước trích chọn đặc trưng và nhận dạng trong sơ đồ hệ thống
nhận dạng chữ Nôm tổng thể do LES-Nom xây dựng. Trong bước trích chọn đặc trưng
chọn phương pháp trích chọn đặc trưng trọng số vùng (Zoning). Trong bước nhận
dạng đề tài tìm hiểu kỹ thuật Máy véc-tơ hỗ trợ (SVM) và đưa mô hình ứng dụng
SVM trong nhận dạng chữ Nôm từ đó đưa ra những đánh giá và đề xuất các hướng
nghiên cứu cải tiến
Keywords. Công nghệ phần mềm; Nhận dạng chữ nôm; Máy Véc tơ; Nhận dạng ký tự
Content.
1. Tính cấp thiết
Chữ Nôm là một di sản văn hoá minh chứng cho truyền thống văn hiến lâu dài
của dân tộc Việt Nam. Nghiên cứu chữ Nôm góp phần khẳng định tự hào dân tộc,
khám phá những nét văn hóa, lịch sử, khoa học đặc sắc qua từng thờ kỳ của dân tộc.
Do đó việc phục hồi và phát triển chữ Nôm đang được xã hội ngày càng qua tâm qua
nhiều hoạt động, công trình nghiên cứu ở nhiều phương diện ngôn ngữ học, lịch sử,
văn hóa… Song nghiên cứu chữ Nôm vẫn đang còn nhiều nhiệm vụ khó khăn, một
trong đó là nhiệm vụ của công nghệ thông tin - xây dựng bộ nhận dạng ký tự quang
học cho chữ Nôm hay Nôm-OCR.
Với tất cả các chữ viết phổ biến trên thế giới, việc xây dựng OCR cho các chữ
viết đó trở thành một trong những nhiệm vụ nghiên cứu quan trọng. Với những nỗ lực

Các bộ OCR tượng hình như tiếng Trung, Nhật đã được nghiên cứu nhiều và
đạt được những kết quả khả quan, được ứng dụng rộng rãi trong thực tế có thể kể đến
sản phẩm nguồn mở Tesseract, KanjiPad - phần mềm nhận dạng chữ viết tay Nhật
Bản, Readiris Pro 11 Corporate Edition - phần mềm nhận dạng chữ Trung Quốc đạt tới
độ chính xác 98%, HWPen - phần mềm nhận dạng chữ viết tay Trung Quốc tích hợp
trên iPhone và đặc biệt sản phẩm thương mại ABBY… đạt độ chính xác gần như tuyệt
đối với ký tự in các ngôn ngữ.
Nói tóm lại, các chủ đề liên quan đến chữ Nôm cũng như OCR đã được quan
tâm và đạt nhiều thành quả cao, riêng lĩnh vực nghiên cứu kết hợp 2 yếu tố này vẫn là
bài toán mở, cần những nghiên cứu mới.
3. Đối tượng và phạm vi nghiên cứu
Chúng tôi tập trung nghiên cứu bài toàn nhận dạng chữ Nôm nhằm xây dựng bộ
phần mềm nhận dạng chuyển đổi từ ảnh của một ký tự Nôm về mã Unicode của ký tự
đó tiến hành tra cứu nghĩa căn cứ trên từ điển hoặc kết hợp với các hệ thống khác.
Hệ thống OCR bao gồm nhiều thành phần như tiền xử lý, trích chọn đặc trưng,
nhận dạng, hậu xử lý. Đề tài tập trung nghiên cứu bước trích chọn đặc trưng và nhận
dạng. Với tập dữ liệu đầu vào để huấn luyện và nhận dạng là kho mẫu NOM-DB0
chứa 495 chữ Nôm, mỗi chữ 24 mẫu, mỗi chữ trên 1 ảnh đã được cắt bó sát.
4. Mục đích và nhiệm vụ nghiên cứu
Đề tài tập trung nghiên bước trích chọn đặc trưng và nhận dạng trong sơ đồ hệ
thống nhận dạng chữ Nôm tổng thể do LES-Nom xây dựng. Trong bước trích chọn đặc
trưng chọn phương pháp trích chọn đặc trưng trọng số vùng (Zoning). Trong bước
nhận dạng đề tài tìm hiểu kỹ thuật Máy véc-tơ hỗ trợ (SVM) và đưa mô hình ứng dụng
SVM trong nhận dạng chữ Nôm từ đó đưa ra những đánh giá và đề xuất các hướng
nghiên cứu cải tiến.
5. Những nội dung nghiên cứu
Chúng tôi tìm hiểu tổng quan về chữ Nôm và bài toán nhận dạng chữ Nôm
nhằm mục đích để xây dựng bộ nhận dạng Nôm-OCR. Để tiến hành các nghiên cứu
đánh giá, nhóm tác giả cùng nghiên cứu về chữ Nôm trong LES-Nôm tiến hành xây
dựng bộ dữ liệu mẫu Nôm-DB0. Trên cơ sở những kết quả về nhận dạng đã áp dụng

Nôm Va
̀
o Thiết Bi
̣
Cầm Tay.
3. Phạm Văn Huởng, Trần Minh Tuấn, Nguyễn Thị Ngọc Hương, Bùi Thị Hồng Hạnh,
Lê Hồng Trang, Vũ Thanh Nhân, Trương Anh Hoàng, Vũ Quang Dũng, Nguyễn
Ngọc Bình (2008), “Một số phương pháp nhận dạng chữ Nôm”, Hội thảo Khoa học
Quốc gia Lần thứ IV về CNTT-TT (ICT.rda’2008), Hà Nội.
4. Tống Phước Khải & Lê Anh Minh (2004), HaNoSoft Tool 2004 (for Windows
2000/XP), Kỷ yếu Hội nghị Quốc tế về chữ Nôm lần thứ nhất, Hà Nội.
5. Phòng Nhận dạng và Xử lý ảnh - Viê
̣
n công nghê
̣
thông tin (1998), Phần mềm nhâ
̣
n
dạng chữ Việt in.
6. Trần Thị Thanh(2007), Vài nét về cách cấu tạo chữ Nôm qua tác phẩm Thanh hóa
quan phong, Trường ĐH Khoa học Huế.
7. Ngô Trung Việt & Ngô Thanh Nhàn(2004), Một cách nhìn về tương lại của chữ
Nôm, Hội nghị Chữ Nôm Quốc tế, Hà Nội, Việt Nam.
8. Trần Nguyên Hoàng (2013), Nhận dạng chữ Nôm bằng mạng nơ-ron, Luận văn thạc
sĩ, Đại học Công nghệ - Đại học quốc gia Hà Nội, Hà Nội.
9.
Nguyễn Triệu Tuấn (2013), Trích chọn đặc trưng trong nhận dạng chữ
Nôm,
Luận văn thạc sĩ, Đại học Công nghệ - Đại học quốc gia Hà Nội, Hà Nội.
Tiếng Anh

comparison of Tesseract and ABBYY FineReader OCR engines, National Library
of the Netherlands.
23. T.K. Ho, J.J. Hull, S.N. Srihari (1994), Decision combination in multiple classifier
systems, IEEE Trans. PAMI 16 (1) (1994) 66 75
24. C L. Liu, R. Mine, M. Koga (2005), Building compact classifier for large
character set recognition using discriminative feature extraction, Proceedings of
the Eighth ICDAR, Seoul, Korea, 2005, pp. 846-850
25. Hiromichi Fujisawa (2008), Forty years of research in character and document
recognition—an industrial perspective, Pattern Recognition, Volume 41, Issue 8,
Pages 2435–2446
26. Truyen Van Phan, Bilan Zhu and Masaki Nakagawa(2012), Collecting
Handwritten Nom Character Patterns from Historical Document Pages, IAPR
International Workshop on Document Analysis Systems.
Tiếng Pháp
27. Dương Quảng Hàm (1942), Extrait du Bulletin général de l’Instruction publique,
No 7, Mars 1942 – pp. 227-286: Le Chữ Nôm ou écriture démotique, son
importance dans l’étude de l’ancienne litérature annamite.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nhận dạng chữ nôm bằng máy véc tơ hỗ trợ (SVM) - Pdf 30

Tài liệu, ebook tham khảo khác

Học thêm