ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THANH BÌNH
NGHIÊN CỨU PHƢƠNG PHÁP
NHẬN DẠNG CHỮ HÁN - NÔM DỰA TRÊN GỐC TỪ
Ngành:
Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
Mã số:
60480103
LUẬN VĂN THẠC SĨ
Hà Nội – 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THANH BÌNH
NGHIÊN CỨU PHƢƠNG PHÁP
NHẬN DẠNG CHỮ HÁN - NÔM DỰA TRÊN GỐC TỪ
Ngành:
Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
cũng nhƣ văn hóa dân tộc, cũng nhƣ những ý tƣởng gợi mở trong nghiên cứu và
sự hỗ trợ của thầy trong quá trình tìm và giải thích các công trình nghiên cứu về
chữ tƣợng hình vốn rất hiếm và đƣợc viết bằng tiếng Trung, Nhật. Xin cảm ơn
thầy hết lòng giúp đỡ, động viên và tạo mọi điều kiện thuận lợi cho tôi trong
suố t quá trin
̀ h nghiên cứu và hoàn thành luâ ̣n văn tố t nghiê ̣p.
Tôi xin gửi lời cảm ơn thân mến đến nhóm nghiên cứu LES-Nôm, đặc
biệt là NCS Phạm Văn Hƣởng đã giúp đỡ tôi nhiều kiến thức và kinh nghiệm
quý báu để tôi hoàn thành luận văn này.
Tôi xin gửi lời cảm ơn tới thầy Nguyễn Đình Kế - Nguyên giảng viên
trƣờng Đại học Ngoại ngữ - ĐHQGHN, cô Trân Minh Thùy – Giảng viên khoa
ngoại ngữ trƣờng Cao đẳng Hải Dƣơng là những ngƣời đã giúp tôi hiểu thêm về
chữ Nôm cũng nhƣ giúp tôi trong việc xây dựng bộ dữ liệu gốc từ của chữ Nôm
Tôi xin đƣợc gửi lời cảm ơn đến các tác giả, nhóm tác giả của những giáo
trình, những công trình khoa học và những bài báo khoa học mà tôi tham khảo
để hoàn thiện luận văn này.
Tác giả
MỤC LỤC
MỞ ĐẦU ............................................................................................................... 1
1. Tính cấp thiết................................................................................................. 1
2. Tình hình nghiên cứu .................................................................................... 1
3. Đối tƣợng và phạm vi nghiên cứu ................................................................. 2
4. Mục đích và nhiệm vụ nghiên cứu ................................................................ 2
5. Những nội dung nghiên cứu .......................................................................... 2
6. Kết cấu luận văn ............................................................................................ 3
Chƣơng 1: TỔNG QUAN VỀ CHỮ NÔM ........................................................... 4
1.1. Giới thiệu về chữ Nôm ............................................................................... 4
1.1.1. Lịch sử hình thành và phát triển.......................................................... 4
3.3.2. Cơ sở dữ liệu gốc từ .......................................................................... 45
3.3.3. Nhận dạng gốc từ .............................................................................. 48
3.3. Nhận dạng chữ Nôm dựa trên gốc từ ....................................................... 54
3.3.1. Tập đặc trƣng dựa trên gốc từ ........................................................... 54
3.3.2. Nhận dạng dựa trên so khớp gốc từ .................................................. 55
3.3.3. Nhận dạng dựa trên đặc trƣng gốc từ và mô hình Entropy cực đại .. 58
TỔNG KẾT CHƢƠNG 3 .................................................................................... 59
Chƣơng 4. THỰC NGHIỆM ............................................................................... 60
4.1. Mô hình thực nghiệm ............................................................................... 60
4.2. Xây dựng chƣơng trình thực nghiệm ....................................................... 61
4.3. Bộ dữ liệu thực nghiệm ............................................................................ 62
4.4. Kết quả thực nghiệm và đánh giá............................................................. 62
TỔNG KẾT CHƢƠNG 4 .................................................................................... 64
KẾT LUẬN ......................................................................................................... 65
DANH MỤC TÀI LIỆU THAM KHẢO ............................................................ 66
PHỤ LỤC A ........................................................................................................ 68
PHỤ LỤC B ........................................................................................................ 84
PHỤ LỤC C ........................................................................................................ 84
C.1. Chƣơng trình phân tích, nhận dạng và trích xuất đặc trƣng gốc từ......... 84
C.2. Chƣơng trình nhận dạng chữ Nôm theo gốc từ và MEM........................ 85
DANH MỤC CÁC TỪ VIẾT TẮT
STT
Từ viết
tắt
Nhận dạng ký tự quang
học
5
OS
Operating System
Hệ điều hành
6
OVO
One Versus One
Một với một
7
OVR
One Versus The Rest
Một với phần còn lại
PD
SVM
Support Vector Machine
Máy véc-tơ hỗ trợ
3
4
8
KSVM
DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1 Kết quả nhận dạng bằng phƣơng pháp mạng nơ-ron .......................... 20
Bảng 2.2. Kết quả thực nghiệm KSVM với bộ dữ liệu NOM-DB0 ................... 22
Bảng 2.3. Mô tả giá trị chuyển đổi giữa hai chữ Nôm ....................................... 25
Bảng 2.4. Kết quả thực nghiệm theo khoảng cách soạn thảo văn bản................ 26
Bảng 2.5. So sánh kết quả nhận dạng giữa các phƣơng pháp ............................. 28
Bảng 3.1 Cấu tạo gốc từ các ký tự chữ Nôm ...................................................... 30
Bảng 3.2. Ví dụ về các kiểu ký tự trong chữ Nôm.............................................. 38
Bảng 3.3. Thống kê gốc từ của các chữ Nôm trong Nom-DB0 .......................... 45
Bảng 3.4. Thông tin gốc từ đƣợc tạo ra từ Nom-DB0 ........................................ 46
Bảng 3.5. Ví dụ về thống kê các gốc từ theo vị trí.............................................. 47
Bảng 3.6. Bảng tra cứu nét và điểm .................................................................... 56
Bảng 4.1. Kết quả thực nghiệm ........................................................................... 63
Bảng 4.2. So sánh kết quả nhận dạng giữa các phƣơng pháp ............................. 63
Hình 3.13. Đƣờng cắt sau khi xác định khoảng cách theo chiều dọc hoặc chiều
ngang ................................................................................................................... 42
Hình 3.13. Phân cụm nét cho ký tự kiểu trên-dƣới và trái-phải ......................... 44
Hình 3.14. Ví dụ về kết quả tách gốc từ.............................................................. 45
Hình 3.15. Cấu trúc cơ sở dữ liệu tri thức của gốc từ ......................................... 48
Hình 3.15. Nhận dạng gốc từ dựa trên mô hình Entropy cực đại ....................... 52
Hình 3.16. Biểu diễn đặc trƣng của gốc từ trong chữ Nôm ................................ 53
Hình 3.17. Ví dụ một số chữ Nôm đƣợc nhận dạng ........................................... 53
Hình 3.18. Kết quả tách gốc từ ........................................................................... 54
Hình 3.19. Các gốc từ có cùng số nét và số điểm giao ....................................... 55
Hình 3.20. Nhận dạng chữ Nôm dựa trên gốc từ ................................................ 56
Hình 3.21. Kết quả so sánh dựa vào vị trí và đặc điểm của gốc từ ..................... 58
Hình 3.22. Đặc trƣng gốc từ ................................................................................ 59
Hình 3.23. Đặc trƣng gốc từ kết hợp với tọa độ điểm ảnh.................................. 59
Hình 4.1. Quy trình tiến hành thực nghiệm ........................................................ 60
Hình 4.2. Giao diện chƣơng trình tạo gốc từ và lƣu đặc trƣng gốc từ ................ 62
Hình 4.3. Giao diện chƣơng trình huấn luyện ..................................................... 62
Hình C.1. Các thành phần chính trong chƣơng trình phân tách, nhận dạng và
trích chọn đặc trƣng gốc từ.................................................................................. 84
Hình C.2. Minh họa mã nguồn hàm tìm gốc từ. ................................................. 85
Hình C.3. Các thành phần chính trong chƣơng trình nhận dạng chữ Nôm theo
MEM và các đặc trƣng dựa trên gốc từ............................................................... 85
Hình C.4. Minh họa mã nguồn nhận dạng theo MEM và đặc trƣng gốc từ. ...... 86
1
MỞ ĐẦU
1. Tính cấp thiết
2
chữ Nôm đã đƣợc xây dựng. Và một trong những bƣớc đi tiếp của lộ trình trên
là xây dựng OCR-Nôm, nhƣng hiện tại vẫn chƣa có kết quả nghiên cứu nào đề
cập đến vấn đề trên, có thể do có những khó khăn nhất định và một trong những
khó khăn thƣờng gặp là vấn đề về dữ liệu để nghiên cứu.
Các bộ OCR tƣợng hình nhƣ tiếng Trung, Nhật đã đƣợc nghiên cứu nhiều
và đạt đƣợc những kết quả khả quan, đƣợc ứng dụng rộng rãi trong thực tế có
thể kể đến sản phẩm nguồn mở Tesseract, KanjiPad - phần mềm nhận dạng chữ
viết tay Nhật Bản, Readiris Pro 11 Corporate Edition - phần mềm nhận dạng chữ
Trung Quốc đạt tới độ chính xác 98%, HWPen - phần mềm nhận dạng chữ viết
tay Trung Quốc tích hợp trên iPhone và đặc biệt sản phẩm thƣơng mại ABBY…
đạt độ chính xác gần nhƣ tuyệt đối với ký tự in các ngôn ngữ.
Nói tóm lại, các chủ đề liên quan đến chữ Nôm cũng nhƣ OCR đã đƣợc
quan tâm và đạt nhiều thành quả cao, riêng lĩnh vực nghiên cứu kết hợp 2 yếu tố
này vẫn là bài toán mở, cần những nghiên cứu mới.
3. Đối tƣợng và phạm vi nghiên cứu
Chúng tôi tập trung nghiên cứu bài toàn nhận dạng chữ Nôm nhằm xây
dựng bộ phần mềm nhận dạng chuyển đổi từ ảnh của một ký tự Nôm về mã
Unicode của ký tự đó tiến hành tra cứu nghĩa căn cứ trên từ điển hoặc kết hợp
với các hệ thống khác.
Hệ thống OCR bao gồm nhiều thành phần nhƣ tiền xử lý, trích chọn đặc
trƣng, nhận dạng, hậu xử lý. Đề tài tập trung nghiên cứu bƣớc trích chọn đặc
trƣng và nhận dạng theo phƣơng pháp gốc từ với tập dữ liệu là kho mẫu NOMDB0 chứa 495 chữ Nôm.
4. Mục đích và nhiệm vụ nghiên cứu
Đề tài tập trung nghiên cứu bƣớc trích chọn đặc trƣng và nhận dạng trong
sơ đồ hệ thống nhận dạng chữ Nôm tổng thể do LES-Nom xây dựng, sử dụng
phƣơng pháp tách gốc từ (radical).
5. Những nội dung nghiên cứu
Nghiên cứu cấu trúc chữ Nôm và các thành phần của nó để từ đó đƣa ra
trƣờng học. Sau thời Sĩ Nhiếp, chữ Hán đƣợc khuyến khíc học tập trong mọi
tầng lớp. Nhiều trí thức bình dân đã có thế dùng chữ Hán để ghi chép về địa chí,
phong tục, hƣơng ƣớc các vùng. Cùng với tình hình này , việc ghi tên ngƣời, tên
đất địa phƣơng cũng trở thành một nhu cầu. Đầu tiên ngƣời ta dùng chữ Hán để
ghi tên Việt, nhƣng giữa cách đọc một âm tiết Hán với một âm tiết Việt lúc ấy
có một khoảng cách nhất định, nên âm Hán chỉ có thể đọc na ná âm Việt. Nhƣ
vậy giữa chữ Hán ghi âm Hán với chữ Hán ghi na ná âm Việt đã có sự khác
nhau về chất, nó ghi lại hệ thống ngữ âm khác nhau, hai ngôn ngữ khác nhau.
Lần đầu tiên, chữ Hán đã đƣợc dùng để ghi âm Việt và nhƣ vậy là đã xuất hiện
những chữ Nôm ban đầu. Cùng với sự phát triển của nhu cầu ghi chép nền văn
hóa Việt, chữ Nôm cũng ngày càng phát triển và tự hoàn thiện để việc ghi chép
tiếng Việt đƣợc hữu hiệu hơn.
Trải qua thời gian phát triển theo lịch sử khi kết thúc thời kỳ chịu ách đô
hộ của Trung Quốc vào năm 939 chữ Nôm đã đƣợc lựa chọn trở thành chữ quốc
ngữ nhƣ một tất yếu. Trong một thời gian dài khoảng 10 thế kỷ hầu hết các tài
liệu trong các lĩnh vực văn học, triết học, sử học, luật pháp, y khoa, tôn giáo và
hành chính đƣợc viết bằng chữ Nôm. Đặc biệt trong chiều đại nhà Tây Sơn (từ
năm 1788 đến 1802) chữ Nôm đƣợc sử dụng trong toàn bộ văn kiện hành chính
[7].
Từ thế kỷ 15 với Quốc âm thi tập của Nguyễn Trãi, kế đến thế kỷ 16 với
Bạch Vân Am thi tập của Nguyễn Bỉnh Khiêm, chữ Nôm đã chứng tỏ có nhiều
khả năng diễn tả không những tình cảm mà còn tƣ tƣởng của ngƣời Việt. Chỉ
tính riêng ở lĩnh vực văn học, chữ Nôm đã có vai trò đặc biệt quan trọng trong
việc tạo nên một nền văn học Việt nam rực rỡ xuyên suốt nhiều thế kỷ. Từ chữ
5
Nôm, nền văn học Việt nam sinh ra ba thể loại độc đáo của riêng Việt nam
là Truyện thơ Nôm Lục Bát, Ngâm Khúc (song thất lục bát) và Hát Nói (trong ca
trù). Sự sáng tạo đó đã để lại cho đời sau những di sản thơ Nôm vô giá.
âm ở trên, hình tố nghĩa ở dƣới, hoặc ngƣợc lại hình tố âm ở dƣới hình tố nghĩa
ở trên. Đây gọi là cấu trúc trên dƣới. Chữ thuộc đồ hình 3 gồm hai hình tố âm và
nghĩa hợp thành, hình tố âm viết bên trái hình tố nghĩa hoặc ngƣợc lại. Đây gọi
là cấu trúc phải trái. Chữ thuộc đồ hình 4 cũng gồm hai hình tố âm và nghĩa.
7
Hình tố âm bao bên trái bên trên và bên phải hình tố nghĩa hoặc ngƣợc lại hình
tố nghĩa là hình tố bao. Gọi là cấu trúc bao trái bên phải. Chữ thuộc đồ hình 5
cũng là cấu trúc bao nhƣng ngƣợc hƣớng với đồ hình 4. Hình tố âm bao trái dƣới
và phải hình tố nghĩa. Kiểu đồ hình này rất ít gặp. Chữ thuộc đồ hình 6 cũng là
cấu trúc bao gồm hai hình tố âm và nghĩa. Hình tố âm bao bên trên, bên trái và
bên dƣới hình tố nghĩa hoặc ngƣợc lại hình tố nghĩa là hình tố bao. Đây gọi là
cấu trúc bao trên trái dƣới. Chữ thuộc đồ hình 7 gồm hai hình tố âm và nghĩa.
Hình tố âm bao bên phải và bên trên hình tố nghĩa hoặc ngƣợc lại hình tố nghĩa
bao bên phải và bên trên hình tố âm - gọi là kiểu cấu trúc bao phải trên. Chữ
thuộc đồ hình 8 cũng gồm hai hình tố âm và nghĩa. Hình tố âm bao bên trái và
bên dƣới hình tố nghĩa hoặc ngƣợc lại hình tố nghĩa bao hình tố âm gọi là cấu
trúc bao trái dƣới. Chữ thuộc đồ hình 9 gồm hình tố âm và hình tố nghĩa. Hình
tố âm bao bên trái và trên hình tố nghĩa, hoặc ngƣợc lại hình tố nghĩa bao hình
tố âm. Đây gọi là cấu trúc bao trái trên.
1.3. Tin học hóa và ứng dụng chữ Nôm
Có lẽ đối với không ít ngƣời thì chữ Nôm là thứ văn tự của quá khứ, và
ngày nay chỉ cần đào tạo một số chuyên gia để tiếp xúc với nó, với các văn bản
Hán Nôm do ngƣời xƣa để lại, là đủ rồi. Do đó, việc tin học hoá chữ Nôm phải
chăng là cần thiết phải đặt ra? Câu hỏi này trên thực tế đã đƣợc nêu ra hơn mƣời
năm trƣớc đây, và đến nay, đã có đƣợc những bƣớc đi ban đầu của nhiều chuyên
gia trong lĩnh vực Hán Nôm và lĩnh vực Công nghệ Thông tin theo hƣớng khẳng
định sự cần thiết của Tin học hoá chữ Nôm nhằm đáp ứng một loạt các nhu cầu
mới trong đời sống xã hội ngày nay.
chữ Nôm theo các thành tố trực tiếp, đồng thời thực hiện chuẩn hoá các thành tố
đó theo các phong cách viết chữ khác nhau. Từ đó xác lập sự tƣơng đồng và
tƣơng dị giữa các thành tố về hình thể, về vị trí trong thể thức ô vuông của chữ
Nôm. Nhóm Nôm Na thuộc Hội Bảo tồn Chữ Nôm (Hoa Kỳ) và một số nhóm
khác ở Huế, Tp Hồ Chí Minh đã và đang thực hiện những chƣơng trình nghiên
cứu này và thu đƣợc những kết quả khả quan.
(d) Một trong những hƣớng ứng dụng các phần mềm chữ Nôm là làm chế
bản và in lại các tác phẩm chữ Nôm của ngƣời xƣa để cung cấp cho độc giả
ngày nay một loại hình văn bản mới của tác phẩm cũ - văn bản chữ Nôm in ấn
điện tử. Giá trị thực sự của một ấn phẩm Nôm hiện đại nhƣ vậy trƣớc hết không
phải là ở khía cạnh kỹ thuật, ở chỗ chữ Nôm in ra có đẹp không, mà ở tƣ cách
văn bản học của ấn phẩm đã đƣợc xác định nhƣ thế nào. Đối với những tác
phẩm có nhiều truyền bản, nhƣ Truyện Kiều chẳng hạn, thì đây là một vấn đề
khá phức tạp. Những vấn đề văn bản học đặt ra ở đây về căn bản cũng nhƣ
9
những gì đã nói đến ở điểm (a) trên đây. Có thể tìm thấy một số nét tƣơng tự và
khác biệt nào đó giữa hai chặng đƣờng làm nên các truyền bản Hán Nôm: từ các
truyền bản chép tay đến các truyền bản khắc in, rồi từ các truyền bản khắc in (và
có thể cả chép tay) đến các văn bản in ấn điện tử theo công nghệ thông tin hiện
đại. Trong mọi trƣờng hợp đều không tránh khỏi vấn đề có thực hiện việc chuẩn
hoá văn tự trong ấn phẩm mới hay không.
1.4. Xu hƣớng phát triển của chữ Nôm
Theo [4] trên cơ sở những kết quả đã đạt đƣợc, chúng ta có thể chỉ ra một
số xu hƣớng phát triển của chữ Nôm và để định hƣớng cho các hoạt động nghiên
cứu, triển khai trong tƣơng lai.
1.4.1. Phổ cập đại trà chữ Nôm qua máy tính
Chữ Nôm từ xƣa tới nay không phải là thứ chữ đƣợc phổ cập rộng rãi, lí
do chính nằm ở chỗ nó khó học, phải nhớ nhiều, và cần có vốn chữ hán nào đó.
của cách viết. Nếu nhƣ các học giả trƣớc đây thƣờng phải tự mình lƣu trữ các
kho tƣ liệu riêng để soạn sách, viết bài, thì ngày nay, với phƣơng pháp làm việc
mới, máy tính có thể hỗ trợ trong việc quản lí kho tƣ liệu chung này. Do đó các
phƣơng pháp luận lƣu giữ và trích rút thông tin tổng quát từ kho tƣ liệu số thức
hoá trên máy tính sẽ trở thành cực kì có ích cho giới nghiên cứu. Nói riêng, với
những ngƣời ít có khả năng truy nhập trực tiếp vào các kho tƣ liệu này, thì có
thể cần tới một đội ngũ các kĩ thuật viên giúp cho họ truy nhập và lấy ra thông
tin cần thiết.
Dựa trên công nghệ hiện đại, cần xác định ra các qui trình nghiên cứu và
làm việc mới có liên quan tới chữ Nôm và CNTT để tạo ra nề nếp và thói quen
nghiên cứu mới. Các nghiên cứu này thƣờng bao giờ cũng phải bắt đầu bằng
việc tổng hợp mọi thông tin có đƣợc trong kho theo các chủ đề nghiên cứu, để
rồi từ đó ngƣời nghiên cứu rút ra các nhận định, các ý kiến riêng của mình.
Nhƣng thông tin mới về chữ nôm, những phát kiến mới về việc thiết lập tƣơng
ứng giữa hình chữ và âm đọc cần đƣợc đƣa vào máy tín lƣu giữ theo những qui
trình thống nhất để có thể phục vụ đƣợc cho nhiều ngƣời khác cùng tham khảo
và nghiên cứu. Do đó, việc xây dựng các chuẩn về tƣ liệu, về biểu diễn văn bản
chữ Nôm trở thành quan trọng và cần thiết.
1.4.3. Giải quyết vấn đề số hóa chữ Nôm
Vấn đề tƣ liệu và văn bản học đối với chữ Nôm từ xƣa tới nay đã là vấn
đề khó giải quyết vì chúng ta phải chấp nhận một quá khứ không có khái niệm
bản quyền, một quá khứ mà mọi tác phẩm kinh điển đều có sự tham gia nhuận
sắc của nhiều ngƣời, kể cả của chính ngƣời tổ chức việc in khắc. Giải quyết triệt
để vấn đề tƣ liệu và văn bản học chỉ có thể đƣợc thực hiện nếu chúng ta có công
11
cụ lƣu giữ tất cả các dị bản và có công cụ trích rút ra những thông tin từ mọi dị
bản đó. Các nghiên cứu sẽ đƣợc chính xác hơn khi mà mọi ý kiến và suy luận
đƣợc xem xét một cách tổng thể trên mọi dị bản chứ không bị phụ thuộc vào
12
Chƣơng 2. NHẬN DẠNG CHỮ NÔM
2.1. Nhận dạng ký tự quang học
Nhận dạng ký tự quang học OCR là loại phần mềm máy tính có chức năng
chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thƣờng đƣợc quét
bằng máy scanner, chụp ảnh) thành các văn bản tài liệu. OCR đƣợc hình thành
trên cơ sở các lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo.
Lịch sử của OCR đã có từ hơn nửa thế kỷ, nó xuất hiện đầu tiên để giải
quyết bài toán đọc mã số trong bƣu điện, tiếp đó phát triển để tự động đọc các
địa chỉ và thông tin trong các mẫu đơn, văn bản. OCR ban đầu ứng dụng mạnh
trong các lĩnh vực nhƣ bƣu điện sau đó đến ngân hàng bằng những máy chuyên
dụng. Ngày nay, với sự phát triển mạnh mẽ, OCR trở nên phổ biến và là một
phần mềm thông dụng chạy trên máy tính Desktop. OCR không chỉ đơn giản
đọc các số và một số chữ hạn chế, các khả năng của nó dần tiệm cận với thị giác
con ngƣời về độ chính xác, sự thông minh và sẽ nhanh hơn nhờ năng lực xử lý
tốc độ của của máy vi tính. Một xu hƣớng đã xuất hiện và sẽ phát triển mạnh
trong thời gian tới là đƣa OCR lên thiết bị di động, thiết bị đọc và dịch trực tiếp
từ tài liệu [12].
Hình 2.1. Ứng dụng tự động chụp ảnh và dịch trên di động và bút chuyên dụng
Về nguyên tắc hoạt động, hệ thống nhận dạng phải đƣợc “học” tức là
đƣợc huấn luyện với các mẫu của các ký tự cụ thể. Ngày nay, với thành tựu
trong nghiên cứu OCR, các hệ thống "thông minh" tích hợp với độ chính xác
nhận dạng cao đối với hầu hết các phông đã trở nên phổ biến. Một số hệ thống
không chỉ có khả năng nhận dạng 1 loại ký tự mà có khả năng phát hiện và nhận
13
14
2.2. Bài toán nhận dạng chữ Nôm
Hình 2.2. Sơ đồ tổng thể mô hình nhận dạng chữ Nôm đề xuất.
Xây dựng phần mềm nhận dạng chữ Nôm (Nôm-OCR) là một yêu cầu tất
yếu nhƣ với các ngôn ngữ khác. Nôm-OCR sẽ đóng vai trò một động lực mạnh
thúc đẩy việc nghiên cứu chữ Nôm, khai phá nguồn tƣ liệu quý giá của dân tộc
hàng ngàn năm về chính trị, văn hóa, xã hội… Hệ thống nhận dạng chữ Nôm về
mặt kỹ thuật có thể tham khảo các mô hình kỹ thuật của các OCR khác, đặc biệt
là các OCR chữ tƣợng hình nhƣ tiếng Hán, tiếng Nhật. Trên cơ sở nghiên cứu
các mô hình về OCR, nhóm nghiên cứu của tác giả đƣa ra mô hình tổng thể cho
bài toán nhận dạng chữ Nôm nhƣ Hình 2.2.
Trong sơ đồ trên, nguồn tài liệu có thể là ảnh, file PDF… Trong nguồn
đầu vào của hệ thống OCR có thể bao gồm nhiều loại thông tin ví dụ hình ảnh,
các loại ngôn ngữ khác nhau. Do đó, cần đƣợc tiến hành thao tác phân tích
trang, nhận diện phần ký tự. Sau khi tách phần ký tự khỏi trang, ta tiến hành các
bƣớc tiền xử lý cần thiết, tách thành các khối, tách các khối thành các dòng, tách
dòng thành các ký tự rời rạc. Từ các ký tự rời rạc, ta tiến hành trích chọn đặc
trƣng của ký tự để đƣa vào tiến hành nhận dạng. Kết quả của bƣớc nhận dạng có