Nghiên cứu phương pháp nhận dạng chữ hán nôm dựa trên gốc từ - Pdf 31

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THANH BÌNH
NGHIÊN CỨU PHƯƠNG PHÁP
NHẬN DẠNG CHỮ HÁN - NÔM DỰA TRÊN GỐC TỪ
Ngành:

Công nghệ thông tin

Chuyên ngành: Kỹ thuật phần mềm
Mã số:

60480103

LUẬN VĂN THẠC SĨ

Hà Nội – 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THANH BÌNH
NGHIÊN CỨU PHƯƠNG PHÁP
NHẬN DẠNG CHỮ HÁN - NÔM DỰA TRÊN GỐC TỪ
Ngành:

Công nghệ thông

tin Chuyên ngành: Kỹ thuật phần

Tôi xin gửi lời cảm ơn sâu sắc tới PGS. TS Nguyễn Ngọc Bình, đã định
hướng cho tôi nội dung nghiên cứu rất thiết thực, có ý nghĩa lớn về khoa học
cũng như văn hóa dân tộc, cũng như những ý tưởng gợi mở trong nghiên cứu và
sự hỗ trợ của thầy trong quá trình tìm và giải thích các công trình nghiên cứu về
chữ tượng hình vốn rất hiếm và được viết bằng tiếng Trung, Nhật. Xin cảm ơn
thầy hết lòng giúp đỡ, động viên và tạo mọi điều kiện thuận lợi cho tôi trong
suố t quá trinh
văn tố t nghiêp p .
̀ nghiên cứu và hoaǹ thaǹ h
luân
Tôi xin gửi lời cảm ơn thân mến đến nhóm nghiên cứu LES-Nôm, đặc
biệt là NCS Phạm Văn Hưởng đã giúp đỡ tôi nhiều kiến thức và kinh nghiệm
quý báu để tôi hoàn thành luận văn này.
Tôi xin gửi lời cảm ơn tới thầy Nguyễn Đình Kế - Nguyên giảng viên
trường Đại học Ngoại ngữ - ĐHQGHN, cô Trân Minh Thùy – Giảng viên khoa
ngoại ngữ trường Cao đẳng Hải Dương là những người đã giúp tôi hiểu thêm về
chữ Nôm cũng như giúp tôi trong việc xây dựng bộ dữ liệu gốc từ của chữ Nôm
Tôi xin được gửi lời cảm ơn đến các tác giả, nhóm tác giả của những giáo
trình, những công trình khoa học và những bài báo khoa học mà tôi tham khảo
để hoàn thiện luận văn này.
Tác giả


MỤC LỤC
MỞ ĐẦU...............................................................................................................1
1. Tính cấp thiết.................................................................................................1
2. Tình hình nghiên cứu.................................................................................... 1
3. Đối tượng và phạm vi nghiên cứu.................................................................2
4. Mục đích và nhiệm vụ nghiên cứu................................................................ 2
5. Những nội dung nghiên cứu..........................................................................2

3.2.1. Lấy khung xương theo phương pháp Hit-or-Miss.................32
3.2.2. Hiệu chỉnh khung xương..............................................................34
3.3. Nhận dạng gốc từ..................................................................................... 36
3.3.1. Tách gốc từ........................................................................................36
3.3.2. Cơ sở dữ liệu gốc từ.......................................................................... 45
3.3.3. Nhận dạng gốc từ...............................................................................48
3.3. Nhận dạng chữ Nôm dựa trên gốc từ....................................................... 54
3.3.1...............................................Tập đặc trưng dựa trên gốc từ
54
3.3.2. Nhận dạng dựa trên so khớp gốc từ...................................................55
3.3.3. Nhận dạng dựa trên đặc trưng gốc từ và mô hình Entropy cực đại .. 58 TỔNG
KẾT CHƯƠNG 3 .............................................................................................. 59
Chương 4. THỰC NGHIỆM...............................................................................60
4.1. Mô hình thực nghiệm............................................................................... 60
4.2. Xây dựng chương trình thực nghiệm....................................................... 61
4.3. Bộ dữ liệu thực nghiệm............................................................................ 62
4.4. Kết quả thực nghiệm và đánh giá.............................................................62
TỔNG KẾT CHƯƠNG 4....................................................................................64
KẾT LUẬN.........................................................................................................65


DANH MỤC TÀI LIỆU THAM KHẢO............................................................ 66
PHỤ LỤC A........................................................................................................ 68
PHỤ LỤC B........................................................................................................ 84
PHỤ LỤC C........................................................................................................ 84
C.1. Chương trình phân tích, nhận dạng và trích xuất đặc trưng gốc từ.........84
C.2. Chương trình nhận dạng chữ Nôm theo gốc từ và MEM........................85


DANH MỤC CÁC TỪ VIẾT TẮT

K cụm và máy véc-tơ hỗ
trợ

OCR

Optical Character
Recognition

Nhận dạng ký tự quang
học

5

OS

Operating System

Hệ điều hành

6

OVO

One Versus One

Một với một

7

OVR

SC

Second Class

Lớp thứ 2

12

SVM

Support Vector Machine

Máy véc-tơ hỗ trợ

4

8

KSVM


DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1 Kết quả nhận dạng bằng phương pháp mạng nơ-ron...........................20
Bảng 2.2. Kết quả thực nghiệm KSVM với bộ dữ liệu NOM-DB0....................22
Bảng 2.3. Mô tả giá trị chuyển đổi giữa hai chữ Nôm........................................25
Bảng 2.4. Kết quả thực nghiệm theo khoảng cách soạn thảo văn bản................26
Bảng 2.5. So sánh kết quả nhận dạng giữa các phương pháp.............................28
Bảng 3.1 Cấu tạo gốc từ các ký tự chữ Nôm.......................................................30
Bảng 3.2. Ví dụ về các kiểu ký tự trong chữ Nôm..............................................38
Bảng 3.3. Thống kê gốc từ của các chữ Nôm trong Nom-DB0..........................45

Hình 3.7. Ví dụ về khung xương loại bỏ nét ngắn sau khi xấp xỉ cạnh..............36
Hình 3.8. Quá trình tách gốc từ từ ký tự đơn......................................................37
Hình 3.9. Các loại kiểu ký tự chữ Nôm...............................................................38
Hình 3.10. Đặc trưng của ký tự kiểu 10 với thành phần

...........................

40 Hình 3.11. Đặc trưng của kiểu ký tự kiểu 8 .................................................. 40
Hình 3.12. Tách thành phần của ký tự dựa vào đường cắt..................................42


Hình 3.13. Đường cắt sau khi xác định khoảng cách theo chiều dọc hoặc chiều
ngang.................................................................................................................. 42
Hình 3.13. Phân cụm nét cho ký tự kiểu trên-dưới và trái-phải..........................44
Hình 3.14. Ví dụ về kết quả tách gốc từ..............................................................45
Hình 3.15. Cấu trúc cơ sở dữ liệu tri thức của gốc từ.........................................48
Hình 3.15. Nhận dạng gốc từ dựa trên mô hình Entropy cực đại........................52
Hình 3.16. Biểu diễn đặc trưng của gốc từ trong chữ Nôm................................53
Hình 3.17. Ví dụ một số chữ Nôm được nhận dạng............................................53
Hình 3.18. Kết quả tách gốc từ............................................................................54
Hình 3.19. Các gốc từ có cùng số nét và số điểm giao........................................55
Hình 3.20. Nhận dạng chữ Nôm dựa trên gốc từ................................................56
Hình 3.21. Kết quả so sánh dựa vào vị trí và đặc điểm của gốc từ.....................58
Hình 3.22. Đặc trưng gốc từ................................................................................59
Hình 3.23. Đặc trưng gốc từ kết hợp với tọa độ điểm ảnh..................................59
Hình 4.1. Quy trình tiến hành thực nghiệm.........................................................60
Hình 4.2. Giao diện chương trình tạo gốc từ và lưu đặc trưng gốc từ.................62
Hình 4.3. Giao diện chương trình huấn luyện.....................................................62
Hình C.1. Các thành phần chính trong chương trình phân tách, nhận dạng và
trích chọn đặc trưng gốc từ ................................................................................ 84

2. Tình hình nghiên cứu
Nghiên cứu chữ Nôm đã được nhiều nhóm gần đây quan tâm cả về
phương diện ngôn ngữ học và công nghệ thông tin. Một trong những thành tựu
đầu tiên là việc hình thành các từ điển chữ Nôm, hình thành các kho chữ Nôm
được số hóa, số hóa và giải mã nhiều tài liệu chữ Nôm như truyện Kiều của Hán
Nôm Foundation. Tiếp tới, sau những nỗ lực trong thời gian dài, chữ Nôm đã
được xác lập vị trí trong bộ ký tự thế giới Unicode và ISO 10646, trong đó có
5067 ký tự trùng hình với chữ Trung Quốc, 4232 chữ thuần Nôm và hiện đang
đề nghị đưa vào thêm 2200 [4]. Kế tiếp bước đi đó, nhiều bộ font Nôm, bộ gõ


chữ Nôm đã được xây dựng. Và một trong những bước đi tiếp của lộ trình trên
là xây dựng OCR-Nôm, nhưng hiện tại vẫn chưa có kết quả nghiên cứu nào đề
cập đến vấn đề trên, có thể do có những khó khăn nhất định và một trong những
khó khăn thường gặp là vấn đề về dữ liệu để nghiên cứu.
Các bộ OCR tượng hình như tiếng Trung, Nhật đã được nghiên cứu nhiều
và đạt được những kết quả khả quan, được ứng dụng rộng rãi trong thực tế có
thể kể đến sản phẩm nguồn mở Tesseract, KanjiPad - phần mềm nhận dạng chữ
viết tay Nhật Bản, Readiris Pro 11 Corporate Edition - phần mềm nhận dạng chữ
Trung Quốc đạt tới độ chính xác 98%, HWPen - phần mềm nhận dạng chữ viết
tay Trung Quốc tích hợp trên iPhone và đặc biệt sản phẩm thương mại ABBY…
đạt độ chính xác gần như tuyệt đối với ký tự in các ngôn ngữ.
Nói tóm lại, các chủ đề liên quan đến chữ Nôm cũng như OCR đã được
quan tâm và đạt nhiều thành quả cao, riêng lĩnh vực nghiên cứu kết hợp 2 yếu tố
này vẫn là bài toán mở, cần những nghiên cứu mới.
3. Đối tượng và phạm vi nghiên cứu
Chúng tôi tập trung nghiên cứu bài toàn nhận dạng chữ Nôm nhằm xây
dựng bộ phần mềm nhận dạng chuyển đổi từ ảnh của một ký tự Nôm về mã
Unicode của ký tự đó tiến hành tra cứu nghĩa căn cứ trên từ điển hoặc kết hợp
với các hệ thống khác.



Chương 1: TỔNG QUAN VỀ CHỮ NÔM
1.1. Giới thiệu về chữ Nôm
1.1.1. Lịch sử hình thành và phát triển
Trong suốt hàng ngàn năm, kể từ đầu thời Bắc thuộc, chữ Hán được sử
dụng ở Việt Nam như một văn tự chính thống. Người Hán ngày càng mở rộng
quy mô sử dụng chữ Hán ở Giao Châu, lúc đầu trong cơ quan hành chính giữa
một số người Hán và người Việt trong tầng lớp thống trị, sau mở rộng ra một số
trường học. Sau thời Sĩ Nhiếp, chữ Hán được khuyến khíc học tập trong mọi
tầng lớp. Nhiều trí thức bình dân đã có thế dùng chữ Hán để ghi chép về địa chí,
phong tục, hương ước các vùng. Cùng với tình hình này , việc ghi tên người, tên
đất địa phương cũng trở thành một nhu cầu. Đầu tiên người ta dùng chữ Hán để
ghi tên Việt, nhưng giữa cách đọc một âm tiết Hán với một âm tiết Việt lúc ấy
có một khoảng cách nhất định, nên âm Hán chỉ có thể đọc na ná âm Việt. Như
vậy giữa chữ Hán ghi âm Hán với chữ Hán ghi na ná âm Việt đã có sự khác
nhau về chất, nó ghi lại hệ thống ngữ âm khác nhau, hai ngôn ngữ khác nhau.
Lần đầu tiên, chữ Hán đã được dùng để ghi âm Việt và như vậy là đã xuất hiện
những chữ Nôm ban đầu. Cùng với sự phát triển của nhu cầu ghi chép nền văn
hóa Việt, chữ Nôm cũng ngày càng phát triển và tự hoàn thiện để việc ghi chép
tiếng Việt được hữu hiệu hơn.
Trải qua thời gian phát triển theo lịch sử khi kết thúc thời kỳ chịu ách đô
hộ của Trung Quốc vào năm 939 chữ Nôm đã được lựa chọn trở thành chữ quốc
ngữ như một tất yếu. Trong một thời gian dài khoảng 10 thế kỷ hầu hết các tài
liệu trong các lĩnh vực văn học, triết học, sử học, luật pháp, y khoa, tôn giáo và
hành chính được viết bằng chữ Nôm. Đặc biệt trong chiều đại nhà Tây Sơn (từ
năm 1788 đến 1802) chữ Nôm được sử dụng trong toàn bộ văn kiện hành chính
[7].
Từ thế kỷ 15 với Quốc âm thi tập của Nguyễn Trãi, kế đến thế kỷ 16 với
Bạch Vân Am thi tập của Nguyễn Bỉnh Khiêm, chữ Nôm đã chứng tỏ có nhiều

kiểu đồ án kiến trúc thường gặp:

Hình 1.3. 9 kiểu đồ hình kiến trúc chữ Nôm

Ở đồ hình 1, chữ thuộc đồ hình này chỉ gồm một hình tố âm hoặc một
hình tố nghĩa. Chữ thuộc đồ hình 2 gồm hai hình tố âm và nghĩa hợp lại, hình tố
âm ở trên, hình tố nghĩa ở dưới, hoặc ngược lại hình tố âm ở dưới hình tố nghĩa
ở trên. Đây gọi là cấu trúc trên dưới. Chữ thuộc đồ hình 3 gồm hai hình tố âm và
nghĩa hợp thành, hình tố âm viết bên trái hình tố nghĩa hoặc ngược lại. Đây gọi
là cấu trúc phải trái. Chữ thuộc đồ hình 4 cũng gồm hai hình tố âm và nghĩa.


Hình tố âm bao bên trái bên trên và bên phải hình tố nghĩa hoặc ngược lại hình
tố nghĩa là hình tố bao. Gọi là cấu trúc bao trái bên phải. Chữ thuộc đồ hình 5
cũng là cấu trúc bao nhưng ngược hướng với đồ hình 4. Hình tố âm bao trái dưới
và phải hình tố nghĩa. Kiểu đồ hình này rất ít gặp. Chữ thuộc đồ hình 6 cũng là
cấu trúc bao gồm hai hình tố âm và nghĩa. Hình tố âm bao bên trên, bên trái và
bên dưới hình tố nghĩa hoặc ngược lại hình tố nghĩa là hình tố bao. Đây gọi là
cấu trúc bao trên trái dưới. Chữ thuộc đồ hình 7 gồm hai hình tố âm và nghĩa.
Hình tố âm bao bên phải và bên trên hình tố nghĩa hoặc ngược lại hình tố nghĩa
bao bên phải và bên trên hình tố âm - gọi là kiểu cấu trúc bao phải trên. Chữ
thuộc đồ hình 8 cũng gồm hai hình tố âm và nghĩa. Hình tố âm bao bên trái và
bên dưới hình tố nghĩa hoặc ngược lại hình tố nghĩa bao hình tố âm gọi là cấu
trúc bao trái dưới. Chữ thuộc đồ hình 9 gồm hình tố âm và hình tố nghĩa. Hình
tố âm bao bên trái và trên hình tố nghĩa, hoặc ngược lại hình tố nghĩa bao hình
tố âm. Đây gọi là cấu trúc bao trái trên.
1.3. Tin học hóa và ứng dụng chữ Nôm
Có lẽ đối với không ít người thì chữ Nôm là thứ văn tự của quá khứ, và
ngày nay chỉ cần đào tạo một số chuyên gia để tiếp xúc với nó, với các văn bản
Hán Nôm do người xưa để lại, là đủ rồi. Do đó, việc tin học hoá chữ Nôm phải

(b) Công việc tiếp theo là thực hiện việc nghiên cứu mối tương quan giữa hình chữ
và âm đọc, xác lập tương đối đầy đủ quan hệ đối ứng giữa hai bên. Trên cơ sở
đó mới có thể tạo ra các phần mềm chữ Nôm được cài đặt theo khoá âm đọc
(qua chữ Quốc ngữ). Hiện nay Viện Nghiên cứu Hán Nôm cũng đang thực hiện
chương trình nghiên cứu đối chiếu này.
(c)Để có thể vẽ phông chữ Nôm, cần xúc tiến việc nghiên cứu cấu trúc chữ Nôm
theo các thành tố trực tiếp, đồng thời thực hiện chuẩn hoá các thành tố đó theo
các phong cách viết chữ khác nhau. Từ đó xác lập sự tương đồng và tương dị
giữa các thành tố về hình thể, về vị trí trong thể thức ô vuông của chữ Nôm.
Nhóm Nôm Na thuộc Hội Bảo tồn Chữ Nôm (Hoa Kỳ) và một số nhóm khác ở
Huế, Tp Hồ Chí Minh đã và đang thực hiện những chương trình nghiên cứu này
và thu được những kết quả khả quan.
(d) Một trong những hướng ứng dụng các phần mềm chữ Nôm là làm chế bản và in
lại các tác phẩm chữ Nôm của người xưa để cung cấp cho độc giả ngày nay một
loại hình văn bản mới của tác phẩm cũ - văn bản chữ Nôm in ấn điện tử. Giá trị
thực sự của một ấn phẩm Nôm hiện đại như vậy trước hết không phải là ở khía
cạnh kỹ thuật, ở chỗ chữ Nôm in ra có đẹp không, mà ở tư cách văn bản học của
ấn phẩm đã được xác định như thế nào. Đối với những tác phẩm có nhiều truyền
bản, như Truyện Kiều chẳng hạn, thì đây là một vấn đề khá phức tạp. Những
vấn đề văn bản học đặt ra ở đây về căn bản cũng như


2
0
những gì đã nói đến ở điểm (a) trên đây. Có thể tìm thấy một số nét tương tự và
khác biệt nào đó giữa hai chặng đường làm nên các truyền bản Hán Nôm: từ các
truyền bản chép tay đến các truyền bản khắc in, rồi từ các truyền bản khắc in (và
có thể cả chép tay) đến các văn bản in ấn điện tử theo công nghệ thông tin hiện
đại. Trong mọi trường hợp đều không tránh khỏi vấn đề có thực hiện việc chuẩn
hoá văn tự trong ấn phẩm mới hay không.

Một nhu cầu lớn hiện nay là cần xác định phương pháp luận nghiên cứu
mới đối với các vấn đề liên quan tới chữ Nôm. Phương pháp luận nghiên cứu
này dựa trên việc sử dụng tiến bộ CNTT giúp cho nghiên cứu về chính bản thân
chữ Nôm, các văn bản cổ và sự phát triển của tiếng Việt qua các văn tự. Với khả
năng của máy tính có thể tích trữ vào trong nó rất nhiều tư liệu, gần như có thể
vét cạn cả kho tư liệu sách vở thông thường, người nghiên cứu giờ đây có thể có
con mắt bao quát, xuyên suốt nhiều tư liệu để rút ra các đặc trưng của ngôn ngữ,
của cách viết. Nếu như các học giả trước đây thường phải tự mình lưu trữ các
kho tư liệu riêng để soạn sách, viết bài, thì ngày nay, với phương pháp làm việc
mới, máy tính có thể hỗ trợ trong việc quản lí kho tư liệu chung này. Do đó các
phương pháp luận lưu giữ và trích rút thông tin tổng quát từ kho tư liệ u số thức
hoá trên máy tính sẽ trở thành cực kì có ích cho giới nghiên cứu. Nói riêng, với
những người ít có khả năng truy nhập trực tiếp vào các kho tư liệu này, thì có
thể cần tới một đội ngũ các kĩ thuật viên giúp cho họ truy nhập và lấy ra thông
tin cần thiết.
Dựa trên công nghệ hiện đại, cần xác định ra các qui trình nghiên cứu và
làm việc mới có liên quan tới chữ Nôm và CNTT để tạo ra nề nếp và thói quen
nghiên cứu mới. Các nghiên cứu này thường bao giờ cũng phải bắt đầu bằng
việc tổng hợp mọi thông tin có được trong kho theo các chủ đề nghiên cứu, để
rồi từ đó người nghiên cứu rút ra các nhận định, các ý kiến riêng của mình.
Nhưng thông tin mới về chữ nôm, những phát kiến mới về việc thiết lập tương
ứng giữa hình chữ và âm đọc cần được đưa vào máy tín lưu giữ theo những qui
trình thống nhất để có thể phục vụ được cho nhiều người khác cùng tham khảo
và nghiên cứu. Do đó, việc xây dựng các chuẩn về tư liệu, về biểu diễn văn bản
chữ Nôm trở thành quan trọng và cần thiết.
1.4.3. Giải quyết vấn đề số hóa chữ Nôm
Vấn đề tư liệu và văn bản học đối với chữ Nôm từ xưa tới nay đã là vấn
đề khó giải quyết vì chúng ta phải chấp nhận một quá khứ không có khái niệm
bản quyền, một quá khứ mà mọi tác phẩm kinh điển đều có sự tham gia nhuận
sắc của nhiều người, kể cả của chính người tổ chức việc in khắc. Giải quyết triệt

mà còn là dưới dạng mã hoá cho các âm tiết tiếng nói.
TỔNG KẾT CHƯƠNG 1
Chương 1 đã sơ lược về lịch sử hình thành và phát triển của chữ Nôm, cấu
tạo của chữ Nôm cũng như vai trò của chữ Nôm trong lịch sử văn hóa Việt Nam
xưa và nay, các thành tựu nghiên cứu và xu hướng phát triển của chữ Nôm đặc
biệt là áp dụng CNTT vào lĩnh vực nghiên cứu này.


Chương 2. NHẬN DẠNG CHỮ NÔM
2.1. Nhận dạng ký tự quang học
Nhận dạng ký tự quang học OCR là loại phần mềm máy tính có chức năng
chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét
bằng máy scanner, chụp ảnh) thành các văn bản tài liệu. OCR được hình thành
trên cơ sở các lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo.
Lịch sử của OCR đã có từ hơn nửa thế kỷ, nó xuất hiện đầu tiên để giải
quyết bài toán đọc mã số trong bưu điện, tiếp đó phát triển để tự động đọc các
địa chỉ và thông tin trong các mẫu đơn, văn bản. OCR ban đầu ứng dụng mạnh
trong các lĩnh vực như bưu điện sau đó đến ngân hàng bằng những máy chuyên
dụng. Ngày nay, với sự phát triển mạnh mẽ, OCR trở nên phổ biến và là một
phần mềm thông dụng chạy trên máy tính Desktop. OCR không chỉ đơn giản
đọc các số và một số chữ hạn chế, các khả năng của nó dần tiệm cận với thị giác
con người về độ chính xác, sự thông minh và sẽ nhanh hơn nhờ năng lực xử lý
tốc độ của của máy vi tính. Một xu hướng đã xuất hiện và sẽ phát triển mạnh
trong thời gian tới là đưa OCR lên thiết bị di động, thiết bị đọc và dịch trực tiếp
từ tài liệu [12].

Hình 2.1. Ứng dụng tự động chụp ảnh và dịch trên di động và bút chuyên dụng

Về nguyên tắc hoạt động, hệ thống nhận dạng phải được “học” tức là
được huấn luyện với các mẫu của các ký tự cụ thể. Ngày nay, với thành tựu

nghệ này hiện chỉ hiệu quả trong vài trường hợp nào đó. Sự đa dạng của OCR
hiện nay được biết đến trong công nghiệp là ICR (Intelligent Character
Recognition - Nhận dạng ký tự thông minh).


25
2.2. Bài toán nhận dạng chữ Nôm

Hình 2.2. Sơ đồ tổng thể mô hình nhận dạng chữ Nôm đề xuất.

Xây dựng phần mềm nhận dạng chữ Nôm (Nôm-OCR) là một yêu cầu tất
yếu như với các ngôn ngữ khác. Nôm-OCR sẽ đóng vai trò một động lực mạnh
thúc đẩy việc nghiên cứu chữ Nôm, khai phá nguồn tư liệu quý giá của dân tộc
hàng ngàn năm về chính trị, văn hóa, xã hội… Hệ thống nhận dạng chữ Nôm về
mặt kỹ thuật có thể tham khảo các mô hình kỹ thuật của các OCR khác, đặc biệt
là các OCR chữ tượng hình như tiếng Hán, tiếng Nhật. Trên cơ sở nghiên cứu
các mô hình về OCR, nhóm nghiên cứu của tác giả đưa ra mô hình tổng thể cho
bài toán nhận dạng chữ Nôm như Hình 2.2.
Trong sơ đồ trên, nguồn tài liệu có thể là ảnh, file PDF… Trong nguồn
đầu vào của hệ thống OCR có thể bao gồm nhiều loại thông tin ví dụ hình ảnh,
các loại ngôn ngữ khác nhau. Do đó, cần được tiến hành thao tác phân tích
trang, nhận diện phần ký tự. Sau khi tách phần ký tự khỏi trang, ta tiến hành các
bước tiền xử lý cần thiết, tách thành các khối, tách các khối thành các dòng, tách
dòng thành các ký tự rời rạc. Từ các ký tự rời rạc, ta tiến hành trích chọn đặc
trưng của ký tự để đưa vào tiến hành nhận dạng. Kết quả của bước nhận dạng có



Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status