Phần mềm nhận dạng ABBYY và việc ứng dụng ABBYY vào hoạt động số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội - Pdf 37

Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ
PHẦN MỞ ĐẦU

1. Tính cấp thiết của đề tài
Bước vào thế kỷ XXI, Công nghệ thông tin (CNTT) và viễn thông đã
chiếm một vị trí cực kỳ quan trọng trong mọi lĩnh vực của đời sống, trở thành
thành tố cơ bản cho sự phát triển kinh tế xã hội của các quốc gia.
Công nghệ thông tin đã và đang khẳng định vị thế của mình trong mọi
lĩnh vực của đời sống xã hội. Cuộc cách mạng khoa học công nghệ đã và đang
diễn ra mạnh mẽ và thông tin, tri thức trở nên đặc biệt quan trọng trong sự
phát triển kinh tế, xã hội. Trong hoàn cảnh đó, hoạt động thư viện cũng đang
dần đổi mình, phát triển theo chiều hướng ứng dụng các thành tựu của công
nghệ thông tin để trở thành các thư viện hiện đại.
Thư viện muốn làm tốt vai trò của mình trong thời đại bùng nổ thông tin
cần phải có sự hỗ trợ của công nghệ, đặc biệt là công nghệ thông tin. Các
phần mềm dùng trong hoạt động thư viện nhằm mục đích tự động hóa các
hoạt động của thư viện, giúp thư viện nâng cao khả năng và hiệu quả phục vụ
người dùng tin, nâng cao chất lượng và giảm giá thành các sản phẩm, dịch vụ
thư viện.
Hiện nay trên thế giới cũng như ở Việt Nam đang tồn tại khá nhiều phần
mềm được dùng trong hoạt động thông tin – thư viện như các hệ quản trị thư
viện tích hợp (Library Integrated System, LIS), phần mềm quản trị nội dung
số (Content Management System, CMS), phầm mềm nhận dạng ký tự bằng
quang học (Optical Character Recognition, OCR),…Về hệ quản trị thư viện
tích hợp, chúng ta có thể kể ra một số hệ khác nhau như ILIB của Công ty
Máy tính truyền thông CMC, Libol của Công ty Công nghệ tin học Tinh Vân,
COSLIB của Công ty Trường Thành, CDS/ISIS do UNESCO phát triển. Về
phần mềm quản trị nội dung số chúng ta có Greenstone, DSpace, Zope… các
phần mềm này đã hỗ trợ cho các nhân viên thư viện rất nhiều trong việc tự

nhận dạng ABBYY.
- Tìm hiểu những tính năng cơ bản của phần mềm
- Đánh giá quá trình ứng dụng phần mềm này tới công tác số hóa tài liệu,
qua đó có thể phần nào giúp các thư viện đang có ý định sử dụng phần mềm
ABBYY để nhận dạng tiếng Việt vào hoạt động số hóa tài liệu có thêm kinh
nghiệm để triển khai phần mềm này.
3. Đối tượng và phạm vi nghiên cứu.
• Khóa luận tập trung vào nghiên cứu các tính năng và tiện ích của phần
mềm nhận dạng ABBYY cũng như quá trình ứng dụng của phần mềm
Lớp: K53 Thông tin – Thư viện

2

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

ABBYY trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại
học Quốc gia Hà Nội.
• Phạm vi nghiên cứu của khóa luận tập trung trong việc nghiên cứu tìm
hiểu đánh giá chức năng nhận dạng chữ tiếng Việt của phần mềm ABBYY
trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc
gia Hà Nội từ năm 2010 tới năm 2012.
4. Phương pháp nghiên cứu
Trong quá trình thực hiện đề tài đã sử dụng các phương pháp:
* Phương pháp chung.
Dựa trên cơ sở nền tảng là chủ nghĩa duy vật biện chứng, trên hệ thống

- Đưa ra một số kiến nghị và giải pháp nhằm hoàn thiện việc ứng dụng
ABBYY tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội.
Tác giả khóa luận hy vọng những vấn đề nêu trên có thể giúp ích ít nhiều
cho các thư viện đang có ý định sử dụng phần mềm nhận dạng ABBYY vào
hoạt động số hóa của thư viện mình.
6. Cấu trúc của khóa luận
Khóa luận được tổ chức theo một bố cục chặt chẽ: Phần mở đầu, Phần
nội dung, Kết luận, Danh mục tài liệu tham khảo. Trong đó phần nội dung
được chia thành ba chương như sau:
Chương 1: Số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học
Quốc Gia Hà Nội.
Chương 2: Phần mềm nhận dạng ABBYY trong công tác số hóa tại
Trung tâm Thông tin Thư viện Đại học Quốc Gia Hà Nội.
Chương 3: Giải pháp nhằm nâng cao hiệu quả ứng dụng phần mềm
nhận dạng ABBYY tại Trung tâm Thông tin - Thư viện Đại học Quốc Gia Hà
Nội.

Lớp: K53 Thông tin – Thư viện

4

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ
CHƯƠNG 1

SỐ HÓA TÀI LIỆU TRONG HOẠT ĐỘNG



Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội có tên giao
dịch quốc tế bằng tiếng Anh là Library and Information Center (LIC, VNU)
Vietnam Nationnal University Hanoi. Trung tâm là đơn vị hạch toán tài chính
độc lập có tài khoản và con dấu riêng, trực thuộc ban Giám đốc ĐHQGHN.
Trụ sở chính của Trung tâm đặt tại 144 Xuân Thủy – Cầu Giấy – Hà Nội và
các chi nhánh bao gồm:
- Phòng phục vụ bạn đọc Thượng Đình:
+ Đại học Khoa học Xã hội và Nhân văn- 336 Nguyễn Trãi - Thanh
Xuân- Hà Nội.
+ Tầng 7 nhà T5 - Đại học Khoa học Tự Nhiên, 334 Nguyễn Trãi Thanh Xuân - Hà Nội.
- Phòng phục vụ bạn đọc Mễ Trì, 182 Lương Thế Vinh - Thanh Xuân Hà Nội.
- Phòng phục vụ bạn đọc Đại học Ngoại ngữ, đường Phạm Văn Đồng Cầu Giấy - Hà Nội.
Sau hơn 10 năm xây dựng và phát triển, tới nay Trung tâm được trang bị
tương đối đầy đủ nguồn lực thông tin, có phương tiện hiện đại đáp ứng nhu
cầu của người dùng tin ở nhiều lĩnh vực khác nhau và trở thành trung tâm văn
hóa, khoa học của toàn Đại Học Quốc Gia Hà Nội.
1.1.2 Chức năng, nhiệm vụ
 Chức năng:
Trung tâm Thông tin - Thư viện Đại học Quốc gia Hà Nội (Trung tâm)
có chức năng thông tin và thư viện phục vụ các công tác đào tạo, nghiên cứu
khoa học, triển khai ứng dụng khoa học công nghệ phục vụ đào tạo và quản lí
của ĐHQGHN, thực hiện sứ mạng mà Đảng và Nhà nước giao phó để góp
phần thực hiện chính sách “Giáo dục là quốc sách hàng đầu”. Trung tâm là
cơ sở đáp ứng nhu cầu cung cấp tin tri thức cho việc học tập, nghiên cứu khoa

sinh viên trong ĐHQGHN, những báo cáo tổng kết của các đề tài nghiên cứu
cấp ĐHQGHN và cấp nhà nước được nghiệm thu đánh giá do các đơn vị
thuộc ĐHQGHN chủ trì hoặc do cán bộ ĐHQGHN thực hiện.
Trung tâm còn xây dựng các cơ sở dữ liệu đặc thù của ĐHQGHN, xuất
bản các ấn phẩm thông tin tóm tắt thông tin chuyên đề phục vụ công tác quản
lý, nghiên cứu khoa học và đào tạo, nghiên cứu khoa học thông tin tư liệu
Phát triển quan hệ trao đổi, hợp tác trực tiếp với các trung tâm thông tin,
thư viện, các tổ chức khoa học, các trường đại học trong và ngoài nước; tham
Lớp: K53 Thông tin – Thư viện

7

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

gia tổ chức và điều hành Liên hiệp thư viện các trường đại học và Hiệp hội
thông tin - thư viện Việt Nam, tham gia các hiệp hội thư viện quốc tế, làm đầu
mối nối mạng hệ thống Thông tin - Thư viện ĐHQGHN và ngành đại học vào
mạng quốc gia, khu vực và thế giới.
Với chức năng, nhiệm vụ trên đã trở thành kim chỉ nam cho mọi hoạt
động của TT TT- TV, ĐHQGHN, giúp Trung tâm có những bước đi đúng
hướng và hiệu quả, phục vụ sự nghiệp giáo dục của ĐHQGHN.
1.1.3 Cơ cấu tổ chức và đội ngũ cán bộ
 Cơ cấu tổ chức
Cơ cấu tổ chức của Trung tâm gồm có Ban Giám đốc và các phòng ban
chức năng.

nhau, tạo điều kiện cho quản lý, điều hành trong công tác quản lý, điều hành
công tác nghiệp vụ đảm bảo cho trung tâm hoạt động tốt nhất
 Đội ngũ cán bộ
Trung tâm Thông tin -Thư viện Đại học Quốc gia Hà Nội hiện có 130
cán bộ, trong đó:
Về trình độ:
- 01 tiến sĩ
- 09 thạc sĩ
Lớp: K53 Thông tin – Thư viện

9

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

- 83 cử nhân (chiếm 40%),
- 37 cao đẳng và trung cấp.
Cán bộ của Trung tâm được phân bố qua các bộ phận phù hợp với trình
độ chuyên môn của từng người, trong đó:
+ Khối các phòng chức năng

: 24 người.

+ Khối các phòng chuyên môn, nghiệp vụ

: 28 người.


Nguyễn Thị Thuỷ

họ đưa ra có tầm ảnh hưởng, tác động trực tiếp đến nhiều người Trung tâm
cần cung cấp thông tin tổng quát, tham mưu cho các cán bộ lãnh đạo để đưa
ra những quyết định chính xác, kịp thời.
- Nhóm giảng viên, cán bộ nghiên cứu: Nhóm người dùng tin này chiếm
tỉ lệ khá cao trong thư viện. Họ là những người có trình độ học vấn cao và
nhu cầu sử dụng tài liệu khá cao và đa dạng, họ có khả năng sử dụng mọi loại
hình tài liệu cả tài liệu truyền thống và tài liệu số. Nhu cầu dùng tin của giảng
viên, cán bộ nghiên cứu thường là các tài liệu xám, tài liệu chuyên sâu về một
ngành, lĩnh vực mà họ quan tâm.
- Nhóm nghiên cứu sinh, học viên cao học, sinh viên và học sinh: Đây là
nhóm người dùng tin chiếm tỉ lệ cao nhất trong thư viện. Nhu cầu tin của họ
rất đa dạng, phong phú. Họ cần nhiều nguồn tài liệu như giáo trình, sách tham
khảo, luận văn, luận án... bên cạnh đó là các tài liệu ngoại văn, tài liệu số...
1.1.5. Vốn tài liệu
Với số lượng người dùng tin lớn và đa dạng, Trung tâm cần phải xây
dựng được nguồn lực thông tin chất lượng và phong phú mới có thể đáp ứng
được nhu cầu tin của bạn đọc. Trung tâm rất quan tâm đầu tư phát triển vốn
tài liệu cả về số lượng và loại hình, trong đó đẩy mạnh đầu tư cho tài nguồn
lực thông tin điện tử (CD – ROM, Video, Casset…). Hiện nay, vốn tài liệu
của Trung tâm bao gồm:
• Tài liệu trên vật mang tin truyền thống:
+ Sách: 1160 tên sách giáo trình với 180.500 bản
Sách tham khảo: 100.768 tên tài liệu (250.345 bản)
+ Báo, tạp chí: Trung tâm hiện có 415 tên báo, tạp chí các thứ tiếng Việt,
tiếng Anh, tiếng Pháp, tiếng Trung, tiếng Nga.
+ 7020 luận án, luận văn:
Lớp: K53 Thông tin – Thư viện

 Cơ sở hạ tầng :
Trung tâm Thông tin – thư viện ĐHQGHN nằm trong quần thể ĐHQG,
với toà nhà 7 tầng được trang bị cơ sở vật chất kỹ thuật khang trang hiện đại.
Trung tâm có tổng diện tích sử dụng là : 4.800m2.
Trụ sở chính tại: 144 Xuân Thủy- Cầu Giấy- Hà Nội: 2400m2.
Lớp: K53 Thông tin – Thư viện

12

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

Phòng phục vụ bạn đọc Thượng Đình- trường Đại học Khoa học Xã hội
và Nhân văn: 336 Nguyễn Trãi, Thanh Xuân, Hà Nội: 1.300m2
Phòng phục vụ bạn đọc Tầng 7 Nhà T5, 334 Nguyễn Trãi, Thanh Xuân,
Hà Nội: 200m2.
Phòng phục vụ bạn đọc Ngoại Ngữ: 530m2.
Phòng phục vụ bạn đọc Mễ Trì: 460m2.
Phòng mượn giáo trình khoa Hóa: 19 Lê Thánh Tông: 60m2
 Cơ sở vật chất kĩ thuật :
Mạng LAN hoàn chỉnh tại trụ sở chính và khu vực Thượng Đình, Ngoại
ngữ, Mễ Trì được kết nối Intranet ĐHQGHN và kết nối Internet.
Trung tâm được đầu tư nâng cấp hệ thống trang thiết bị bao gồm : 10
máy chủ, 5 thống mạng cục bộ, 300 máy trạm, 100 máy truy cập Internet và
150 máy phục vụ nhân viên, 20 máy in, máy đọc đĩa laze. Thư viện quang
gồm 76 giá đĩa (mỗi đĩa chứa được 9,1GB thông tin).

như các bản viết tay, bản in trên giấy, hình ảnh… sang chuẩn dữ liệu trên máy
tính và được máy tính nhận biết được gọi là số hoá tài liệu.
Như chúng ta đã biết, mục đích của một dây chuyền số hóa là chuyển
kho tài liệu giấy thành tài liệu số. Nếu tài liệu số chỉ đơn thuần là các ảnh quét
thì dây chuyền số hóa đó mới chỉ thực hiện được việc “file hóa” tài liệu. Việc
số hóa chỉ mang lại hiệu quả khi quá trình tự động chuyển đổi kho tài liệu trên
giấy thành tài liệu điện tử ở dạng có thể biên tập lại, trích dẫn và tìm kiếm
được. Với ý nghĩa của việc số hóa như vậy, phần mềm nhận dạng ký tự đang
đóng một vai trò then chốt của dây chuyền số hóa tài liệu.
+ Nhận dạng ký tự bằng quang học (thuật ngữ tiếng Anh là Optical
Character Recognition, viết tắt là OCR). Đây là công nghệ được áp dụng để
nhận dạng ký tự trên một định dạng file ảnh và chuyển nó thành định dạng
văn bản (file text).
Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như
gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật
toán máy tính) lúc đầu được xem xét như hai lĩnh vực khác nhau. Bởi vì chỉ
có rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực sự, bởi vậy
thuật ngữ nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa
nhận dạng ký tự số.

Lớp: K53 Thông tin – Thư viện

14

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ


15

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang. Kết quả
nhận dạng có thể được lưu trữ sang định dạng của Microsoft Word, Excel...
phục vụ rất tốt nhu cầu số hóa dữ liệu.
Bên cạnh đó, còn có một phần mềm nhận dạng ký tự tiếng Việt có tên
VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do
Google tài trợ. Đây là một chương trình nguồn mở, hỗ trợ nhận dạng cho các
dạng ảnh TIFF, JPEG, GIF, PNG, và BMP.
Ngoài những phần mềm nhận dạng do các công ty trong nước phát triển
và đã được thương mại hóa còn có một số phần mềm nhận dạng của nước
ngoài, có thể dùng miễn phí như sau:
- TopOCR: Phần mềm TopOCR sử dụng những công nghệ mới nhất,
mạnh nhất trong nhận dạng kí tự quang học và xử lý chữ kí điện tử để cho kết
quả tốt nhất khi nhận dạng kí tự quang học từ ảnh chụp bằng các thiết bị như
máy ảnh số hay điện thoại di động. Công nghệ này là kết quả sau nhiều năm
nghiên cứu và phát triển tại Mỹ và châu Âu. Không giống như các phần mềm
khác được thiết kế cho máy quét, TopOCR được phát triển cho việc nhận
dạng kí tự trong các bức ảnh chụp. Cũng có một phiên bản chạy trên
Windows Mobile và cũng cung cấp khả năng xử lí ảnh chụp rất tuyệt vời.
SimpleOCR: Đây là phần mềm nhận dạng khá mạnh dùng cho máy
quét. Phần mềm này khá phổ biến trên thế giới với hàng trăm ngàn người

người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ
tìm kiếm có thể tìm kiểm toàn văn trên văn bản nhờ lớp text nhận dạng được
bên dưới.
Chất lượng nhận dạng của các phần mềm một phần phụ thuộc vào công
nghệ mà phần mềm đó được xây dựng nhưng không phải một phần mềm tốt
là đủ để thực hiện công việc này mà chất lượng nhận dạng còn phụ thuộc vào
chất lượng ảnh cần nhận dạng. Điều quan trọng nhất là tài liệu cần nhận dạng
hay ảnh quét phải có chất lượng đủ tốt, khoảng 200dpi trở lên thì việc nhận
dạng mới chính xác được. Việc nhận dạng chữ Việt thường xảy ra lỗi do các
chữ tương tự nhau, thiếu dấu hay lầm giữa chữ hoa và chữ thường. Vì vậy đòi
hỏi phải chỉnh sửa tài liệu sau khi nhận dạng để có kết quả tốt nhất.
1.2.2. Vai trò của số hóa tài liệu trong hoạt động của Trung tâm
Thông tin thư viện Đại học Quốc Gia Hà Nội
Chúng ta đang sống trong một thời đại mà tri thức không của riêng ai.
Những kiến thức mà các học giả mất hàng trăm năm để nghiên cứu nay được
Lớp: K53 Thông tin – Thư viện

17

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

đúc kết lại thành vài kilobytes, và dễ dàng tìm thấy thông qua các công cụ
như Google. Dù vậy, trên thực tế các tài liệu giấy vẫn giữ nguyên vai trò quan
trọng của nó trong quá trình giáo dục và tìm hiểu của nhân loại, nhất là những
văn bản giấy có giá trị lịch sử lâu đời hoặc mang tính chuyên ngành cao. Điều


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

làm cần thiết để giúp Trung tâm bảo quản nguồn tài liệu của mình, tiết kiệm
diện tích kho, tiết kiệm chi phí đầu tư cơ sở vật chất, giúp bảo quản tài liệu tốt
hơn tránh được sự hủy hoại của môi trường và sự tác động của con người.
ĐHQGHN với vai trò là một trong hai trường đại học đào tạo chất lượng
cao hàng đầu của cả nước, với nhu cầu phát triển đào tạo và nghiên cứu khoa
học đẳng cấp quốc tế, đào tạo tín chỉ, e-learning (đào tạo điện tử); đòi hỏi
Trung tâm phải có kho tài nguyên tri thức khổng lồ, có khả năng đáp ứng tất
cả các ngành, chuyên ngành đào tạo với chất lượng cao. Theo GS.TS. Nguyễn
Hữu Đức, Phó Giám đốc ĐHQGHN cho biết, trường đang thực hiện Đề án
16+23 nhằm xây dựng 16 ngành đào tạo ĐH và 23 chuyên ngành đào tạo
SĐH đạt trình độ quốc tế vào năm 2012. Theo học các chương trình này, sinh
viên được hỗ trợ để học tiếng Anh nâng cao; từ năm thứ 2, bài giảng do các
giáo viên nước ngoài và trong nước dạy bằng tiếng Anh được thực hành, tham
gia nghiên cứu tại các phòng thí nghiệm hiện đại. Mục tiêu của nhà trường là
tập trung đào tạo đáp ứng theo nhu cầu xã hội với nguồn nhân lực chất lượng
cao, có thể làm việc tại bất kỳ đâu trên thế giới với 77 ngành đào tạo, trong đó
có 105 chuyên ngành đào tạo đại học khác nhau, có 5 chương trình đào tạo
tài năng, 3 chương trình đào tạo tiên tiến, 20 chương trình chất lượng và
nhiều chương trình đào tạo đặc biệt khác.
Từ thực tế đó, Trung tâm xác định việc đầu tư xây dựng và phát triển kho
tài nguyên tri thức một mặt phải khởi tạo nguồn tài nguyên tri thức bằng cách
xây dựng các CSDL điện tử chuyên ngành, xây dựng thư viện các bài giảng
điện tử, đầu tư xây dựng và phát triển các nguồn tài nguyên số hóa (số hóa
các luận án, luận văn, các giáo trình, sách giáo khoa của ĐHQGHN, các đề tài
nghiên cứu khoa học của ĐHQGHN); mặt khác từng bước kết nối với các

tâm nói riêng đang hàng ngày, hàng giờ phải đối mặt với sự đe dọa của khí
hậu, môi trường, của con người tác động vào. Vì vậy, việc số hóa tài liệu
không những giúp kéo dài tuổi thọ của tài liệu mà con tiết kiệm được diện
tích kho mà còn giúp cho bạn đọc truy cập nhanh vào thông tin tài liệu bất cứ
ở nơi đâu, thời điểm nào mà chỉ cần một máy tính nối mạng là được.
Nhận thấy tầm quan trọng của công tác số hóa tài liệu, Trung tâm đã thử
nghiệm việc số hóa từ năm 2005 với 5 tài liệu và bắt đầu triển khai công tác
số hóa tài liệu từ năm 2009. Trung tâm là một trong những thư viện đi đầu
trong công tác số hóa tài liệu tại Việt Nam hiện nay.

Lớp: K53 Thông tin – Thư viện

20

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ
CHƯƠNG 2

PHẦN MỀM NHẬN DẠNG ABBYY TRONG CÔNG TÁC SỐ HÓA
TÀI LIỆU TẠI TRUNG TÂM THÔNG TIN – THƯ VIỆN
ĐẠI HỌC QUỐC GIA HÀ NỘI
2.1. Giới thiệu tổng quan về phần mềm nhận dạng ABBYY.
2.1.1. Lịch sử hình thành và phát triển.
ABBYY là tên phần mềm nhận dạng đồng thời cũng là tên công ty
ABBYY do David Yang – một cựu sinh viên của Viện Vật lý Công nghệ
Mátxcơva sáng lập và hiện là Tổng Giám đốc của công ty này. Ý tưởng tạo ra

quốc gia khác nhau như Nga, Đức, Hoa Kỳ, Ukraina, Anh, Síp, Nhật Bản và
Đài Loan…Sản phẩm ABBYY đang được bán tại hơn 130 quốc gia trên thế
giới thông qua một mạng lưới các đối tác trong khu vực và quốc tế.
ABBYY là nhà cung cấp hàng đầu thế giới về phần mềm và dịch vụ
chuyển đổi tài liệu, dữ liệu, và nhận dạng ký tự. ABBYY có 2 dòng sản phẩm
chính: ABBYY Recognition Server và ABBYY FlexiCapture.
2.1.2. Các tính năng cơ bản của phần mềm nhận dạng ABBYY
Công nghệ nhận dạng của hãng ABBYY là công nghệ nhận dạng hàng
đầu thế giới, cho phép chuyển đổi tài liệu với nhiều tính năng và tiện ích:
 Nhận dạng chính xác:
Phần mềm này cho phép nhận dạng chính xác 198 ngôn ngữ, bao gồm cả
chữ in tiếng Việt với mức độ chính xác tới 99%, có thể chuyển đổi tài liệu
giấy, ảnh số và các tập tin PDF sang văn bản điện tử ở định dạng có thể soạn
thảo và tìm kiếm được. ABBYY còn có khả năng giữ nguyên định dạng và
dàn trang của tài liệu gốc tốt hơn bao giờ hết. Chỉ trong chốc lát ta có thể
chuyển đổi văn bản dạng ảnh thành văn bản số ở định dạng có thể soạn thảo
được.
 Quản lý tập trung:
ABBYY có giao diện quản lý từ xa, giữ vai trò quản lý tập trung, cho
phép người quản trị đặt cấu hình hệ thống theo các yêu cầu xử lý, các tham số
nhận dạng, lịch trình thực hiện, khuôn dạng kết quả nhận dạng.
 Công cụ tích hợp mềm dẻo:
ABBYY có thể xử lý công việc với khối lượng lớn tùy ý: Việc quản trị
hệ thống cũng rất mềm dẻo làm cho máy hoạt động liên tục hoặc chỉ trong
những khoảng thời gian nhất định. Được trang bị công nghệ nhân dạng chữ in
Lớp: K53 Thông tin – Thư viện

22

Trường: ĐHKHXH&NV

định dạng sách điện tử phổ biến, là những định dạng được hỗ trợ bởi các loại
thiết bị đọc sách điện tử, máy tính bảng hay điện thoại thông minh.
 Định dạng kết quả đầu ra rất đa dạng:
Lớp: K53 Thông tin – Thư viện

23

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

+ PDF, PDF/A – 1a, PDF/A – 1b
+ RTF, DOC, DOCX, Word XML
+ XLS, XLSX, HTML
 Tốc độ xử lý nhanh, tiết kiệm thời gian và chi phí.Hệ thống cho
phép xử lý nhiều định dạng ảnh đầu vào khác nhau:
+ BMP: đen trắng, xám, màu
+ PNG: đen trắng, xám, màu
+ PCX, DCX: đen trắng, xám, màu
Với nhiều tính năng hiện đại như trên, phần mềm nhận dạng của
ABBYY đang được nhiều trung tâm thông tin - thư viện và các cơ quan đơn
vị đưa vào ứng dụng trong quá trình xây dựng thư viện số, quản lý và kinh
doanh. Đây là giải pháp hoàn chỉnh giải quyết vấn đề số hóa nhận dạng, một
chủ đề không mới nhưng vẫn còn rất nóng hiện nay.
Để dùng được phần mềm nhận dạng ABBYY, yêu cầu máy tính phải có
tốc độ tối thiểu 1 GHz
Máy tính có thể chạy trên các hệ điều hành Microsoft Windows 7 hoặc

các hàm được đóng gói ở mức độ cao, sẵn sàng cho các chức năng nhận dạng
tài liệu hay chuyển đối sang PDF. Thêm vào đó các hệ thống quản lý thông
tin được bổ sung một khối chức năng chuyển đổi tài liệu hoàn chỉnh
Hãy tưởng tượng bạn đang có trong tay một số tài liệu giấy như sách,
báo, tờ rơi quảng cáo, hợp đồng. Máy quét chỉ có thể biến những tài liệu giấy
này thành tài liệu dạng ảnh. Với các tài liệu dạng ảnh chỉ có thể đọc mà không
thể biên tập lại chúng trên các hệ soạn thảo điện tử hiện nay; các hệ thống tìm
kiếm cũng không thể tìm được các đoạn văn bản trên những tài liệu này. Với
việc sử dụng phần mềm nhận dạng chữ in biên soạn lại các tài liệu dạng ảnh
cũng như việc số hóa tài liệu sẽ được thực hiện rất đơn giản.
Nhờ các tính năng vượt trội trên nên mặc dù mới được du nhập vào Việt
Nam nhưng phần mềm nhận dạng ABBYY đã được nhiều cơ quan tổ chức
đánh giá cao và đưa vào sử dụng như: Bộ Khoa học và Công nghệ (Cục Sở
hữu trí tuệ), Trung tâm Thông tin Thư viện ĐHQG Hà Nội, Văn phòng TW
Đoàn Thanh niên Cộng sản Hồ Chí Minh, Công ty Cổ phần Chứng Khoán
Vndirect…
Lớp: K53 Thông tin – Thư viện

25

Trường: ĐHKHXH&NV



Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status