Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
84
XÂY DỰG KHO BÁO CÁO KẾT QUẢ GHIÊ
CỨU SỐ HOÁ Ở CỤC THÔG TI KHOA HỌC VÀ
CÔG GHỆ QUỐC GIA
8Cao Minh Kiểm - Phó Cục trưởng,
Cục Thông tin Khoa học và Công nghệ Quốc gia
Số hoá (tiếng Anh là Digitization) là quá trình chuyển đổi những thông tin trên
những đối tượng thực sang dạng điện tử hay còn gọi là dạng số. Những đối tượng thực
chứa thông tin có thể là các tài liệu dạng văn bản, hình ảnh, bản đồ, băng ghi âm, ghi
hình, trên các vật mang tin vật lý (trên giấy, trên phim, giấy ảnh, vi hình, băng ghi
âm băng ghi hình, v.v ). Kết quả của số hoá là những đối tượng thực được chuyển
sang đối tượng số dưới hình thức tệp tin. Những tệp tin này có thể được sử dụng rất
nhiều trong xây dựng những cơ sở dữ liệu có liên kết với tệp toàn văn. Mục đích của
số hoá có thể là: Tăng cường sự truy cập đến tài nguyên thông tin; Cải thiện chất
lượng dịch vụ cho những người dùng tin thông qua khả năng truy cập được cải thiện;
Giảm việc tiếp xúc trực tiếp đến những tài nguyên quý, hiếm, cổ hoặc được sử dụng
nhiều; Tạo ra bản sao lưu trữ; cho phép cơ quan, đơn vị phát triển hạ tầng kỹ thuật và
kỹ năng của nhân viên; Phát triển khả năng chia sẻ tài nguyên thông tin [IFLA, 2002].
Nhằm tăng cường khả năng truy cập đến tài nguyên thông tin, nâng cao chất
lượng dịch vụ, tăng cường chia sẻ tài nguyên thông tin, Cục thông tin đã xác định xây
dựng cơ sở dữ liệu (CSDL) toàn văn là một trong những hướng công tác quan trọng
của Cục Thông tin Khoa học và Công nghệ từ những năm đầu tiên của thế kỷ 21. Số
hoá tài liệu là một hoạt động rất quan trọng trong việc xây dựng những CSDL toàn văn
sách nhà nước, sau khi kết thúc, phải đăng ký, giao nộp và lưu giữ tại cơ quan nhà
nưc có thNm quyn [UBKHKTN N , 1980, B KH&CN , 2007]. Theo các quy nh
hin hành v ăng ký và giao np KQN C, Cc Thông tin KH&CN Quc gia là cơ
quan nhà nưc có thNm quyn cp ăng ký KQN C ca các nhim v KH&CN cp nhà
nưc và cp B. Các S KH&CN ca tnh, thành ph trc thuc Trung ương là cơ
quan nhà nưc có thNm quyn cp ăng ký KQN C ca các nhim v KH&CN cp tnh
và cp cơ s ti a phương.
Trên cơ s thc hin chc năng cơ quan nhà nưc có thNm quyn v ăng ký,
lưu gi báo cáo KQN C, Cc Thông tin KH&CN Quc gia ã thu nhn, lưu gi trên
trên 10.000 báo cáo KQN C ca các tài N C&PT các cp. Cc ã CSDL c bit v
các báo cáo này và gi là CSDL KQN C. ây là CSDL quý, quy mô quc gia v mt
dng tài liu xám. ph bin thông tin v ngun tài liu quý nàu t nhng cui
nhng 80's ca th k trưc, Vin Thông tin KHKT Trung ương (nay là Cc Thông tin
KH&CN Quc gia) ã tin hành xây dng CSDL thư mc v báo cáo KQN C. n ht
năm 2010, CSDL KQN C ã có trên 10.000 biu ghi thư mc.
T năm 2004, Cc Thông tin KH&CN Quc gia ã tin hành s hoá các báo
cáo KQN C và th nghim liên kt tp toàn văn báo cáo KQN C vi cơ s d liu
KQN C. D liu s lúc u ưc lưu trên ĩa CDROM và bn c sau khi tra cu
thông tin thư mc, căn c thông tin v ĩa CDROM cha tp tin toàn văn, bn c có
th yêu cu t ĩa CDROM cha d liu vào và c tp tin ó. N hư vy bn c có
th không cn yêu cu tìm tài liu gc dng giy trong kho báo cáo KQN C.
Gn ây, các tp tin báo cáo kt qu nghiên cu ưc t trên cng máy tính
và ngưi dùng tin có th truy cp ngay tp tin báo cáo KQN C mà không cn yêu cu
mưn ĩa CDROM. Tuy nhiên, do quy nh không ưc ưa báo cáo KQN C lên mng
máy tính, Cc Thông tin KH&CN Quc gia mi to lp CSDL thư mc v báo cáo
KQN C và ưa lên mng VISTA ngưi dùng tin tra cu thông tin thư mc. N hng
báo cáo KQN C s hoá ưc lưu gi tách bit, không ưa lên mng Internet. N gưi
dùng tin có th yêu cu cung cp báo cáo s hoá theo quy nh. Vi vic s hoá báo
9
Công tác s hoá tài liu KH&CN Cc Thông tin KH&CN Quc gia có th
ưc chia thành hai thi kỳ:
- Thi kỳ 2004-2009: S hoá phân tán, s dng máy quét thông thưng
(scanner)
- Thi kỳ 2010-n nay: S hoá tp trung, s dng h thng s hoá KIRTAS
1. Công tác số hoá báo cáo KQC thời kỳ 2004-2009
Trong giai on này, công tác s hoá tài liu ưc giao trc tip cho nhng ơn
v chu trách nhim xây dng CSDL KQN C, ó là B phn ăng ký KQN C, ng thi
là nơi lưu gi các báo cáo KQN C ca các nhim v KH&CN .
Thit b s hoá là máy quét văn phòng, ch yu là máy quét ca HP.
Mc dù có s khác nhau nht nh v i tưng cn s hoá (bài báo hoc c
quyn báo cáo KQN C), nhưng nhng vn la chn kh mu tài liu s là cơ bn
như nhau
Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
87
a) Lựa chọn khổ mẫu dữ liệu số và phần mềm số hoá
Trên cơ s nhng tìm hiu v kh mu d liu trong lưu tr và trao i thông
tin, Cc Thông tin KH&CN Quc gia ã xut la chn kh mu d liu s PDF –
Portable Document Format [Cao Minh Kim và Lê Xuân nh, 2002; Cao Minh
Kim, 2005]. Kh mu d liu PDF do Hãng Adobe phát trin và s dng cùng vi
chương trình quét Adobe Acrobat.
Lý do chn kh mu PDF là:
- PDF ưc s dng rt rng rãi như mt kh mu không ph thuc nn
(platform-independent) trong vic ph bin tài liu theo trang. Phn mm Adobe
Reader c tp PDF ưc cung cp min phí và có trong hu ht các máy tính.
- Có th to liên kt gia các tài liu và bên trong tài liu;
- Có chú gii và mã ánh du (bookmark) làm mc lc (cho phép chuyn n
- Mt im nh ti a 300 dpi và ti thiu 200 dpi.
- Mi tài liu trên giy s tương ng vi 1 tp tin.
Vi CSDL KQN C, i tưng cn s hoá là các tp báo cáo KQN C. Trên thc t
các tài liu này có ln khác nhau, có th t mt vài chc trang n vài trăm trang.
Do báo báo cáo KQN C khá dày nên khi quét phi tháo bìa có th quét tng trang.
c) Xử lý tệp tin sau khi quét
Tp tin sau khi quét ưc x lý li bng phn mm Adobe Acrobat. Các thao
tác gm:
- Kim tra s trang;
- Ct rim (Cropping);
- Làm Bookmark.
- t li tên tp.
Do báo cáo KQN C là tài liu dày, khó khăn cho ngưi dùng tin tìm c phn tài
liu mà h quan tâm nên Cc Thông tin KH&CN Quc gia ã thc hin vic làm
Bookmark cho tp tin toàn văn. BOOKMARK chính là vic lp mt trang mc lc cho
phép chuyn n mc ưc ánh du mt cách d dàng và tin li
d) Đặt tên tệp
Mt nguyên tc ưc ra khi t tên tp tin là làm sao d xác nh ưc tài
liu gc ca tp tin s hoá, d nhn bit, d tìm li khi cn. Trên cơ s nguyên tc ó,
chúng tôi ã xut cách t tên tp tin s hoá.
Đối với báo cáo kết quả nghiên cứu, tên tp tin s trùng vi s ăng ký cá bit
(ký hiu kho) ca báo cáo gc. Phn m rng là PDF. Thí d:
7000.pdf ; 7001.pdf
trong ó: 7000 và 7001 là s ăng ký cá bit/ký hiu kho ca báo cáo.
N u mt tài có nhiu tp báo cáo (chuyên , báo cáo tài nhánh, ) ưc
giao np, thì s ăng ký cá bit ca báo cáo i kèm s có thêm mt hu t, thí d:
7000-1, 7001-2. Phn u ca tên tp tin trưc phn m rng (pdf) ca báo cáo i kèm
vn s ưc t úng như ca nhưng s ăng ký cá bit: 7000-1.pdf, 7000-2.pdf,
2. Giai đoạn số hoá tập trung bằng hệ thống KIRTAS
Giai on này ưc t trưng vi vic hình thành b phn chuyên trách s hoá tài liu
Page Separator giúp chia tách trang khi b cm bin Page Edge Sensor giám sát vic
vn hành máy vi chính xác cao và iu chnh u trang sách khi cn. ng thi,
nó liên tc kim tra nhm m bo cánh tay rôbt ch lt mt trang duy nht ti mt
thi im, và kim soát t xa khi có trang b b sót, khi ó, b cm bin Page Edge
Sensor s tm ngng vn hành máy con ngưi thc hin thao tác iu chnh. Kirtas
APT 1600 và Kabis có th sao chp n 1600 trang mt gi.
Thông s k thut ca thit b Kirtas và KABIS cơ bn như sau:
Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
90
- Tc quét: 1600 trang/gi
- Hình nh: màu, en/trng
- nh dng u ra: TIFF, JPEG, RAW,…
- Sao chp: máy nh k tht s 16.7 triu im nh, sâu 24 bit RGB, 4.992 x
3.228 im nh
- phân gii 300 ppi có th tăng lên n 600 ppi
- Kích c trang giy: 11,4 cm x 17,8 cm n 27,9 cm x 35,5 cm
- dày trang giy: 20 g/m2 n 300 g/m2
- dày óng tp: 10,16 cm
- Kích c máy (Rng x Dài x Cao): 84 cm x 76 cm x 122 cm
- Tính chính xác: B cm bin Page Edge Sensor
- Thit b chia tách trang Page Seperator
- Trng lưng: 73 Kg
- N gun in: 110-240 VAC, 50/60 Hz, 15 A
- Trm x lý: Máy ch Kirtas Image Server.
N goài ra, h thng s hóa Kirtas còn tích hp phn mm BookScan Editor cho
phép căn chnh trang t ng theo khi d liu vi năng sut cao và phn mm nhn
dng ký t quang hc (OCR) cho 189 ngôn ng.
trách nhim thc hin các bưc x lý tip theo gm:
- Làm Bookmark
- t/i tên tp cho phù hp.
d). Đặt tên tệp tin
Vic t tên tp ưc quy nh c th i vi báo cáo KQN C do Cc Thông tin
KH&CN Quc gia lưu gi (theo quy nh ca pháp lut) và vi tp tin báo cáo KQN C
do các S KH&CN ưa Cc s hoá (theo nhim v xây dng CSDL N ghiên cu và
phát trin). i vi các báo cáo KQN C do Cc cp ăng ký và lưu gi, vic t tên
vn gi như quy nh ã nêu trên.
i vi báo cáo KQN C do các S KH&CN cp ăng ký và lưu gi, m bo
không b trùng lp, tên tp tin ưc quy nh gm nhng yu t sau như sau:
Mã tỉnh-KQ + 4 số năm hoàn thành báo cáo-5 chữ của số thứ tự
trong ó Mã tỉnh là mã 3 ký t tên tnh theo tiêu chuNn TCVN 7587-2007.
Thí d, tp tin là ca báo cáo KQN C lưu ti S KH&CN Hà N i, báo cáo vit
năm 2005, s th t là 3, tên tp tin s là:
HNI-KQ2005-00003.pdf
trong ó: Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
92
HN I : Mã a phương cho Hà N i
KQ : Tp tin v KQN C
2005: N ăm 2005
00003: Báo cáo có s th t 3
Thí d, tp tin là ca báo cáo KQN C ca Tp H Chí Minh, năm vit báo cáo
Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
93
- i vi sách có dày gáy ln, sau khong 50 - 60 trang sách, cn dng máy
ch tm thi máy t ng căn chnh tâm ca gáy sách vào chính gia hai khe
giá sách.
- Cn quan tâm n rng ca tài liu s hóa iu chnh máy cho hp lý và
chính xác. Vic này nên ưc làm ngay t u cho các tài liu có cùng rng trong
cùng mt thi gian máy hot ng tit kim thi gian căn chnh máy.
KẾT LUẬ
Xây dng thư vin in t/thư vin s là mt trong nhng xu th quan trng
trong hot ng thông tin-thư vin. S hoá là mt hot ng không th thiu to lp
ra ngun tài nguyên thông tin s hoá.
Báo cáo KQN C ca các nhim v KH&CN các cp là mt dng tài nguyên
thông tin rt có giá tr, cn ưc lưu gi, s dng hiu qu. S hoá các báo cáo KQN C
góp phn tăng cưng kh năng lưu gi, ph bin và s dng ngun tài nguyên giá tr
này. Cc Thông tin KH&CN Quc gia hin nay ang trin khai hot ng s hoá các
báo cáo KQN C bng h thng s hoá hin i ca hãng Kirtas.
Công tác s ã to ra mt kho lưu gi báo cáo KQN C vi gn 16.000 báo cáo
KQN C. ây là mt tài nguyên thông tin giá tr, phc v cho công tác qun lý nhà nưc
v KH&CN cũng như m bo thông tin cho hot ng nghiên cu và phát trin.
TÀI LIỆU THAM KHẢO
1. B KH&CN , 2007. Quyt nh s 03/2007/Q-BKHCN ngày 16/3/2007 ca B
trưng B KH&CN v vic ban hành Quy ch ăng ký, lưu gi và s dng kt qu
thc hin nhim v KH&CN .
2. B KH&CN , 2011. Thông tư s 04/2011/TT-BKHCN ngày 20/4/2011 ca B
Thông tin và Tư liu, s 2, 2011.
9. IFLA (2002). Guidelines for digitization projects for collections and holdings in the
public domain, particularly those held by libraries and archives. March 2002.
10. N guyn c Tr (2005). Xây dng cơ s d liu toàn văn tài liu khoa hc và công
ngh Vit N am ti Trung tâm Thông tin Khoa hc và Công ngh Quc gia. K yu
Hi ngh ngành Thông tin Khoa hc và công ngh - Ln th V. Hà N i : Trung tâm
Thông tin KH&CN Quc gia, 2005. -tr.131-135.
11. Phan Huy Qu (2004). Th nghim ưa báo cáo kt qu nghiên cu vào cơ s d
liu thư mc ti Trung tâm Thông tin KHCN Quc gia. Tp chí Thông tin và Tư
liu, s 2/2004. Tr. 11-16.
12. Phan Huy Qu (2006). S hoá báo cáo kt qu nghiên cu ti Trung tâm Thông tin
KHCN Quc gia – N hng kinh nghim thc tin. Tp chí Thông tin và Tư liu, s
1/2006. Tr. 24-28.
13. U ban Khoa hc K thut N hà nưc (1980). Quyt nh s 271/Q ngày 6/6/1980
ca Ch nhim U ban KHKT N hà nưc;