Xây dựng kho báo cáo kết quả nghiên cứu số hóa ở Cục Thông tin Khoa học và Công nghệ Quốc gia - Pdf 25


Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội

84

XÂY DỰG KHO BÁO CÁO KẾT QUẢ GHIÊ
CỨU SỐ HOÁ Ở CỤC THÔG TI KHOA HỌC VÀ
CÔG GHỆ QUỐC GIA
8Cao Minh Kiểm - Phó Cục trưởng,
Cục Thông tin Khoa học và Công nghệ Quốc gia

Số hoá (tiếng Anh là Digitization) là quá trình chuyển đổi những thông tin trên
những đối tượng thực sang dạng điện tử hay còn gọi là dạng số. Những đối tượng thực
chứa thông tin có thể là các tài liệu dạng văn bản, hình ảnh, bản đồ, băng ghi âm, ghi
hình, trên các vật mang tin vật lý (trên giấy, trên phim, giấy ảnh, vi hình, băng ghi
âm băng ghi hình, v.v ). Kết quả của số hoá là những đối tượng thực được chuyển
sang đối tượng số dưới hình thức tệp tin. Những tệp tin này có thể được sử dụng rất
nhiều trong xây dựng những cơ sở dữ liệu có liên kết với tệp toàn văn. Mục đích của
số hoá có thể là: Tăng cường sự truy cập đến tài nguyên thông tin; Cải thiện chất
lượng dịch vụ cho những người dùng tin thông qua khả năng truy cập được cải thiện;
Giảm việc tiếp xúc trực tiếp đến những tài nguyên quý, hiếm, cổ hoặc được sử dụng
nhiều; Tạo ra bản sao lưu trữ; cho phép cơ quan, đơn vị phát triển hạ tầng kỹ thuật và
kỹ năng của nhân viên; Phát triển khả năng chia sẻ tài nguyên thông tin [IFLA, 2002].
Nhằm tăng cường khả năng truy cập đến tài nguyên thông tin, nâng cao chất
lượng dịch vụ, tăng cường chia sẻ tài nguyên thông tin, Cục thông tin đã xác định xây
dựng cơ sở dữ liệu (CSDL) toàn văn là một trong những hướng công tác quan trọng
của Cục Thông tin Khoa học và Công nghệ từ những năm đầu tiên của thế kỷ 21. Số
hoá tài liệu là một hoạt động rất quan trọng trong việc xây dựng những CSDL toàn văn

sách nhà nước, sau khi kết thúc, phải đăng ký, giao nộp và lưu giữ tại cơ quan nhà
nưc có thNm quyn [UBKHKTN N , 1980, B KH&CN , 2007]. Theo các quy nh
hin hành v ăng ký và giao np KQN C, Cc Thông tin KH&CN Quc gia là cơ
quan nhà nưc có thNm quyn cp ăng ký KQN C ca các nhim v KH&CN cp nhà
nưc và cp B. Các S KH&CN ca tnh, thành ph trc thuc Trung ương là cơ
quan nhà nưc có thNm quyn cp ăng ký KQN C ca các nhim v KH&CN cp tnh
và cp cơ s ti a phương.
Trên cơ s thc hin chc năng cơ quan nhà nưc có thNm quyn v ăng ký,
lưu gi báo cáo KQN C, Cc Thông tin KH&CN Quc gia ã thu nhn, lưu gi trên
trên 10.000 báo cáo KQN C ca các  tài N C&PT các cp. Cc ã CSDL c bit v
các báo cáo này và gi là CSDL KQN C. ây là CSDL quý, quy mô quc gia v mt
dng tài liu xám.  ph bin thông tin v ngun tài liu quý nàu t nhng cui
nhng 80's ca th k trưc, Vin Thông tin KHKT Trung ương (nay là Cc Thông tin
KH&CN Quc gia) ã tin hành xây dng CSDL thư mc v báo cáo KQN C. n ht
năm 2010, CSDL KQN C ã có trên 10.000 biu ghi thư mc.
T năm 2004, Cc Thông tin KH&CN Quc gia ã tin hành s hoá các báo
cáo KQN C và th nghim liên kt tp toàn văn báo cáo KQN C vi cơ s d liu
KQN C. D liu s lúc u ưc lưu trên ĩa CDROM và bn c sau khi tra cu
thông tin thư mc, căn c thông tin v ĩa CDROM cha tp tin toàn văn, bn c có
th yêu cu t ĩa CDROM cha d liu vào và c tp tin ó. N hư vy bn c có
th không cn yêu cu tìm tài liu gc dng giy trong kho báo cáo KQN C.
Gn ây, các tp tin báo cáo kt qu nghiên cu ưc t trên  cng máy tính
và ngưi dùng tin có th truy cp ngay tp tin báo cáo KQN C mà không cn yêu cu
mưn ĩa CDROM. Tuy nhiên, do quy nh không ưc ưa báo cáo KQN C lên mng
máy tính, Cc Thông tin KH&CN Quc gia mi to lp CSDL thư mc v báo cáo
KQN C và ưa lên mng VISTA  ngưi dùng tin tra cu thông tin thư mc. N hng
báo cáo KQN C s hoá ưc lưu gi tách bit, không ưa lên mng Internet. N gưi
dùng tin có th yêu cu cung cp báo cáo s hoá theo quy nh. Vi vic s hoá báo

9

Công tác s hoá tài liu KH&CN  Cc Thông tin KH&CN Quc gia có th
ưc chia thành hai thi kỳ:
- Thi kỳ 2004-2009: S hoá phân tán, s dng máy quét thông thưng
(scanner)
- Thi kỳ 2010-n nay: S hoá tp trung, s dng h thng s hoá KIRTAS
1. Công tác số hoá báo cáo KQC thời kỳ 2004-2009
Trong giai on này, công tác s hoá tài liu ưc giao trc tip cho nhng ơn
v chu trách nhim xây dng CSDL KQN C, ó là B phn ăng ký KQN C, ng thi
là nơi lưu gi các báo cáo KQN C ca các nhim v KH&CN .
Thit b s hoá là máy quét văn phòng, ch yu là máy quét ca HP.
Mc dù có s khác nhau nht nh v i tưng cn s hoá (bài báo hoc c
quyn báo cáo KQN C), nhưng nhng vn  la chn kh mu tài liu s là cơ bn
như nhau

Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội

87

a) Lựa chọn khổ mẫu dữ liệu số và phần mềm số hoá
Trên cơ s nhng tìm hiu v kh mu d liu trong lưu tr và trao i thông
tin, Cc Thông tin KH&CN Quc gia ã  xut la chn kh mu d liu s PDF –
Portable Document Format [Cao Minh Kim và Lê Xuân nh, 2002; Cao Minh
Kim, 2005]. Kh mu d liu PDF do Hãng Adobe phát trin và s dng cùng vi
chương trình quét Adobe Acrobat.
Lý do chn kh mu PDF là:
- PDF ưc s dng rt rng rãi như mt kh mu không ph thuc nn
(platform-independent) trong vic ph bin tài liu theo trang. Phn mm Adobe
Reader  c tp PDF ưc cung cp min phí và có trong hu ht các máy tính.
- Có th to liên kt gia các tài liu và bên trong tài liu;
- Có chú gii và mã ánh du (bookmark) làm mc lc (cho phép chuyn n

- Mt  im nh ti a 300 dpi và ti thiu 200 dpi.
- Mi tài liu trên giy s tương ng vi 1 tp tin.
Vi CSDL KQN C, i tưng cn s hoá là các tp báo cáo KQN C. Trên thc t
các tài liu này có  ln khác nhau, có th t mt vài chc trang n vài trăm trang.
Do báo báo cáo KQN C khá dày nên khi quét phi tháo bìa  có th quét tng trang.
c) Xử lý tệp tin sau khi quét
Tp tin sau khi quét ưc x lý li bng phn mm Adobe Acrobat. Các thao
tác gm:
- Kim tra s trang;
- Ct rim (Cropping);
- Làm Bookmark.
- t li tên tp.
Do báo cáo KQN C là tài liu dày, khó khăn cho ngưi dùng tin tìm c phn tài
liu mà h quan tâm nên Cc Thông tin KH&CN Quc gia ã thc hin vic làm
Bookmark cho tp tin toàn văn. BOOKMARK chính là vic lp mt trang mc lc cho
phép chuyn n mc ưc ánh du mt cách d dàng và tin li
d) Đặt tên tệp
Mt nguyên tc ưc  ra khi t tên tp tin là làm sao d xác nh ưc tài
liu gc ca tp tin s hoá, d nhn bit, d tìm li khi cn. Trên cơ s nguyên tc ó,
chúng tôi ã  xut cách t tên tp tin s hoá.
Đối với báo cáo kết quả nghiên cứu, tên tp tin s trùng vi s ăng ký cá bit
(ký hiu kho) ca báo cáo gc. Phn m rng là PDF. Thí d:
7000.pdf ; 7001.pdf
trong ó: 7000 và 7001 là s ăng ký cá bit/ký hiu kho ca báo cáo.
N u mt  tài có nhiu tp báo cáo (chuyên , báo cáo  tài nhánh, ) ưc
giao np, thì s ăng ký cá bit ca báo cáo i kèm s có thêm mt hu t, thí d:
7000-1, 7001-2. Phn u ca tên tp tin trưc phn m rng (pdf) ca báo cáo i kèm
vn s ưc t úng như ca nhưng s ăng ký cá bit: 7000-1.pdf, 7000-2.pdf,
2. Giai đoạn số hoá tập trung bằng hệ thống KIRTAS
Giai on này ưc t trưng vi vic hình thành b phn chuyên trách s hoá tài liu

Page Separator giúp chia tách trang khi b cm bin Page Edge Sensor giám sát vic
vn hành máy vi  chính xác cao và iu chnh u trang sách khi cn. ng thi,
nó liên tc kim tra nhm m bo cánh tay rôbt ch lt mt trang duy nht ti mt
thi im, và kim soát t xa khi có trang b b sót, khi ó, b cm bin Page Edge
Sensor s tm ngng vn hành máy  con ngưi thc hin thao tác iu chnh. Kirtas
APT 1600 và Kabis có th sao chp n 1600 trang mt gi.
Thông s k thut ca thit b Kirtas và KABIS cơ bn như sau:

Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội

90

- Tc  quét: 1600 trang/gi
- Hình nh: màu, en/trng
- nh dng u ra: TIFF, JPEG, RAW,…
- Sao chp: máy nh k tht s 16.7 triu im nh,  sâu 24 bit RGB, 4.992 x
3.228 im nh
-  phân gii 300 ppi có th tăng lên n 600 ppi
- Kích c trang giy: 11,4 cm x 17,8 cm n 27,9 cm x 35,5 cm
-  dày trang giy: 20 g/m2 n 300 g/m2
-  dày óng tp: 10,16 cm
- Kích c máy (Rng x Dài x Cao): 84 cm x 76 cm x 122 cm
- Tính chính xác: B cm bin Page Edge Sensor
- Thit b chia tách trang Page Seperator
- Trng lưng: 73 Kg
- N gun in: 110-240 VAC, 50/60 Hz, 15 A
- Trm x lý: Máy ch Kirtas Image Server.
N goài ra, h thng s hóa Kirtas còn tích hp phn mm BookScan Editor cho
phép căn chnh trang t ng theo khi d liu vi năng sut cao và phn mm nhn
dng ký t quang hc (OCR) cho 189 ngôn ng.

trách nhim thc hin các bưc x lý tip theo gm:
- Làm Bookmark
- t/i tên tp cho phù hp.
d). Đặt tên tệp tin
Vic t tên tp ưc quy nh c th i vi báo cáo KQN C do Cc Thông tin
KH&CN Quc gia lưu gi (theo quy nh ca pháp lut) và vi tp tin báo cáo KQN C
do các S KH&CN ưa Cc s hoá (theo nhim v xây dng CSDL N ghiên cu và
phát trin). i vi các báo cáo KQN C do Cc cp ăng ký và lưu gi, vic t tên
vn gi như quy nh ã nêu  trên.
i vi báo cáo KQN C do các S KH&CN cp ăng ký và lưu gi,  m bo
không b trùng lp, tên tp tin ưc quy nh gm nhng yu t sau như sau:
Mã tỉnh-KQ + 4 số năm hoàn thành báo cáo-5 chữ của số thứ tự

trong ó Mã tỉnh là mã 3 ký t tên tnh theo tiêu chuNn TCVN 7587-2007.
Thí d, tp tin là ca báo cáo KQN C lưu ti S KH&CN Hà N i, báo cáo vit
năm 2005, s th t là 3, tên tp tin s là:
HNI-KQ2005-00003.pdf
trong ó: Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội

92

HN I : Mã a phương cho Hà N i
KQ : Tp tin v KQN C
2005: N ăm 2005
00003: Báo cáo có s th t 3

Thí d, tp tin là ca báo cáo KQN C ca Tp H Chí Minh, năm vit báo cáo


Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội

93

- i vi sách có  dày gáy ln, sau khong 50 - 60 trang sách, cn dng máy
 ch  tm thi  máy t ng căn chnh tâm ca gáy sách vào chính gia hai khe
 giá sách.
- Cn quan tâm n  rng ca tài liu s hóa  iu chnh máy cho hp lý và
chính xác. Vic này nên ưc làm ngay t u cho các tài liu có cùng  rng trong
cùng mt thi gian máy hot ng  tit kim thi gian căn chnh máy.
KẾT LUẬ
Xây dng thư vin in t/thư vin s là mt trong nhng xu th quan trng
trong hot ng thông tin-thư vin. S hoá là mt hot ng không th thiu  to lp
ra ngun tài nguyên thông tin s hoá.
Báo cáo KQN C ca các nhim v KH&CN các cp là mt dng tài nguyên
thông tin rt có giá tr, cn ưc lưu gi, s dng hiu qu. S hoá các báo cáo KQN C
góp phn tăng cưng kh năng lưu gi, ph bin và s dng ngun tài nguyên giá tr
này. Cc Thông tin KH&CN Quc gia hin nay ang trin khai hot ng s hoá các
báo cáo KQN C bng h thng s hoá hin i ca hãng Kirtas.
Công tác s ã to ra mt kho lưu gi báo cáo KQN C vi gn 16.000 báo cáo
KQN C. ây là mt tài nguyên thông tin giá tr, phc v cho công tác qun lý nhà nưc
v KH&CN cũng như m bo thông tin cho hot ng nghiên cu và phát trin.

TÀI LIỆU THAM KHẢO

1. B KH&CN , 2007. Quyt nh s 03/2007/Q-BKHCN ngày 16/3/2007 ca B
trưng B KH&CN v vic ban hành Quy ch ăng ký, lưu gi và s dng kt qu
thc hin nhim v KH&CN .
2. B KH&CN , 2011. Thông tư s 04/2011/TT-BKHCN ngày 20/4/2011 ca B

Thông tin và Tư liu, s 2, 2011.
9. IFLA (2002). Guidelines for digitization projects for collections and holdings in the
public domain, particularly those held by libraries and archives. March 2002.
10. N guyn c Tr (2005). Xây dng cơ s d liu toàn văn tài liu khoa hc và công
ngh Vit N am ti Trung tâm Thông tin Khoa hc và Công ngh Quc gia. K yu
Hi ngh ngành Thông tin Khoa hc và công ngh - Ln th V. Hà N i : Trung tâm
Thông tin KH&CN Quc gia, 2005. -tr.131-135.
11. Phan Huy Qu (2004). Th nghim ưa báo cáo kt qu nghiên cu vào cơ s d
liu thư mc ti Trung tâm Thông tin KHCN Quc gia. Tp chí Thông tin và Tư
liu, s 2/2004. Tr. 11-16.
12. Phan Huy Qu (2006). S hoá báo cáo kt qu nghiên cu ti Trung tâm Thông tin
KHCN Quc gia – N hng kinh nghim thc tin. Tp chí Thông tin và Tư liu, s
1/2006. Tr. 24-28.
13. U ban Khoa hc K thut N hà nưc (1980). Quyt nh s 271/Q ngày 6/6/1980
ca Ch nhim U ban KHKT N hà nưc;


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status