BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 10/2007 39
QUY TRÌNH CÔNG VIỆC CHO
MỘT DỰ ÁN SỐ HÓA
TOM DE MULDER
Unix System Programmer/Administrator
Dspace@Cambridge Project Team –
Cambridge University Library –
;
www.lib.cam.ac.ukTÓM TẮT
Ngày càng nhiều các cơ quan mong muốn chuyển đổi nội dung truyền thống của
mình sang định dạng số. Trong các dự án như vậy, giai đoạn số hóa và tạo lập siêu dữ
liệu thường diễn ra không đồng thời. Bài báo này nhận dạng tầm quan trọng của sự
kiểm tra chéo thường xuyên cả hai giai đoạn này. Chúng tôi đề nghị một quy trình số
hóa theo một quy trình thống nhất, và một cách thực hành kỹ thuật
để tự động hóa nó.
1. DẪN NHẬP
Trong ngành công nghiệp giải trí,
người ta đều hiểu rõ tầm quan trọng của
việc đồng bộ hóa phần tiếng và hình ảnh
(audio and video) của một bộ phim. Điều
để phát hiện và sửa lỗi cũng như các
thiếu sót đã xảy ra. Chúng ta phải tốn
nhiều thời gian để triển khai nhiều công
việc hơn đối với bộ phận số hóa, và kết
h
ợp lại những kết quả cuối cùng.
Trong bài báo này, chúng tôi cố
gắng nêu lên những vấn đề và định hình
một quy trình nhằm phát hiện lỗi trước
khi tác động đến các công đoạn khác của
BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 10/2007 40
quy trình hình ảnh hóa nội dung. Trong
khi bài này tập trung vào việc hình ảnh
hóa các bản thảo, thì chúng ta cũng có
thể dễ dàng nhận thấy nó liên quan đến
bất kỳ dự án nào mà sự tạo ra siêu dữ liệu
và dữ liệu diễn ra tách rời nhau, như hình
ảnh số hóa, đối tượng số theo kích cỡ 3
chiều, phần âm thanh hoặc hình ảnh
analog (hình ảnh truyền theo công nghệ
tín hiệu tương tự) số hóa.
2. ĐỒNG BỘ HÓA: NHÚNG
KHÓA CHUNG.
Nói một cách rộng ra, siêu dữ liệu
phục vụ hai mục đích: nhận dạng và mô
tả dữ liệu. Nó sẽ được dùng để di chuyển
tới hoặc xác định vị trí dữ liệu (trong
dữ liệu (xem Phụ lục A). Cách này sẽ gắn
kết hiệu quả dữ liệu và siêu dữ liệu cùng
lại với nhau, đồng thời giảm việc chia
tách chúng. Thao tác này diễn ra càng
sớm trong một quy trình xử lý, thì quy
trình đó sẽ càng có tính đồ
ng bộ hóa cao.
Nó cũng khiến cho chúng ta dễ dàng hơn
để giải quyết những khác biệt sau này.
3. QUY TRÌNH CÔNG VIỆC
Định nghĩa
Vì mục đích của quy trình này,
chúng ta hãy định nghĩa “chuyên gia”
(“expert”) như là môt người kiểm soát
siêu dữ liệu đối với tài liệu được số hóa;
“Nhiếp ảnh gia” (“Photographer”) là
người (hoặc nhóm người) chịu trách
nhiệm tạo ra tập tin ảnh của tài liệu.
“Đánh dấu phân lớp” (“classmark”) là
đánh dấu duy nhất của một tài liệu.
4. THỰC HÀNH KỸ THUẬT
4.1 Cơ sở thực hiện
Đối với ví dụ này, chúng ta giả sử
rằng một cấp độ ảnh hưởng kỹ thuật có
thể xảy ra với tất cả các bước của quy
trình số hóa và xử lý siêu dữ liệu. Thiếu
nó, sự đồng bộ hóa quy trình sẽ trở lên
khó khăn.
4.1.1 Dịch vụ tập trung
Tâm điểm của hệ thống là một bộ
cung cấp các “thủ tục từ xa”. Nó được sử
dụng bởi nhiều cấu thành khác của một
hệ thống để truy xuất hoặc lưu trữ thông
tin liên kết với nhiều bước khác nhau của
quy trình này.
4.1.2 Dịch vụ máy khách
Chúng ta giả sử rằng người chụp
hình ảnh nội dung sẽ sử dụng một máy
Mac Apple cài đặt phiên bản Mac OS X.
Phiên bản này cho phép sử dụng những
“thao tác thư mục” (“Folder actions”).
Những thao tác kiểm soát (điển hình là
các chương trình nhỏ) được thực hiện bất
cứ khi nào một tập tin được lưu/mở/sửa
đổi.
Chuyên gia sưu tập
Cơ sở dữ
liệu
Người chụp nội dung
Siêu dữ liệu chung
Hình ảnh hóa
Kiểu tên tập tin
Siêu dữ liệu khác
Áp dụng siêu dữ liệu
Máy chủ
tập tin
Kết hợp dữ liệu
Kiểm tra chéo
Lưu
không có một trật tự cụ thể
về nhập liệu thì
thao tác nhập này có thể diễn ra theo khối
dữ liệu nếu máy khách hỗ trợ chức năng
này, sau đó nó được chuyển tới máy chủ.
Cần thống nhất khi khởi đầu mỗi dự án số
hóa đó là trường dữ liệu nhận dạng biểu ghi
nên được kiểm tra nghiêm ngặt.
Bất kỳ khi nào một máy chủ thấy
một biểu ghi siêu dữ liệu
được điền vào
hoàn chỉnh, nó có thể kiểm tra hệ thống tập
tin nối kết mạng xem các tập tin có phù hợp
không. Nếu các tập tin đã sẵn có thì siêu dữ
liệu có thể được điền thêm.
Điều quan trọng rằng nếu một biểu
ghi siêu dữ liệu được đánh dấu trước đó là
đã “hoàn chỉnh” bị thay đổi thì siêu dữ liệu
được nhúng trong một ảnh tương
ứng cần
được thay đổi ngay lập tức.
4.3.2. Hình ảnh hóa
Nếu nhiếp ảnh gia sử dụng Adobe
Photoshop CS thì sau đó khuôn mẫu siêu
dữ liệu cần được xác định để nắm giữ siêu
dữ liệu chung của bộ sưu tập. Khuôn mẫu
này sau đó được sử dụng trước khi hình ảnh
được lưu, đồng thời đảm bảo hình ảnh đó
chứa đựng siêu dữ liệu c
ủa nó sớm nhất.
có thể
được gửi một thư điện tử tóm lược
BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 10/2007 43
về những biểu ghi siêu dữ liệu nào đã hoàn
thành. Bên chuyên gia có thể nhận một
danh mục hình ảnh, đồng thời chỉ ra biểu
ghi siêu dữ liệu thích hợp nào sẵn có hoặc
bị thiếu.
Một giao diện web đơn giản có thể
cho thấy toàn bộ tình trạng dự án tại bất kỳ
thời điểm nào, đồng thời cho thấy những
khác biệt giữa hai quy trình công việc này.
4.4 Giai đoạ
n cuối: hình ảnh được
làm giàu thông tin bằng siêu
dữ liệu toàn diện
Một khi cả quy trình tạo ra siêu dữ
liệu và hình ảnh hóa hoàn thành, thì một sát
nhập cả hai phần này có thể diễn ra để tạo
ra một dữ liệu toàn diện với siêu dữ liệu
được nhúng. Dù sao, một khối siêu dữ liệu
trực tiếp tách riêng dưới định dạng XML
(đối với hầu hết các ứng dụng thì điề
u
này dễ dàng sử dụng hơn siêu dữ liệu
nhúng) là cách ưa thích hơn. Những bước
thực hành cuối cùng này dường như cho
nào dùng để đọc, hoặ
c thao tác với siêu dữ
liệu nhúng cần được biết về những trở ngại
này. Điều quan trọng là cần phải định nghĩa
nguồn chính xác cho siêu dữ liệu, và kiểm
tra định kỳ bất kỳ bộ siêu dữ liệu nào khác
đã lưu trữ để so sánh với nó.
Trong hầu hết các trường hợp, dữ
liệu nhúng sẽ là sự thay đổi cuối cùng đối
với dữ liệ
u trước khi nó được lưu trữ trong
một kho dữ liệu, và dữ liệu và siêu dữ liệu
đó sẽ không bao giờ thay đổi lại. Trong
trường hợp này nó trở thành một cấu thành
có giá trị của bảo quản số vì nó đảm bảo
rằng trong tương lai dữ liệu và siêu sữ liệu
sẽ không bị chia tách ra. Dù sao, như đề
cập trong bài báo này, siêu dữ liệu nhúng
có thể là một công cụ hữu ích cho quản lý
quy trình công vi
ệc, và tăng sự tin cậy cũng
như giá trị của tài liệu số.
PHỤ LỤC A:
SIÊU DỮ LIỆU NHÚNG: MỘT
TÓM TẮT VỀ KỸ THUẬT