TS. Nguyễn lệ Nhung 0912581997
www.vanthuluutru.com
1
Các siêu dữ liệu của tài liệu điện tử
dưới góc nhìn của Tiêu chuẩn Nga
và Tiêu chuẩn quốc tế
TS. Nguyễn Lệ Nhung Các siêu dữ liệu – những dữ liệu về dữ liệu đã được cấu trúc hóa, đó là thông
tin cho phép nhận dạng các nguồn thông tin, tìm kiếm và quản lý chúng. Các
siêu dữ liệu có ý nghĩa đặc biệt trong mối quan hệ với tài liệu điện tử. Theo
hướng dẫn của tiêu chuẩn Nga R 50.1.031, tài liệu điện tử như là đối tượng
thông tin gồm có hai thành phần:
1) tiêu chí, bao hàm những tiêu chí định dạng (tên, thời điểm và nơi xác lập, các
dữ liệu về tác giả v.v.) và chữ ký điện tử;
2) nội dung, chứa đựng thông tin viết, số và /hoặc đồ họa được xử lý như là một
vật thể duy nhất và đầy đủ.
Các “tiêu chí nhận dạng” nêu trên được làm rõ nhờ thuật ngữ “siêu dữ liệu”.
Trong tiêu chuẩn quốc gia GOST 7.70-2003 thuật ngữ “siêu dữ liệu” được định
nghĩa như là “sự mô tả hình thức nguồn thông tin, được sử dụng để nhận dạng
và phân loại nguồn thông tin khi làm việc với các tập hợp lớn những nguồn
thông tin”.
Tiêu chuẩn quốc tế ISO 15489 định nghĩa siêu dữ liệu như các dữ liệu mô tả
ngữ cảnh, nội dung, cấu trúc và quản lý tài liệu theo thời gian. Từ định nghĩa đó,
ta thấy, những siêu dữ liệu văn thư được sử dụng trước tiên là để mô tả thuộc
tính của tài liệu như nội dung, cấu trúc và ngữ cảnh. Chỉ có các tài liệu là có cả
nội dung, cả ngữ cảnh và cả cấu trúc (các dữ liệu chỉ có một vài nội dung, còn
2. Các siêu dữ liệu theo tiêu chuẩn ISO 15489
Tiêu chuẩn ISO 15489 quy định: các tài liệu, ngoài nội dung phản ánh hành
động quản lý các siêu dữ liệu, còn phải có mối quan hệ thường xuyên hoặc gắn
kết với các siêu dữ liệu đó. Khi đó:
- cấu trúc của tài liệu, nghĩa là định dạng của nó và các mối quan hệ lẫn nhau
giữa những thành tố tạo thành tài liệu phải luôn là không thay đổi;
- trong tài liệu phải phản ánh được ngữ cảnh quản lý việc lập, tiếp nhận và sử
dụng tài liệu (trong đó có quá trình quản lý mà một phần của nó là hành động
quản lý đó, có ngày tháng và thời gian diễn ra hành động và người tham gia
hành động);
- các bản ghi riêng biệt trong tập hợp tạo thành tài liệu phải có mối liên hệ với
nhau.
Các siêu dữ liệu không chỉ được tạo nên tại thời điểm tạo lập (hay tiếp nhận và
đăng ký) tài liệu trong hệ thống tài liệu của tổ chức , mà chúng còn được bổ
sung theo thời gian (thí dụ, trong quá trình sử dụng tài liệu).
Các siêu dữ liệu - tuy không phải là hiện tượng mới trong lĩnh vực thông tin và
tài liệu, nhưng trong công tác văn thư lưu trữ - đó là thuật ngữ mới, sử dụng nó
có nghĩa là gắn với một thực tế là trong thời đại thông tin số các siêu dữ liệu đã
trở nên có ý nghĩa đặc biệt. Trong môi trường điện tử, những tài liệu nguyên bản
luôn đi cùng với các siêu dữ liệu xác định chính xác những đặc điểm cơ bản của
chúng. Chính các siêu dữ liệu làm cho tài liệu điện tử trở nên thích hợp cho sử
dụng, dễ hiểu và là nguyên bản, bảo đảm tính bất biến, tính trung thực và hiệu
lực làm chứng cứ pháp lý của tài liệu điện tử. Do vậy, các siêu dữ liệu là thành
phần bắt buộc của quản lý tài liệu điện tử.
Trong văn thư truyền thống, các siêu dữ liệu nằm trên bìa hồ sơ, trong phiếu
đăng ký tài liệu, danh sách hồ sơ. Về ý tưởng các siêu dữ liệu luôn gắn với
thông tin mà nó chú dẫn tới, ví dụ, chúng có thể có ở chính phiếu thư mục tài
liệu. Trong thực tiễn khi làm việc với tài liệu (sử dụng các hệ thống tự động) các
siêu dữ liệu thường được mã hoá tới mức không phân biệt được trong đối
tượng thông tin điện tử.
3) Chủ quản - tên của đại diện pháp lý hoặc tên của đại diện thực thể đang sở
hữu nguồn.
4) Mô tả - diễn giải bằng chữ nội dung của nguồn gồm cả tóm tắt hay giải trình
(đối với các tài liệu văn bản), hoặc mô tả phần được lưu (đối với các nguồn
nghe, nhìn hay đa phương tiện). Nếu nguồn được mô tả là tuyển tập tài liệu
cùng dạng hoặc gần nhau về cấu trúc, thì nêu dạng hay cấu trúc tài liệu.
Yêu cầu đối với nội dung, xây dựng và trình bày toàn văn mô tả và tóm tắt tài
liệu được quy định trong GOST 7.9.95 tương đương với tiêu chuẩn quốc tế ISO
214-76.
5) Mã tiêu đề - chủ đề của nguồn thông tin được biểu thị bằng các mã của danh
mục chuẩn những tiêu đề chủ đề đang áp dụng ở các nước SNG - Tiêu đề
thông tin khoa học - kỹ thuật quốc gia.
6) Từ khoá - Trong tiêu chí này chỉ ra các từ khoá mô tả đối tượng của nguồn
thông tin điện tử (nghĩa là thông tin trong nguồn về các khái niệm cơ bản).
7) Ngôn ngữ - Trong tiêu chí này nêu ngôn ngữ được dùng để viết các thành
phần văn bản của nguồn thông tin. Nếu có các văn bản dùng các ngôn ngữ khác
nhau, thì cần chỉ rõ từng ngôn ngữ. Tên của ngôn ngữ được chú giải đầy đủ
hoặc rút gọn phù hợp với tiêu chuẩn GOST 7.75.
8) Chu kỳ làm mới - Trong tiêu chí này chỉ ra chu kỳ tiến hành làm mới nguồn
bằng cách ghi vào tiêu chí một trong những từ sau: “năm”, “quý”, “tháng”, “tuần”,
“ngày”, “thường xuyên”, “theo sự kiện”, “không làm mới”.
9) Cấp vốn - chỉ những hình thức cấp vốn để lập và quản lý nguồn. Chỉ dẫn
bằng cách ghi vào tiêu chí một trong các cụm từ sau: “ngân sách liên bang”,
“ngân sách của các tổ chức liên bang”, “ngân sách thành phố”, “vốn ngoại hối
quốc gia”, “vốn tự có”, “vốn của những đại diện pháp lý và thực thể khác“,
“nguồn cấp vốn không xác định”.
10) Thời gian làm mới lần cuối nguồn thông tin - thời gian làm mới lần cuối nội
dung của nguồn hoặc thời gian thiết lập nếu chưa làm mới. Đối với thành tố
“thời gian” (data) trên toàn thế giới sử dụng tiêu chuẩn ISO 8601, nó đặt ra quy
cách thống nhất trình bày ngày (NNNN-TT-nn/năm-tháng-ngày); giờ
Trong tiêu chuẩn có danh mục tiêu chí để mô tả nguồn thông tin dạng “tổ chức”
và dạng “cá nhân”. Đối với tổ chức (những đại diện pháp lý) đã xây dựng 14 tiêu
chí: nhận diện (ví dụ, số thứ tự do cơ quan đăng ký gán cho), tên chính thức,
tên khác đã được chấp nhận chung, các tiêu chí giao tiếp (site, số điện thoại với
mã nước và mã vùng, số fax với mã nước và mã vùng, địa chỉ hộp thư điện tử,
địa chỉ hòm thư chính thức với mã số bưu điện), nơi công tác (vùng , khu dân
cư), nhà lãnh đạo, tổ chức cấp trên , thông tin bổ sung (về những nguồn thông
tin có trong tổ chức), thời gian làm mới lần cuối thông tin về tổ chức. Đối với
những đại diện thực thể (cá nhân) đã định ra 10 tiêu chí: nhận diện, họ tên, chức
vụ, site cá nhân, điện thoại, fax, địa chỉ hộp thư điện tử, các thông tin bổ sung,
thời gian làm mới lần cuối thông tin về cá nhân.
Các tiêu chí tổ chức nói chung đều là bắt buộc và bắt buộc có điều kiện. Với đại
diện thực thể các tiêu chí bắt buộc chỉ là nhận diện và họ tên (họ, tên, phụ danh)
Tóm lại, phải thừa nhận rằng phiên bản mới của tiêu chuẩn GOST 7.70 thể hiện
đầy đủ thành quả của cộng đồng thế giới trong lĩnh vực mô tả các nguồn thông
tin điện tử.
Các tiêu chuẩn quốc gia về siêu dữ liệu được thông qua tại nhiều nước phát
triển. Công tác đó thường thực hiện trong khuôn khổ của giải pháp xây dựng
“Chính phủ điện tử”.
Ở Mỹ đang áp dụng sơ đồ phổ dụng khác - GILS (Government Information
Locator Service). Còn có các sơ đồ phổ dụng AACR2, EAD, TEI, MARC,
USMARC, ISAD(G), FRBR.
Ngoài tiêu chuẩn phổ dụng, tồn tại tiêu chuẩn của siêu dữ liệu liên quan tới các
lĩnh vực hay ngành xác định: địa lý, nông nghiệp, giáo dục, công tác thư viện,
thống kê v.v... Cụ thể, tại một loạt nước đã thông qua ở cấp độ quốc tế các tiêu
chuẩn mô tả thông tin tài liệu lưu trữ. Ở Nga còn áp dụng tiêu chuẩn GOST về
thẻ điện tử các siêu dữ liệu.
Tại Úc, tiêu chuẩn siêu dữ liệu trong công tác văn thư do Lưu trữ quốc gia biên
soạn và áp dụng cho các cơ quan nhà nước: hướng dẫn và mô tả chi tiết 20
thành tố cơ bản và 65 thành tố phụ của siêu dữ liệu. Cần nhấn mạnh thêm là ở
liệu điện tử; di chuyển tài liệu điện tử; số hồ sơ theo danh mục hồ sơ; thời hạn
lưu giữ; tác động xảy ra với tài liệu (hình thức, thời gian, người thực hiện tác
động, ví dụ đăng ký hoặc chuyển tài liệu vào lưu trữ).
Các tài liệu văn thư đang cần có một tập hợp các siêu dữ liệu đặc biệt đa dụng.
Các tài liệu đang đòi hỏi nhiều hơn các siêu dữ liệu ghi nhận ngữ cảnh tạo lập
tài liệu làm sao cho chúng vẫn là hiểu được kể cả sau quãng thời gian dài. Song
cho đến thời điểm này, các chuyên gia còn chưa đi tới ý kiến thống nhất về
thành phần của tập hợp các siêu dữ liệu. Những hy vọng lớn lao đang mong
chờ ở tiêu chuẩn quốc tế ISO 23081 vì nó dự kiến đánh giá các tập các siêu dữ
liệu hiện có và các dự thảo khác nhau trong lĩnh vực này có đáp ứng với những
yêu cầu của tiêu chuẩn ISO 15489 hay không.
Các dạng cơ bản của các siêu dữ liệu mà hệ thống quản lý tài liệu phải xử lý và
lưu giữ cùng với nội dung của tài liệu gồm có: các siêu dữ liệu ngữ cảnh (dữ liệu
về lập, nhận, chuyển tài liệu; thời gian nhận; mối quan hệ của tài liệu tới quá
trình kinh doanh nhất định và các tài liệu liên quan); các siêu dữ liệu về điều kiện
tiếp cận và sử dụng tài liệu (hệ thống phải ghi nhận lịch trình sử dụng); các siêu
dữ liệu về sắp đặt tài liệu; các siêu dữ liệu mô tả nội dung tài liệu; các siêu dữ
liệu về cấu trúc tài liệu. Như vậy, các siêu dữ liệu văn thư ở các mức độ khác
nhau phải cụ thể hoá nội dung và cấu trúc của tài liệu, ngữ cảnh tạo lập nó.
Trong tiêu chuẩn quốc tế ISO 23081 có phân biệt các siêu dữ liệu về chính tài
liệu, về các nguyên tắc và quy tắc hoạt động quản lý, về những người tham gia
vào quá trình quản lý và công tác văn thư, về hoạt động quản lý và các quá trình
của nó, về quá trình của công tác văn thư. Những yêu cầu đối với các dạng siêu
dữ liệu này được xác định xuất phát từ các yêu cầu của ISO 15489.