Định dạng các files của tài liệu điện tử - Pdf 72

Định dạng các files của tài liệu điện tử
Tồn tại nhiều định dạng các files khác nhau. Chúng có thể được phân chia
thành “đơn chương trình”, nghĩa là chúng được quản lý và bảo đảm bởi một
nhân viên lập trình, và “đa chương trình” được bảo đảm bởi vài nhân viên lập
trình và có thể được xử lý bằng nhiều chương trình phần mềm khác nhau.
Chúng ta có thể liệt kê những định dạng cơ bản:
1. Các định dạng văn bản
Chúng thường được xây dựng nhờ sự trợ giúp của các quá trình biên soạn.
Những định dạng văn bản phổ biến nhất là:
- các định dạng đơn phần mềm Microsoft Word và Word Perfect;
- định dạng RTF (Rich Text Format) được bảo đảm bởi nhiều phụ lục phần mềm
trong khi đó vẫn giữ định dạng văn bản đã đặt;
- định dạng PDF (Portable Ducument Format) gồm có hình ảnh trang với cả văn
bản và biểu đồ. Có thể đọc những file theo định dạng PDF bằng nhiều phần
mềm để đọc files khác nhau, nhưng chúng được được xây dựng chỉ nhờ phần
mềm Adobe Acrobat.
2. Các định dạng đồ họa
Chúng lưu giữ hình ảnh (ví dụ, ảnh chụp, hình vẽ) và được chia ra thành
hai kiểu chính:
2.1. Các định dạng vector - lưu giữ hình ảnh như là tập hợp các hình dạng
hình học. Trong số chúng phổ biến hơn cả là định dạng DXF (Drawing
Interchange Format) được sử dụng rộng rãi trong các chương trình thiết kế bằng
máy tính cho các kỹ sư và kiến trúc sư; định dạng EPS (Encapsulated
PortScript) được sử dụng rộng rãi trong các hệ thống biểu quyết/bầu cử tại bàn
vàđịnh dạng CGM (Computer Graphics Metafile) được sử dụng rộng rãi trong
nhiều phần mềm đồ họa (ví dụ trong phần mềm Photoshop).
2.2. Các định dạng mành, chúng lưu giữ hình ảnh như là tập hợp những
điểm ảnh - pixels. Khi thay đổi kích cỡ ảnh, đồ họa mành bị biến dạng. Trong số
các định dạng mành phổ biến hơn cả là định dạng BMP (Bitmap), một định dạng
tương đối kém về chất lượng, thường dùng vào quá trình soạn thảo văn bản;
định dạng TIFF (Tagget Image File Format) sử dụng rộng rãi trong các ứng

5. Các định dạng nhìn- nghe /video-audio
Những định dạng này chứa hình ảnh chuyển động (ví dụ video số, hoạt
hình) và các dữ liệu âm thanh được xây dựng và có thể xem, nghe được nhờ
chương trình tương thích và lưu giữ trong định dạng đơn chương trình. Những
định dạng được sử dụng nhiều hơn cả là QuickTime và MPEG (Motion Picture
Experts Group).
6. Đánh dấu ngôn ngữ (thường gọi là “duyệt web”) còn được gọi là các
định dạng đánh dấu, gồm có hướng dẫn đính kèm để biểu diễn nội dung của file.
Đó là:
SGML (Standard Generalized Markup Language) được sử dụng trong các cơ
quan nhà nước ở nhiều nước trên thế giới và là tiêu chuẩn quốc tế;
HTML (Hypertext Markup Language) được sử dụng để biểu diễn hầu như
toàn bộ thông tin của mạng World Wide Web;
XML (Extensible Markup Language) - ngôn ngữ tương đối đơn giản dựa trên cơ
sở SGML và được dùng phổ biến khi quản lý thông tin và trao đổi nó.
Khi áp dụng vào việc bảo đảm tài liệu cho quản lý, từng định dạng file có
điểm mạnh và điểm yếu riêng. Ví dụ, những định dạng văn bản (MicrosoftWord,
WordPerfect, RTF v.v.) thuận tiện cho tìm kiếm ngữ cảnh theo các tài liệu trong
cơ sở dữ liệu, còn các định dạng đồ hoạ (PDF, TIFF v.v.) giúp nhận được hình
ảnh khi quét với toàn bộ những đặc điểm bên ngoài của nó và giữ tài liệu có
dạng đúng như trên giấy với đầy đủ chữ ký cùng dấu xác nhận (thị thực-visa).
Định dạng MS Word rất tiện cho biên tập tài liệu và công việc của nhóm
nhân viên với nó, nhưng file MS Word lại chứa đựng nhiều thông tin ẩn (trước
tiên về những thay đổi đã thực hiện trong file) và như vậy, nó rất không an toàn
theo quan điểm thất thoát thông tin công vụ. Ví dụ, trong lúc chuẩn bị tài liệu
thương mại, thông tin ẩn lại cho ta biết những đề xuất khởi điểm, ai có sự ảnh
hưởng mạnh nhất tới văn bản. Trong chuẩn bị tài liệu theo nhóm, sự phân tích
2
sửa đổi cho ta khả năng nhận biết không chỉ họ tên những người lập tài liệu mà
cả mức độ đóng góp của từng người vào phương án hoàn chỉnh của tài liệu.

không ít nhà lập trình độc lập đang giới thiệu những sản phẩm hỗ trợ PDF, thậm
chí một số là miễn phí.
Nhưng công ty Adobe trong tương lai sẽ không cung cấp miễn phí các
chương trình của mình. Hơn nữa, trong những phiên bản mới của chương trình
Adobe các file của phiên bản cũ thường được trình diễn không chính xác. Chính
vì vậy đã xuất hiện phiên bản nâng cấp định dạng PDF được gọi là PDF-Archive
(PDF-A). Ở nước ngoài nó được coi là một trong hai phiên bản cơ sở mà trong
tương lai chúng có thể được sử dụng cho bảo quản lưu trữ các tài liệu điện tử.
Còn định dạng thứ hai là XML nói trên.
Định dạng PDF-A cũng giống như XML có những nổi trội và những yếu
kém của mình trong công tác lưu trữ tài liệu điện tử. Cụ thể, định dạng PDF-A
đặc biệt thuận lợi cho lưu trữ tài liệu điện tử vì rằng nó giữ được ngoại hình của
tài liệu gốc bằng giấy. Kinh nghiệm công tác xét xử hai vụ phá sản lớn nhất
3
trong lịch sử Mỹ - các công ty Enron và Global Crossing đã khẳng định được
tiện ích của nó. Họ đã tạo lập khối lượng lớn tài liệu trong định dạng PDF và đã
đặt ra trước các cơ quan tư pháp LB nhiệm vụ lưu trữ những tài liệu đó. Về
nhiều điểm thì đó đã là xung lực tác động vào quá trình biên soạn dự thảo tiêu
chuẩn quốc tế về lưu trữ tài liệu theo PDF.
Song khả năng sử dụng những định dạng trên vào lưu trữ điện tử còn hạn
chế, lấy ví dụ, định dạng PDF-A không dùng được cho lưu trữ tài liệu nghe
nhìn.
Phải lưu ý rằng không có một định dạng nào trong số các định dạng file
tài liệu điện tử là vạn năng cho lưu trữ lâu dài, bởi vì kỹ thuật, công nghệ và bảo
đảm chương trình thay đổi khá nhanh. Ngay bây giờ đã khó dựng lại trên thiết bị
mới những tài liệu được lập nhờ các công cụ biên tập AmiPro, WordPerfect.
Vậy thì sẽ dễ dàng không, ví dụ, dựng lại tài liệu lưu trữ trong định dạng Word-
97 sau 10 - 15 năm nữa?
XML là viết tắt của chữ EXtensible Markup Language, tức là "ngôn ngữ đánh dấu mở rộng".
Tương tự như HTML, XML cũng dùng các thẻ (tag) trong văn bản, nhưng khác với HTML một chút.

Sự phổ biến của các phần mềm soạn thảo văn bản (word processor) đã hỗ trợ việc soạn thảo và bảo trì
tài liệu XML một cách nhanh chóng. Trước XML, có rất ít ngôn ngữ mô tả dữ liệu với các đặc điểm đa
4
năng, thân thiện với giao thức Internet, dễ học và dễ tạo. Thực tế, đa số các định dạng trao đổi dữ liệu
thời đó đều chuyện dụng, có tính độc quyền, và có định dạng nhị phân (chuỗi bit thay vì chuỗi ký tự) khó
dùng chung giữa các ứng dụng phần mềm khác nhau hay giữa các hệ nền (platform) khác nhau. Việc tạo
và bảo trì trên các trình soạn thảo thông dụng lại càng khó khăn.
Bằng cách cho phép các tên dữ liệu, cấu trúc thứ bậc được phép, và ý nghĩa của các phần tử và thuộc
tính có tính chất mở và có thể được định nghĩa bởi một giản đồ tùy biến được, XML cung cấp một cơ sở
cú pháp cho việc tạo lập các ngôn ngữ đánh dấu dựa XML theo yêu cầu. Cú pháp chung của các ngôn
ngữ đó là cố định — các tài liệu phải tuân theo các quy tắc chung của XML, bảo đảm rằng tất cả các phần
mềm hiểu XML ít ra cũng phải có khả năng đọc (phân tích cú pháp - parse) và hiểu bố cục tương đối của
thông tin trong các tài liệu đó. Giản đồ chỉ bổ sung một tập các ràng buộc cho các quy tắc cú pháp. Các
giản đồ thường hạn chế tên của phần tử và thuộc tính và các cấu trúc thứ bậc được phép, ví dụ, chỉ cho
phép một phần tử tên 'ngày sinh' chứa một phần tử tên 'ngày' và một phần tử có tên 'tháng', mỗi phần
tử phải chứa đúng một ký tự. Đây là điểm khác biệt giữa XML và HTML. HTML có một bộ các phần tử và
thuộc tính không mềm dẻo, chỉ có một tác dụng và nói chung là không thể dùng cho mục đích khác.
XML không hạn chế về việc nó được sử dụng như thế nào. Mặc dù XML về cơ bản là dạng text, các phần
mềm với chức năng trừu tượng hóa nó thành các định dạng khác giàu thông tin hơn đã nhanh chóng xuất
hiện, quá trình trừu tượng hóa này được thực hiện chủ yếu qua việc sử dụng các giản đồ định hướng kiểu
dữ liệu (datatype-oriented schema) và khuôn mẫu lập trình hướng đối tượng (mà trong đó, mỗi tài liệu
XML được thao tác như là một đối tượng). Những phần mềm như vậy có thể coi XML như là dạng text đã
được tuần tự hóa chỉ khi nó cần truyền dữ liệu qua mạng.
Sơ lược về cú pháp
<tên thuộc_tính="giá trị">nội dung</tên>
<?xml version="1.0" encoding="UTF-8"?>
<công_thức_nấu_ăn tên="bánh mì" thời_gian_chuẩn_bị="5 phút" thời_gian_nấu="3 tiếng">
<title>Bánh mì cơ bản</title>
<nguyên_liệu lượng="3" đơn_vị="ca">Bột mì</nguyên_liệu>
<nguyên_liệu lượng="7" đơn_vị="gram">Men</nguyên_liệu>


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status