Chuyển dạng tài liệu dễ dàng hơn với công nghệ số potx - Pdf 11

Chuyển dạng tài liệu dễ dàng hơn với công nghệ số
Paul Conway
- Trưởng phòng, Phòng Bảo quản, Thư viện
Trường Đại học Yale
Tóm tắt
Bài viết này nhằm ba mục đích. Trước tiên, bài viết định
nghĩa các công nghệ số dưới góc độ của truyền thông và mã
hoá. Tiếp theo, bài viết trình bày những thành ph
ần then chốt
của một hệ thống công nghệ ảnh số (digital imaging system)
và những bước quan trọng nhất trong quá trình tạo hình ảnh
số. Cuối cùng, bài viết nêu ra một số vấn đề lớn cần phải l
ưu
ý khi các th
ư viện và trung tâm lưu trữ chuyển từ quá trình
thử nghiệm công nghệ số sang sử dụng nó như một công cụ
để chuyển đổi cách thức hoạt động của mình.
Mục lục
Nh
ững khái niệm cơ bản về kỹ thuật số
Sản phẩm và quá trình tạo hình ảnh số
Nh
ững vấn đề cần lưu ý
Giới thiệu
Chúng ta đang sống trong một thế giới số. Kỹ thuật số hiện
hữu ở mọi nơi. Số bàn phím nhiều hơn cả số nhân viên văn
phòng. Ai cũng có riêng một trang Web. Không còn ai phải
đem theo tiền mặt. Những từ như "bitslag", "jitterati",
"NIMQ" và "CGIJoe" xuất hiện trong những câu chuyện
thường ngày. Những nhà tỷ phú công nghệ dường như sở
hữu những bản sao kỹ thuật số của tất cả những kho tàng

lưu trữ và nối mạng, được trả tiền và được bán.
Thông tin nằm ở nhiều dạng khác nhau. Một trong những
cách phân biệt các dạng này là phân biệt giữa thông tin
tượng hình và thông tin mã hoá. Chúng ta hãy mô tả điều
này bằng cách nhìn vào rất nhiều cách biểu diễn chữ cái phổ
biến nhất trong bảng chữ cái Latinh - chữ cái E - bắt đầu với
những biểu tượng sơ khai của bảng chữ cái in.
Một bài học lịch sử
Thời kỳ từ phát minh của Guntenberg vào gi
ữa thế kỷ 15 cho
đến năm 1500 thường được gọi là sơ kỳ. Vào thời kỳ này,
các nhà in và nhà làm sách phải tốn khá nhiều công sức để
làm cho sản phẩm của mình - từ kiểu chữ, định dạng đến
trình bày - có bề ngoài và cách sử dụng giống như những
cuốn sách viết tay của những thế kỷ trước. Chỉ đến khi lý
thuyết về bảng chữ cái và lý thuyết về sách xuất hiện vào
khoảng thời kỳ mà tác phẩm cổ điển của Geofroy Tory được
thể hiện trên cấu trúc bảng chữ cái Latinh, những nhà làm
sách mới có thể bắt đầu tận dụng được phát kiến công nghệ
của Gutenberg.
Sơ đồ 1 là minh hoạ của chữ hoa "E" trong tác phẩm Champ
Leury của Tory năm 1529 được viết nhằm phát triển lý
thuyết về bảng chữ cái trên cơ sở các bộ phận của cơ thể
người và những nguyên lý cơ bản của Ơ-clit (Euclid). ở đây,
chữ cái "E" là một mẫu vẽ bằng mực trên giấy.
Thế giới được định hình bằng các chuỗi số 1 và số 0 vốn tồn
tại đã từ rất lâu. ý tưởng về máy tính số bắt nguồn từ hơn
300 trước đây trong bộ óc đầy sáng tạo của nhà toán học
người Đức Gottfried Wilhelm von Leibnitz. Năm 1679,
Leibnitz tưởng tượng ra một thiết bị mà trong đó các con số

Đó là ngôn ngữ mà người ta kết hợp hình dáng và c
ử chỉ của
bàn tay để truyền đạt ý nghĩa. Hình dáng mà không có c
ử chỉ
mới chỉ là một nửa của quá trình (truyền tin). Giao tiếp phụ
thuộc vào việc cùng hiểu ý nghĩa của cả hai thành phần đó
của ngôn ngữ. Sơ đồ 3 là sự thể hiện dưới dạng tĩnh của chữ
cái "E".
Tuy nhiên, trong hiệu lệnh bằng cờ, cách thức cử động lại
chính là biểu tượng. Việc chuyển đổi từ một sự kết hợp giữa
cờ và tay sang một sự kết hợp khác tạo ra một sự liên kết
thông tin. Sơ đồ 4 là một hình thức biểu diễn khác dư
ới dạng
tĩnh của chữ cái "E". Những lý thuyết về truyền thông kỹ
thuật số đang hình thành vẫn chưa giải thích đầy đủ về
những giác quan khác nhau mà chúng ta thường sử dụng để
giao tiếp trực tiếp - đó là những đặc điểm tinh tế của ngôn
ngữ hành động, cử chỉ và giọng điệu. Và khi truy
ền thông kỹ
thuật số càng trở nên tinh vi, sự phụ thuộc của nó vào máy
móc là một trở ngại lớn.
Mặc dù vậy, một số hình thức đầu tiên của truyền thông trực
tiếp hiện đại qua những khoảng cách lớn lại mang đặc trưng
của kỹ thuật số. Sơ đồ 5 là một ví dụ về Máy điện báo bằng
hình
ảnh của George Murray từng truyền tin từ Luân Đôn tới
Deal bắt đầu từ năm 1794. Hệ thống này bao gồm các bục
nổi được đặt đối xứng ngang nhau. Trên mỗi bục nổi này có
một bảng lớn gồm sáu lỗ vòng tròn l
ớn có thể đóng bằng các

ệm nhị phân (binary). Mỗi vị trí số trong
hệ thống là một bit. Trong thế giới số bit là vật chất; chúng
chiếm không gian; chúng cần thời gian để di chuyển từ vị trí
này sang vị trí khác. Người ta có thể đếm và mô tả được một
tập hợp các bit, giống bất cứ một thứ nào khác. Cách phổ
biến nhất để đếm các bit trong một hệ thống là sử dụng
"byte" hay tám bit, mặc dù công nghệ máy tính đã không
còn sử dụng byte như là một đối tượng độc lập từ hàng thập
kỷ trước đây.
- Kỹ thuật số (digital): sử dụng các con số để thể hiện các
đối tượng khác nhau
- Phân tích dữ liệu số (digitalize): xử lý tín hiệu điện tim,
một cách điều trị bệnh tim
- Số hoá (digital): chuyển một đơn vị đo lường tỷ biến sang
một mô tả dưới dạng số
- Nhị phân (binaray): một hệ thống số trong đó mỗi con số
được biểu diễn bằng luỹ thừa của 2 chỉ sử dụng hai con số là
0 và 1.
- Bit: con số nhị phân
- Byte: 8 bit
Một ảnh ánh xạ bit là một bức ảnh số được tạo bởi các dòng
liên tục của các bit trong một khung lư
ới. Trong một bức ảnh
số, một bit thường được coi là m
ột điểm sáng (pixel), viết tắt
của cụm từ "picture element". Giống như các đối tượng, các
ảnh số được mô tả thông qua ba đặc trưng: độ phân giải,
khoảng động và kích thước điểm sáng.
Thời gian gần đây, khái niệm thứ tư, giá trị tín tông màu
(tonal value), được áp dụng để mô tả đặc trưng c

sẽ được biểu diễn bởi 300 dòng theo chiều đứng. Cấu trúc
thực tế của một khung lưới số phụ thuộc vào năng lực của
thiết bị quét hình.
Sơ đồ 6 là một chữ cái e cao 3 mm ở độ phân giải 600 dpi
được quét từ vi phim âm bản tại Thư viện Đại học Yale. L
ưu
ý r
ằng mẫu chữ mã hoá bằng số chiếm khoảng 4900 bit
trong máy tính so với 8 bit cần để dùng cho các biểu tượng
mã hoá bằng của bảng mã ASCII.
Khoảng động chỉ số lượng mầu hoặc các sắc thái đậm nhạt
(shades of gray) có thể có trong một bức ảnh cụ thể. Khoảng
động đôi khi còn được gọi là "độ sâu" và thường được thể
hiện bằng số bit trên một điểm sáng. Trong chế độ quét ảnh
lưỡng sắc, số màu sắc ứng với mỗi điểm sáng được làm tròn
thành 0 (trắng) hoặc 1 (đen). Mỗi bit thông tin được dùng để
mã hoá giá trị của điểm sáng đó. Trong chế độ quét ảnh xám
8 bit, số bit của bức ảnh mẫu tương ứng với mỗi điểm sáng
được làm tròn đến một trong số 256 giá trị, mỗi giá trị biểu
diễn các mức độ sáng tăng dần liên tục. Để biểu diễn mỗi
điểm sáng cần 8 bit thông tin. Trong chế độ quét ảnh đều
màu, ba màu sắc của hệ màu được biểu diễn bằng một trong
số 256 sắc thái phù hợp và được mã hoá bằng 24 bit (8 bit
cho mỗi màu). Hai hệ màu nổi bật là Đỏ/Xanh da trời/Xanh
nước biển dùng để chiếu trên màn hình và Lục lam/Đỏ
tươi/Vàng dùng để in bằng kỹ thuật số.
Kích thước điểm sáng là một đơn vị đo lường quan trọng
dùng để đo khả năng của một phần cứng nào đó của máy
quét trong việc thể hiện trọn vẹn các kiểu dáng một mặt
phẳng. "Độ phân giải thực" của một máy quét là phần của

động của một tấm ảnh nào đó để mô tả kích thước của một
bức ảnh ở góc độ lư
ợng dữ liệu cần thiết để thể hiện bức ảnh
đó dưới dạng số.
Mô tả các đối tượng số. Việc mô tả một bức ảnh hoặc một
bộ sưu tập ảnh dưới góc độ chất lượng và số lượng chỉ mới
là một nửa của quá trình tạo hình
ảnh số. Dữ liệu số để mô tả
chính bản thân đối tượng đó cũng không kém phần quan
trọng. Trong các hệ thống tạo hình
ảnh số, những dữ liệu mô
tả đó tồn tại dưới dạng liên kết của ít nhất ba thành phần.
Thành phần thứ nhất là các dữ liệu mang tính kỹ thuật
(thường được gọi là đ
ầu ảnh (image header) mô tả định đạng
của bức ảnh số và các phương thức dữ liệu số thô được nén
để tiết kiệm không gian lưu trữ và thời gian truyền.
Thành phần thứ hai là các dữ liệu mô tả những đặc tính của
của đối tượng số (có thể bao gồm một hoặc nhiều bức ảnh
số). Siêu dữ liệu là dữ liệu mô tả về dữ liệu và vì vậy về cơ
bản nó được gắn với khả năng truy cập của một đối tượng
nào đó. Nếu chỉ là những ánh xạ nhị phân đơn thu
ần, các ảnh
số hoá rất vô vị và không thể tìm thấy được hoặc không hiểu
được về chúng nếu không có các siêu dữ liệu ở mức độ nào
đó.
Thành phần mô tả thứ ba là thông tin mô tả các mối quan hệ
giữa hai hoặc nhiều các đối tượng số khác nhau. Các chỉ
mục có cấu trúc là một thành phần quan trọng đối với bất cứ
hệ thống tạo hình ảnh kỹ thuật số nào mà nội dung của hệ

ở mức độ cơ bản nhất, việc chuyển dạng một cuốn sách, một
tập bản thảo, một phim âm bản hoặc một cuộn vi phim
không phức tạp và không lắt léo. Các đối tượng nguồn phù
hợp cho việc chuyển dạng được lựa chọn và chuẩn bị để
quét; việc chuyển dạng được thực hiện thông qua công nghệ
quét hình chuyển các tín hiệu ánh sáng phản chiếu thành dữ
liệu số; việc truy cập dữ liệu số này được thực hiện bằng
cách thể hiện các dữ liệu số đã lưu trữ. Tuy nhiên, quá trình
trông đơn giản này lại ẩn chứa đằng sau nó sự phức tạp
đáng
kể ở tất cả các giai đoạn của quá trình tạo ảnh.
- Nguồn: Các thư viện và trung tâm lưu trữ có nhiều vô số
các kho tài liệu phức tạp và đa dạng thích hợp để chuyển
sang dữ liệu số. Các nguồn đa dạng về kích cỡ, định dạng,
chất liệu và điều kiện bảo quản; các nguồn có thể chủ yếu
dưới dạng chữ; tài liệu có thể có ảnh minh hoạ mà bản thân
các ảnh minh hoạ này có thể rất đa dạng về tính chất. Các
nguồn cũng có thể có những nội dung quan trọng được in
màu.
Không phải tất cả việc chuyển đổi dữ liệu sang dạng số đều
được thực hiện từ những nguồn dữ liệu gốc. Việc sử dụng
phim làm trung gian ngày càng đóng vai trò quan tr
ọng trong
một hệ thống tạo hình ảnh số. Các dạng trung gian đa dạng
về chủng loại, từ các tờ chiếu màu 35 mm (35 mm color
slides) và vi phim có độ tương phản cao (high-contrast
microfilm) đến các vi thẻ toàn cảnh (full-frame microfiche)
và phim âm bản khổ lớn. Michael Ester đã từng nhấn mạnh
tầm quan trọng của việc nắm rõ các đặc điểm của các phim
trung gian. "ảnh số chỉ có thể đẹp được như ảnh nguồn của

phẩm số chỉ tồn tại nếu nó có thể tìm thấy và xem được. Các
hệ thống truy cập sản phẩm số ít nhất cũng phức tạp chẳng
kém các hệ thống hỗ trợ việc chuyển dạng. Các công nghệ
nền (PC, Unix, Mac) khác nhau về tính năng; sự phù hợp
của một cấu trúc mạng có thể tạo nên hoặc phá vỡ một hệ
thống truy cập. Tương tự như vậy, công nghệ hiển thị (màn
hình và máy in) là cực kỳ quan trọng để sử dụng tốt nhất sản
phẩm số.
Công nghệ là một trong những mắt xích yếu nhất trong toàn
bộ hệ thống. Công nghệ chuyển dạng giờ đây có khả năng
tạo ra dữ liệu lớn hơn nhiều so với khả năng có thể hiển thị
một cách hữu dụng của phần lớn các màn hình máy hính
hiện nay.
Sơ đồ 7 là một minh hoạ dạng biểu đồ của các thành phần
trong mô hình xử lý. Quan trọng là cần nhận thấy rằng sự
phức tạp của một hệ thống công nghệ ảnh số chỉ liên quan
một phần đến sự phức tạp của các bộ phận đơn lẻ. Các thành
phần của quá trình tương tác với nhau làm tăng thêm sự
phức tạp.
Mô hình sản phẩm ảnh số
Quá trình tạo hình ảnh số tạo ra sản phẩm có những đặc
trưng riêng khác với những đặc trưng của nguồn ảnh gốc.
Thách thức lớn nhất trong việc tạo ra một sản phẩm ảnh số l
à
dung hoà giữa ba vấn đề: các thuộc tính của nguồn; các khả
năng của công nghệ chuyển dạng và những mục đích hoặc
tính năng sử dụng của sản phẩm đầu cuối.
Sơ đồ 8 là một giản đồ xác định những vấn đề và nêu ra một
tập hợp các quan hệ có thể quản lý đư
ợc nhằm tạo ra một sản

đạt được "sự thu nhận đầy đủ thông tin" dựa trên những tiêu
chuẩn mới đưa ra và tốt nhất, là các hệ thống phù hợp với
định nghĩa này. Các hệ thống ở mức chất lượng tầm trung
này mở ra những hướng đi mới cho việc nghiên cứu và sử
dụng đồng thời có khả năng tạo ra tác động có tính chuyển
đổi trong sứ mệnh phục vụ của những người làm ra những
sản phẩm đó.
Vượt qua bản gốc. Trong một số ít các ứng dụng, công nghệ
ảnh số hứa hẹn tạo ra sản phẩm có thể sử dụng cho những
mục đích mà sử dụng tài liệu gốc không thể đạt được. Mảng
ứng dụng này bao g
ồm cả công nghệ ảnh sử dụng chiếu sáng
đặc biệt để vẽ ra những chi tiết bị mờ đi do thời gian, do sử
dụng hoặc do tác hại của môi trư
ờng; công nghệ ảnh sử dụng
các trung gian ảnh chuyên dụng; hoặc công nghệ ảnh có độ
phân giải cao đến mức có thể tiến hành nghiên cứu những
đặc điểm khảo cổ.
Mỗi một trong những ứng dụng này đặt ra những đòi hỏi
riêng biệt nhưng ngày càng khắt khe đối với công nghệ số.
Trong mỗi trường hợp, việc sử dụng phim hoặc bản sao trên
giấy làm trung gian để tiện cho quá trình quét ảnh là cần
thiết và nên làm. Tóm lại, việc sắp xếp các tài liệu gốc (bao
gồm cả việc tiến hành các biện pháp bảo quản trước hoặc
sau khi chuyển dạng) là một vấn đề hoàn toàn khác. Suy cho
cùng, mục đích của sản phẩm số bị chi phối bỏi các mục ti
êu
tiếp cận tài liệu, trong khi đó việc bảo quản các tài liệu gốc
cần được quyết định dựa trên nhu cầu bảo quản những
nguồn tài liệu này.

quan trọng, và khi nào chúng ta chấp nhận các quá trình và
sản phẩm của thế giới mà chúng ta đang sống.
Lựa chọn. Các kho tài liệu số của chúng ta vô dụng hay hữu
dụng?
Lựa chọn là yếu tố trung tâm của các ứng dụng công nghệ
số; việc lựa chọn công nghệ mới chỉ là bước khởi đầu. Lựa
chọn nội dung cũng không kém phần quan trọng. Không
giống như các chiến lược xây dựng kho tài liệu của các thư
viện và trung tâm lưu trữ truyền thống, những chiến lược
dẫn đến một quyết sách đối với việc thu nhận và một quyết
sách khác đối với việc bảo quản trong nhiều năm sau đó,
việc lựa chọn trong thế giới số là một quá trình nhận định và
đánh giá liên tục. Hầu như không có kho tài liệu số nào đảm
bảo được các chi phí liên quan đến việc duy trì truy cập
trong thời gian dài mà không tính đến giá trị và tính chất của
việc sử dụng chúng.
Chất lượng. Bạn có sẵn sàng và độc giả có trả chi phí cho
chất lượng?
Trong vòng 5 năm qua, các nhân viên thư viện và lưu trữ đã
đạt được tiến bộ đáng kể trong việc xác định những kỳ vọng
của họ đối với chất lượng của các sản phẩm công nghệ ảnh
số được tạo thành từ nhiều nguồn tài liệu khác nhau. Chất
lượng là giá trị mà chúng ta gia tăng thêm vào các sản phẩm
ảnh công nghệ số. Mặc dù vẫn còn tồn tại những vấn đề
quan trọng về thước đo chất lượng, những trở ngại đối với
việc đạt được chất lượng lại dường như không nằm ở chính
bản thân công nghệ. Đúng hơn là chi phí để tạo ra và duy trì
các sản phẩm số vẫn còn cao; người ta vẫn còn chưa chắc
chắn là liệu các chi phí tổng thể để tạo ra một sản phẩm có
giảm bớt đi không.


Nhờ tải bản gốc
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status