Đề tài: Xây dựng một số công cụ hổ trợ
tra cứu và tổng hợp thông tin
trong thư viện số
class="bi x6 ye w3 h6"
class="bi x6 ye w3 h8"
class="bi x6 ye w3 ha"
class="bi x6 ye w3 hb"
1-1
CHƯƠNG 1
TỔNG QUAN
1.1. Thư viện số
Thư viện số là thư viện phục vụ thông tin điện tử ( được số hóa) - được đọc
với sự trợ giúp của máy vi tính. Thông tin điện tử có thể được chứa trong những Tư
liệu điện tử nằm trong và ngoài thư viện. Tư liệu điện tử bao gồm:
• CD-ROM và băng từ - CD-ROM thường chứa những CSDL chuyên ngành,
được phục vụ riêng lẻ hay trên mạng máy tính.
• Tạp chí điện tử - ấn hành trên mạng Internet. Thư viện có thể đặt mua như
tạp chí in và sẽ được cấp quyền login vào để truy cập.
• Cơ sở dữ liệu trực tuyến - có rất nhiều trên mạng Internet do những trường
đại học, những cơ sở thông tin, và những công ty tư nhân như LEXIX-
phân tán và rất khác nhau về cấu trúc. Pha 2 của SKTVS tập trung vào 3 hướng
nghiên cứu lớn sau:
• Human-centered research-nghiên cứu hỗ trợ việc tạo ra thông tin và sử dụng
thông tin.
• Content and collections-tạo lập thư viện số chứa đựng các dạng tri thức.
• System-centered research-các vấn đề kỹ thuật, phần mềm, phân loại khi tổ
chức và liên kết các bộ dữ liệu số dạng thức khác nhau thông qua Internet.
Để hình dung rõ hơn về 3 hướng nghiên cứu trên, chúng ta sẽ lược qua các dự
án chính, các vấn đề quan trọng nhất của 3 hướng nghiên cứu và triển khai này.
1.2.1.Human-centered research (nghiên cứu hướng nguời dùng)
Trong hướng này, có các dự án và chương trình lớn:
Personalized Retrieval and Summarization of Image, Video, and
Language Resources (PERSIVAL). Trong dự án PERSIVAL, các nhà nghiên cứu
ở Đại học Columbia đang thử nghiệm thiết kế hệ thống giúp cho các bệnh nhân truy
cập dễ dàng và nhanh chóng đến các nguồn thông tin y học trực tuyến thích hợp cho
từng người bệnh. />
Digital resource designed for children. Các nhà nghiên cứu ở Đại học
Maryland phát triển các công cụ thích hợp cho phép nghe, xem, tìm kiếm, hỏi đáp
1-3
và tổ chức thông tin nghe, nhìn, văn bản…cho trẻ em.
/>
Technologies and tools for students. Nhiều đại học và cơ quan nghiên cứu
như Đại Học Quốc Gia Georgia, Hiệp Hội Máy Tính (Association for Computing
Machinery-ACM), Ủỵ Ban Giáo Dục của SIGGRAPH (SIGGRAPH Education
Committee) đang phát triển các kỹ thuật và công cụ cho sinh viên để việc truy cập
thông tin trực tuyến phục vụ học tập ở đại học được hiệu quả.
/>
Video information college. Dự án được triển khai tại Đại Học Carnegie
Digital Atheneum. Đại Học Kentucky được Quỹ Khoa Học Quốc Gia tài trợ
phối hợp với Thư Viện Anh và Chương Trình Shared University Research của IBM
đang làm việc với kho tư liệu của Thư Viện Anh chứa đựng các tư liệu cổ của Hi
Lạp, Do Thái từ thế kỷ 17.
.
Digital workflow management. Hơn 29.000 ngàn bản nhạc Mỹ từ 1790 đến
1960 đang được Đại Học Hopkins chuyển thành một thư viện số.
Data provenance. Các nghiên cứu tại Đại Học Pennsylvania hướng tới vấn đề
nan giải bậc nhất của các tập hợp dữ liệu trực tuyến. Đó là độ trung thực của một
bản tin số và những vấn đề liên quan, có thể xếp vào nhóm các vấn đề hệ thống
được trình bày dưói đây. />
1.2.3.System-centered research (nghiên cứu hướng hệ thống )
Phát triển các thư viện số đòi hỏi phải giải quyết rất nhiều vấn đề về hệ thống.
Có thể nêu vài cái trong số các vấn đề quan trọng mà các nhà khoa học Mỹ đang tập
trung giải quyết:
New model for scholarly publishing. Bản chất vấn đề là việc xuất bản bây
giờ khác xa cách in ấn truyền thống. Xuất bản tức thời, phân tán, liên tục… Mọi
quy trình đều phải thay đổi thích hợp để thực hiện việc “xuất bản” trên các hệ thống
tính toán phân tán. Vấn đề đang được Đại Học Berkeley California nghiên cứu.
Classification systems. Một trong những vấn đề kỹ thuật phức tạp nhất của
thư viện là phân loại tư liệu. Mọi công cụ lưu trữ, tìm kiếm đều rất phụ thuộc vào
kỹ thuật phân loại. Với các thư viện số chứa đựng, tích hợp mọi dạng thức thông
tin, tri thức thì vấn đề càng phức tạp. Rất nhiều đại học và các viện nghiện cứu đang
1-5
nhỏ SmiLib
NA
Hỗ trợ tiếng
Việt
Hỗ trợ tiếng Việt mà một số
ngôn ngữ khác như Anh, Nga,
Nhật, Hoa, hỗ trợ Unicode
Hỗ trợ đa ngôn ngữ, trong đó
tiêng Việt theo bảng mã Unicode
và TVCN
Hỗ trợ tìm
kiếm
Tìm kiếm tra cứu mạnh, hỗ trợ
tất cả các khung phân loại
Hỗ trợ tìm kiếm tra cứu theo nhiều
tiêu chí khác nhau
Các chức
năng chuyên
môn
Môi trường hiển thị: Web
Chuẩn giao tiếp dữ liệu ISO2709
Hỗ trợ tra cứu liên thư viện qua
chuẩn Z39.50
Có khả năng tùy biến giao diện
Có 8 phân hệ nhgiệp vụ chuyên
môn: tra cứu (Z39.50), , biên
mục, ấn phẩm điện tử, ấn phẩm
định kỳ, phân hệ bổ sung, phân
năng tìm kiếm nhanh chóng,
chính xác trên nhiều ngôn ngữ
và nhiều tiêu chí
Có tính mở và linh hoạt
Đã được ứng dụng tại một số nơi
như Học Viện Quan hệ Quốc
tế…
Tuân thủ những tiêu chuẩn mở về hệ
thống thư viện và được xây dựng trên
nền công nghệ hiện đại, quản lý thư
viện hiệu quả, có khả năng liên thông
với các thư viện khác trên thế giới.
1-6
Thông tin
liên lạc
Cty Công nghệ Tin học Tinh
Vân
371 Kim Mã, Hà NộI
ĐT: (4) 771 5737
Cty CMC Soft
777 GiảI Phóng, Hà NộI
ĐT: (4) 664 1595
Cty Cổ phần Tin học Lạc VIệt
• Nghiên cứu đề xuất qui trình tổ chức thông tin hỗ trợ tiến trình sưu tầm, tổ
chức và khai thác thông tin trong các thư viện số hóa và xây dựng hệ thống
phần mềm hỗ trợ qui trình.
• Nghiên cứu và xây dựng các công cụ phần mềm hỗ trợ tìm kiếm, phân tích
tổng hợp thông tin trong các thư viện số hóa.
Giai đoạn 1: từ tháng 12/2001 đến 7/2002
• Nghiên cứu các nhu cầu khai thác thông tin trong thư viện số
• Nghiên cứu đặc trưng của thông tin tư liệu
• Nghiên cứu các công nghệ sưu tầm, tổ chức thông tin theo tiếp cận tác nhân
thông minh, phân lớp gom cụm
• Thiết kế hệ thống và cài đặt một số phần mềm phân lớp gom cụm
Giai đoạn 2: Từ 08/2002 đến 3/2003
• Nghiên cứu công nghệ tìm kiếm thông tin theo tiếp cận tác nhân thông minh
• Cài đặt một số phần mềm phân lớp, gom cụm, hỗ trợ tra cứu thông tin
1.5. Các kết quả đạt được của đề tài
• Xây dựng khung tiêu đề đề mục Việt, Anh , từ điển từ đồng hiện CNTT
• Xây dựng công cụ Search và Download
• Xây dựng công cụ tìm các dãy từ phổ biến để đặc trưng văn bản
• Xây dựng công cụ tổng hợp văn qua gom cụm bằng mạng Kohonen
• Xây dựng thư viện số trên Web với hàng ngàn bài báo khoa học. Phát triển
truy vấn thư viện qua từ khóa, qua tiêu đề đề mục, qua từ đồng hiện, qua lớp
ra Kohonen trên giao diện Web.
2-1
CHƯƠNG 2
TỔ CHỨC KHAI THÁC THÔNG TIN THƯ VIỆN
2.1. Tổ chức phục vụ khai thác thông tin
Bước qua giai đoạn quản lý tư liệu đã tồn tại nhiều thế hệ, đến giai đoạn quản
lý thông tin đã đặt ra cho nghề thư viện vấn đề trao đổi và chia sẻ thông tin. Đây là
bước ngoặt quan trọng trong nghề thư viện, đồng thời việc ứng dụng triệt để thành
- Cung cấp lượng thông tin đúng,
- Thời điểm đúng,
- Hình thức trình bày đúng,
- Nhằm sử dụng đúng mục đích,
- Chi phí hợp lý.
Muốn hoàn thành tốt công việc trên thì người cán bộ thư viện phải quan tâm đến
người sử dụng với việc sử dụng thông tin:
- Hiểu nhu cầu người sử dụng,
- Phương thức sử dụng thông tin,
- Khả năng đáp ứng nhu cầu
Giá trị chuyên nghiệp của nghề thư viện sẽ được nâng cao một khi chúng ta
không phải chỉ tập trung vào việc mua và cho mượn sách và những tài liệu khác mà
là phải biết nhận định nhu cầu và tìm ra giải pháp thông tin cho người sử dụng,
đồng thời bằng cách sử dụng CNTT để quản lý thông tin một cách hợp lý nhằm đưa
thông tin đến với người sử dụng một cách nhanh nhất.
Bước qua giai đoạn quản lý tri thức, yêu cầu đặt ra cho người cán bộ thư viện
là phải quản lý lượng thông tin điện tử khổng lồ nhằm đáp ứng nhu cầu tìm kiếm
của người sử dụng ngày càng gia tăng.
Biên mục tự động là một trong những vấn đề then chốt trong giai đoạn này để
quản lý thư viện kỹ thuật số. Sử dụng hệ thống ngôn ngữ tiêu đề đề mục để giúp
người sử dụng tìm kiếm và tập trung thông tin theo chủ đề là một công việc biên
mục mang tính nghiệp vụ cao nhất - đòi hỏi cả hai tính chất đặc thù là kỹ thuật và
nghệ thuật. Việc biên mục tự động do đó đòi hỏi chuyên gia tin học và cán bộ thư
viện phải có một sự phối hợp đồng bộ để tạo nên một hệ thống tiêu đề đề mục phản
2-3
ánh đúng nội dung của kho tin. Đồng thời hỗ trợ việc tìm kiếm thông tin cho người
sử dụng thông qua hệ thống tiêu đề đề mục hoàn chỉnh đó.
Tiêu đề đề mục hay đề mục là một danh từ hay cụm từ được hình thành theo
những nguyên tắc định sẳn với một cấu trúc nhất định hay ngữ pháp ngôn ngữ tiêu
Webcrawler là một trong những thí dụ điển hình về thư viện điện tử online.
Trên trang chủ của Webcrawler, ở trên cùng bên góc trái là Ô hội thoại để tìm theo
Từ khóa. Phía dưới là 18 chanels cho các chủ đề khác nhau (Giải trí, Giáo dục, Máy
tính và Internet, Tin tức, Sức khỏe, Mua sắm,vv…). 2-5
Ví dụ khi nhấp chuột vào chanel Giáo dục (Education), ta sẽ đi đến một trang web
mà trên đó, trong phần Thư mục (Directory) sẽ bao gồm 14 lãnh vực thuộc Giáo
dục (Ái hữu, Nghệ thuật và Nhân văn, Hỗ trợ tài chánh, Luật học, Thư viện, Tham
khảo, Khoa học & Tự nhiên, Khoa học Xã hội, Các Viện và Trường đại học, ).
Nếu ta thử nhấp chuột vào mục Khoa học và Tự nhiên, ta sẽ lại đi đến một
webpage gồm 17 ngành Khoa học tự nhiên (Hóa học, Vật lý, vv…). Nếu cần tìm
các thông tin về Hóa học, ta lại nhấp chuột vào mục Hóa học, dưới đề mục Hóa học
này lại gồm 15 chuyên ngành nhỏ và các vấn đề liên quan đến Hóa học (Hóa phân
tích, Hóa đại cương,v.v…). Webcrawler sẽ đề nghị những website tốt nhất về những
vấn đề này mỗi khi ta nhấp chuột vào các đề mục trong Directory.
Sự tổ chức của một thư viện điện tử online về bản chất không khác với một
thư viện truyền thống: một chủ đề lớn bao gồm những chủ đề nhỏ, rồi đến lượt các
chủ đề nhỏ này bao gồm các chủ đề nhỏ hơn, và cứ thế tiếp tục cho đến tận nguồn
thông tin cuối cùng là một trang web hay một bài viết. Điều làm cho các nguồn
thông tin trong một thư viện điện tử online như trong phần Directory của
Webcrawler khác với các nguồn thông tin truyền thống là khối lượng khổng lồ của
khả năng nối kết to lớn giữa các thông tin trên mạng. Ví dụ khi tìm các thông tin về
Hóa học, từ những web site tốt nhất được đề nghị trong phần Directory Matches của
Webcrawler, chúng ta sẽ được dẫn đến rất nhiều web site lớn khác như web site của
Hiệp hội Hóa học Hoa Kỳ, và nhiều web site khác mà chính bản thân chúng cũng có
nguyên tắc thiết lập chung để dần dần tiến đến một ngôn ngữ chung "Ngôn ngữ
tiêu đề đề mục = Subject Heading Language".
Một vài minh họa phô hiện thông tin trên biểu ghi về tư liệu với Đề mục.
sử dụng Tiếng Việt cho Hệ thống Tiêu đề đề mục của Thư viện mình như minh
họa trong Hình 3.1 - Hai Đề mục được đánh số thứ tự Ả Rập ở dòng cuối cùng của
Thẻ Thư mục.
3-2
Hình 3.1: Thông tin về sách (Hệ thống Online Catalog của Thư viện ĐH Khoa
học Tự Nhiên)
Độc giả có thể nhấp chuột vào các Đề mục sau để tìm tài liệu có nội dung tương
ứng:
C++ (NGÔN NGỮ LẬP TRÌNH MÁY TÍNH) ĐỒ HỌA MÁY TÍNH
Thư viện Quốc hội Hoa kỳ sử dụng Khung Đề mục LC (Library of Congress
Subject Headings) để định Tiêu đề đề mục. Ví dụ ở Hình 3.2 cho ta thấy thông tin
về một cuốn sách xuất bản bằng Tiếng Việt có hai Đề mục bằng Tiếng Anh được
dịch như sau:
BỘ ĐỘI GIÁO DỤC NGOẠI KHÓA VIỆT NAM
VIỆT NAM LỰC LƯỢNG VŨ TRANG SINH HOẠT CHÍNH TRỊ
3-3
Hình 3.2: Thông tin về sách (Hệ thống Online Catalog của Thư viện Quốc hội
Hoa kỳ)
Ví dụ ở Hình 3.3 là một biểu ghi thư mục một tác phẩm Tiếng Ba Lan của Thư
viện Quốc gia Anh gồm 4 Tiêu đề mục bằng Tiếng Anh. Đề mục ở đây được chọn
từ Khung LCSH (Library of Congress Subject Headings). Những đề mục được
dịch như sau:
KINH TẾ DỰ BÁO BA LAN
BA LAN ĐIỀU KIỆN KINH TẾ 1990-
affecting primary health care; Disease prevention and health promotion
programs;Conclusions.
Source: (Journal of the American Medical Association, 5/17/95, Vol. 273
Issue 19,p1498,5p)
ISSN: 0098-7484
Item No: 9506043952 Hình 3.4: Thông tin về bài tạp chí (CSDL CD-ROM EBSCO)
Qua các minh họa trên ta thấy Tiêu đề đề mục đóng vai trò quan trọng trong
việc giới thiệu nội dung của một tư liệu (sách hoặc bài tạp chí ). Tiêu đề đề mục
là một trường độc lập trong một biểu ghi.
3.2. TỪ KHÓA
Từ khóa là từ được dùng để định vị thông tin trong một Cơ sở dữ liệu. Thông
tin có thể là một biểu ghi thư mục (bibligographic record), bản tóm tắc (abstract),
hay toàn văn (full text) mà Từ khóa hiện diện trong đó.
Có hai loại Từ khóa:
3-6
• Từ khóa tự do (Free Style Keyword) là từ nằm sẵn trong tư liệu hay
CSDL. Từ khóa này không có riêng một trường độc lập.
• Từ khóa có kiểm soát (Controlled Style Keyword) là từ được chọn lọc
đưa vào CSDL. Từ khóa loại này có riêng một trường độc lập.
Khác với Tiêu đề đề mục đã có từ lâu, Từ khóa chỉ mới xuất hiện khi computer
được áp dụng trong ngành Thông tin Thư viện.
Từ khóa giúp ta tìm nhanh tài liệu có chứa từ khóa đó. Nhờ các Phép toán
Boolean giúp ta kết hợp nhiều nội dung tìm hay hạn chế số lượng kết quả tìm. Do
đo Từ khóa được dùng để định vị và chỉ điểm (pointing) thông tin cần tìm trong
CSDL. Từ khóa được dùng rộng rãi trong công tác Chỉ mục tạp chí (Indexing).
3.3. SO SÁNH TIÊU ĐỀ ĐỀ MỤC VỚI TỪ KHÓA.