1
2
THƯVIỆNSỐ
QUÁCH TUẤN NGỌC
ĐỖ QUANG VINH
HÀNỘI-2008
3
Tínhcấpthiết
WorldWideWebđãxâmnhậpvàocuộcsốnghàngngày
GiaodiệnchoWebtiếntriểntừduyệtđếntìmkiếm
DLlàmộttrongnhữnghướngnghiêncứuchínhvềcông
nghệthôngtintrênthếgiới
TổngquanhoạtđộngnghiêncứuDL
Sự bùng nổ về nghiên cứu DL, các dự án và chương
trìnhDLởMỹvàtrênthếgiới
TrọngtâmcủacácdựánDL
Vềcôngnghệ: các phươngphápvàcôngnghệ mới về
lưutrữvàtìmkiếmthôngtin
4
(tiếp)
DựánInfoBuscủaĐạihọcStanford
CácdựánDLchủyếukhácởMỹ:
Thưviệnquốchội(LibraryofCongress)
DựáncôngnghệthưviệnsốDLTcủaNASA
DựánFedStatscủahơn70cơquanchínhphủkhác
nhaucủaMỹ
6
(tiếp)
DựánthưviệnsốcủaIBM
DựánthưviệnsốCaliforniaCDL
Chương trình thư viện số D-Lib của DARPA (the
DefenceAdvancedResearhProjectAgency)
DựánMOAcủahaiĐạihọcCornelvàMichigan
DựánOpenBookcủaĐạihọcYale
DựánhợptácRedSagecủaĐạihọcCaliforniaởSan
Francisco, Công ty AT&T Laboratories và Springer-
Verlag
Dự án TULIP của nhà xuất bản Elsevier Science
Publisher
Conđườngmàđạibộphậnthưviệnsẽđilà:kếthợpcác
nguồntintruyềnthốngvớihiệnđại,bổsungthêmcác
tạpchíđiệntửtoànvăntrênCD-ROM,đặtmuacáctạp
chíđiệntửtoànvăntrênmạng,sốhoámộtphầnvốntư
liệu,tựđộnghoácácdịchvụvàtạođiềukiệnchoNSD
chủđộngkhaithácthôngtin
Hiệnnay,mộtsốphầnmềmđượccàiđặt:
GiảiphápthưviệnđiệntửILIBcủacôngtyCMCởThư
việnQuốcgiaViệtNam
GiảiphápthưviệnđiệntửLIBOLcủacôngtyTinhvân
ởTrungtâmThôngtinkhoahọcvàcôngnghệQuốcgia
Hệ phần mềm thư viện số Greenstone của dự án New
ZealandDigitalLibraryởthưviệnĐạihọcKhoahọctự
nhiênTPHồChíMinh
10
I. TỔNG QUAN VỀ THƯ VIỆN SỐ
1.ĐỊNHNGHĨA
Địnhnghĩa1.1(ArmsW.Y.):DLlàmộtkhothôngtincó
quảnlývớicácdịchvụliênkết,trongđóthôngtinđược
lưutrữởdạngsốvàcóthểtruycậpquamộtmạng.
Định nghĩa 1.2 (Chen H., Houston A.L.): DL là một
thựcthểliênquantớisựtạoracácnguồntinvàsựhoạt
độngthôngtinquacácmạngtoàncầu.
2. Máy tính được sử dụng để tìm kiếm và duyệt
3. Thông tin có thể được chia sẻ
4. Thông tin dễ dàng cập nhật hơn
5. Thông tin luôn sẵn có
6. Các dạng thông tin mới trở thành thực hiện được
7. Giá của DL
4lĩnhvựckỹthuậtnổibậtđốivớiDL
1. Lưu trữ điện tử trở nên rẻ hơn giấy
2. Hiển thị máy tính cá nhân trở nên dùng thích hợp hơn
3. Mạng tốc độ cao trở nên phổ biến
4. Máy tính trở nên di động
13
(tiếp)
NGHIÊNCỨUTINHỌCTRONGDL
1. Mô hình đối tượng
2. Giao diện NSD
3. Chỉ mục và Tìm kiếm thông tin
4. Quản trị và bảo trì CSDL
5. Tính liên tác
CHỈMỤC&TÌMKIẾMTHÔNGTIN
1. Siêu dữ liệu mô tả
2. Chỉ mục tự động
3. Xử lý ngôn ngữ tự nhiên
4. Tài liệu phi văn bản
14
(tiếp)
Hình - Máy tính trong thư viện số (W.Y.Arms)
,e
2
, ,e
n
)trêntập
trạngtháiSsaochoe
k
=(s
k
,s
k+1
)đốivới1
≤
k
≤
n
6. Cộngđồng
Địnhnghĩa1.29:Mộtcộngđồnglàmộtbộ(C,R),
trongđó:
C={c
1
,c
2
, ,c
n
}làmộttập
củacáccộngđồngkháiniệm,mỗimộtcộngđồngquy
vềmộttậpcáthểcócùnglớphoặckiểu;
R={r
1
≤
n,địnhrõcáccộngđồngbịdínhvàoquanhệvà
i
j
làmộthoạtđộngmôtảtươngtáchoặctruyềnthông
giữacáccáthể
17
(tiếp)
7. Địnhnghĩahìnhthứcthưviệnsố
Địnhnghĩa1.41:Mộtthưviệnsốlàmộtbộbốn
(R,MC,DV,XH)
trongđó:
Rlàmộtkho;
MClàmộtmụclụcsiêudữliệu;
DVlàmộttậpdịchvụchứatốithiểucácdịch
vụchỉmục,tìmkiếmvàduyệt;
XHlàmộtcộngdồngNSDthưviệnsố.
18
II. CHỈ MỤC TÀI LIỆU VĂN BẢN
2.1MỞĐẦU
Địnhnghĩa2.1(từđểnhậndạngđốivớichỉmục):là
mộtdãycựcđạicủacáckýtựchữvàsố,nhưnggiớihạn
tốiđa256kýtựvàtốiđa4kýtựsố
Bảng2.1-CSDLTREC
SốtàiliệuN 741856
SốthuậtngữF 333338738
Sốthuậtngữriêngbiệtn 535346
Sốcontrỏchỉmụcf 134994414
3 Aninvertedfileisanindex
4 Buildinganinvertedfileisindexing
21
(tiếp)
Bảng2.3-IFđốivớivănbảncủabảng2.2
Số Thuậtngữ IL(tàiliệu;vịtrí)
1 an (2;4),(3;1),(3;5),(4;2)
2 and (1;5)
3 building (2;3),(4;1)
4 file (3;3),(4;4)
5 index (2;5),(3;6)
6 indexing (1;6),(2;1),(4;6)
7 information (1;1)
8 inverted (3;2),(4;3)
9 is (1;3),(2;2),(3;4),(4;5)
10 retrieval (1;2)
11 searching (1;4)
22
(tiếp)
Định nghĩa 2.6: Độ hạt (granularity) của một chỉ mục là tính
chínhxácđểnhậndạngvịtrícủathuậtngữ
Bảng2.4-IFmứctừđốivớivănbảncủabảng2.2
Số Thuậtngữ (Tàiliệu;từ)
1 an <4;(2;4),(3;1),(3;5),(4;2)>
2 and <1;(1;5)>
3 building <2;(2;3),(4;1)>
4 file<2;(3;3),(4;4)>
5 index <2;(2;5),(3;6)>
6 indexing <3;(1;6),(2;1),(4;6)>
làhaiphươngphápchỉmụcchínhtàiliệutrongthưviệnsố.
QuyluậtchỉmụctàiliệutrongDL: Ởhầuhếtcácứngdụng,
IFthựchiệntốthơnSFtrongphạmvicủacảhaikíchthướcchỉ
mụcvàtốcđộtruyvấn. IF
nénlàphươngphápchỉmụchữuíchnhấtmộtCSDLlớncác
tàiliệuvănbảncóđộdàicóthểthayđổi.
2.5CÁCMÔHÌNHNÉNIFID
2.5.1Đặtvấnđề
KhảosátcácmôhìnhvàphươngphápmãhoáđểnénIFID
CSDLtàiliệutrongthưviệnsố.
ChìakhoácủabàitoánnénlànhậnxétmỗimộtILcóthểđược
lưutrữnhưmộtdãysốnguyêntăngdần.
25
(tiếp)
2.5.2Môhìnhnéntoàncục
Mô hình không tham số
Mô hình Bernoulli toàn cục
2.5.3Cácmôhìnhnéncụcbộ
Mô hình hyperbol cục bộ
Mô hình Bernoulli cục bộ
Mô hình Bernoulli lệch
Mô hình nén nội suy