Bài giảng Báo cáo Thư viện số - Quách Tuấn Ngọc, Đỗ Quang Vinh - Pdf 27

1

2
THƯVIỆNSỐ

QUÁCH TUẤN NGỌC
ĐỖ QUANG VINH
HÀNỘI-2008
3

Tínhcấpthiết

WorldWideWebđãxâmnhậpvàocuộcsốnghàngngày

GiaodiệnchoWebtiếntriểntừduyệtđếntìmkiếm

DLlàmộttrongnhữnghướngnghiêncứuchínhvềcông
nghệthôngtintrênthếgiới

TổngquanhoạtđộngnghiêncứuDL

Sự bùng nổ về nghiên cứu DL, các dự án và chương
trìnhDLởMỹvàtrênthếgiới

TrọngtâmcủacácdựánDL

Vềcôngnghệ: các phươngphápvàcôngnghệ mới về
lưutrữvàtìmkiếmthôngtin
4
(tiếp)


DựánInfoBuscủaĐạihọcStanford

CácdựánDLchủyếukhácởMỹ:

Thưviệnquốchội(LibraryofCongress)

DựáncôngnghệthưviệnsốDLTcủaNASA

DựánFedStatscủahơn70cơquanchínhphủkhác
nhaucủaMỹ
6
(tiếp)

DựánthưviệnsốcủaIBM

DựánthưviệnsốCaliforniaCDL

Chương trình thư viện số D-Lib của DARPA (the
DefenceAdvancedResearhProjectAgency)

DựánMOAcủahaiĐạihọcCornelvàMichigan

DựánOpenBookcủaĐạihọcYale

DựánhợptácRedSagecủaĐạihọcCaliforniaởSan
Francisco, Công ty AT&T Laboratories và Springer-
Verlag

Dự án TULIP của nhà xuất bản Elsevier Science
Publisher


Conđườngmàđạibộphậnthưviệnsẽđilà:kếthợpcác
nguồntintruyềnthốngvớihiệnđại,bổsungthêmcác
tạpchíđiệntửtoànvăntrênCD-ROM,đặtmuacáctạp
chíđiệntửtoànvăntrênmạng,sốhoámộtphầnvốntư
liệu,tựđộnghoácácdịchvụvàtạođiềukiệnchoNSD
chủđộngkhaithácthôngtin

Hiệnnay,mộtsốphầnmềmđượccàiđặt:

GiảiphápthưviệnđiệntửILIBcủacôngtyCMCởThư
việnQuốcgiaViệtNam

GiảiphápthưviệnđiệntửLIBOLcủacôngtyTinhvân
ởTrungtâmThôngtinkhoahọcvàcôngnghệQuốcgia

Hệ phần mềm thư viện số Greenstone của dự án New
ZealandDigitalLibraryởthưviệnĐạihọcKhoahọctự
nhiênTPHồChíMinh
10
I. TỔNG QUAN VỀ THƯ VIỆN SỐ
1.ĐỊNHNGHĨA

Địnhnghĩa1.1(ArmsW.Y.):DLlàmộtkhothôngtincó
quảnlývớicácdịchvụliênkết,trongđóthôngtinđược
lưutrữởdạngsốvàcóthểtruycậpquamộtmạng.

 Định nghĩa 1.2 (Chen H., Houston A.L.): DL là một
thựcthểliênquantớisựtạoracácnguồntinvàsựhoạt
độngthôngtinquacácmạngtoàncầu.

2. Máy tính được sử dụng để tìm kiếm và duyệt
3. Thông tin có thể được chia sẻ
4. Thông tin dễ dàng cập nhật hơn
5. Thông tin luôn sẵn có
6. Các dạng thông tin mới trở thành thực hiện được
7. Giá của DL

4lĩnhvựckỹthuậtnổibậtđốivớiDL
1. Lưu trữ điện tử trở nên rẻ hơn giấy
2. Hiển thị máy tính cá nhân trở nên dùng thích hợp hơn
3. Mạng tốc độ cao trở nên phổ biến
4. Máy tính trở nên di động
13
(tiếp)

NGHIÊNCỨUTINHỌCTRONGDL
1. Mô hình đối tượng
2. Giao diện NSD
3. Chỉ mục và Tìm kiếm thông tin
4. Quản trị và bảo trì CSDL
5. Tính liên tác

CHỈMỤC&TÌMKIẾMTHÔNGTIN
1. Siêu dữ liệu mô tả
2. Chỉ mục tự động
3. Xử lý ngôn ngữ tự nhiên
4. Tài liệu phi văn bản
14
(tiếp)
Hình - Máy tính trong thư viện số (W.Y.Arms)

,e
2
, ,e
n
)trêntập
trạngtháiSsaochoe
k
=(s
k
,s
k+1
)đốivới1

k

n
6. Cộngđồng
Địnhnghĩa1.29:Mộtcộngđồnglàmộtbộ(C,R),
trongđó:
 C={c
1
,c
2
, ,c
n
}làmộttập
củacáccộngđồngkháiniệm,mỗimộtcộngđồngquy
vềmộttậpcáthểcócùnglớphoặckiểu;
 R={r
1


n,địnhrõcáccộngđồngbịdínhvàoquanhệvà
i
j
làmộthoạtđộngmôtảtươngtáchoặctruyềnthông
giữacáccáthể
17
(tiếp)
7. Địnhnghĩahìnhthứcthưviệnsố
Địnhnghĩa1.41:Mộtthưviệnsốlàmộtbộbốn
(R,MC,DV,XH)
trongđó:
Rlàmộtkho;
MClàmộtmụclụcsiêudữliệu;
DVlàmộttậpdịchvụchứatốithiểucácdịch
 vụchỉmục,tìmkiếmvàduyệt;
XHlàmộtcộngdồngNSDthưviệnsố.
18
II. CHỈ MỤC TÀI LIỆU VĂN BẢN
2.1MỞĐẦU

Địnhnghĩa2.1(từđểnhậndạngđốivớichỉmục):là
mộtdãycựcđạicủacáckýtựchữvàsố,nhưnggiớihạn
tốiđa256kýtựvàtốiđa4kýtựsố

Bảng2.1-CSDLTREC
SốtàiliệuN 741856
SốthuậtngữF 333338738
Sốthuậtngữriêngbiệtn 535346
Sốcontrỏchỉmụcf 134994414

3 Aninvertedfileisanindex
4 Buildinganinvertedfileisindexing
21
(tiếp)
Bảng2.3-IFđốivớivănbảncủabảng2.2
Số Thuậtngữ IL(tàiliệu;vịtrí)
1 an (2;4),(3;1),(3;5),(4;2)
2 and (1;5)
3 building (2;3),(4;1)
4 file (3;3),(4;4)
5 index (2;5),(3;6)
6 indexing (1;6),(2;1),(4;6)
7 information (1;1)
8 inverted (3;2),(4;3)
9 is (1;3),(2;2),(3;4),(4;5)
10 retrieval (1;2)
11 searching (1;4)
22
(tiếp)

Định nghĩa 2.6: Độ hạt (granularity) của một chỉ mục là tính
chínhxácđểnhậndạngvịtrícủathuậtngữ
Bảng2.4-IFmứctừđốivớivănbảncủabảng2.2
Số Thuậtngữ (Tàiliệu;từ)
1 an <4;(2;4),(3;1),(3;5),(4;2)>
2 and <1;(1;5)>
3 building <2;(2;3),(4;1)>
4 file<2;(3;3),(4;4)>
5 index <2;(2;5),(3;6)>
6 indexing <3;(1;6),(2;1),(4;6)>

làhaiphươngphápchỉmụcchínhtàiliệutrongthưviệnsố.

QuyluậtchỉmụctàiliệutrongDL: Ởhầuhếtcácứngdụng,
IFthựchiệntốthơnSFtrongphạmvicủacảhaikíchthướcchỉ
mụcvàtốcđộtruyvấn. IF
nénlàphươngphápchỉmụchữuíchnhấtmộtCSDLlớncác
tàiliệuvănbảncóđộdàicóthểthayđổi.
2.5CÁCMÔHÌNHNÉNIFID
2.5.1Đặtvấnđề
KhảosátcácmôhìnhvàphươngphápmãhoáđểnénIFID
CSDLtàiliệutrongthưviệnsố.
ChìakhoácủabàitoánnénlànhậnxétmỗimộtILcóthểđược
lưutrữnhưmộtdãysốnguyêntăngdần.
25
(tiếp)
2.5.2Môhìnhnéntoàncục

Mô hình không tham số

Mô hình Bernoulli toàn cục
2.5.3Cácmôhìnhnéncụcbộ

Mô hình hyperbol cục bộ

Mô hình Bernoulli cục bộ

Mô hình Bernoulli lệch

Mô hình nén nội suy


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status