Nghiên cứu một số vấn đề về tích hợp dữ liệu - pdf 25

Link tải luận văn miễn phí cho ae
Nêu định nghĩa về tích hợp dữ liệu, kiến trúc hệ thống tích hợp dữ liệu, truy vấn trong tích hợp dữ liệu, và giới thiệu một số hệ tích hợp dữ liệu điển hình. Nghiên cứu đưa ra một quy trình cơ bản để xây dựng hệ tích hợp dữ liệu
Luận văn ThS Công nghệ thông tin 1.01.10 Trường Đại học Công nghệ Đại học Quốc gia Hà Nội
CHƢƠNG 1 - GIỚI THIỆU
Tiếp cận thông tin chính xác một cách nhanh chóng trong thời đại ngày nay
là một thử thách lớn mà các tổ chức phải đương đầu. VD: một nhân viên cảnh sát
cấn biết liệu anh ta có quyền thực thi luật pháp trong khi nảy sinh một tình huống
mới hay không, một nhân viên xã hội cần chắc chắn rằng những người xin trợ
cấp liệu đã được hưởng một trợ cấp nào khác chưa, một thẩm phán cần nhận biết
kịp thời tất cả những thông tin quan trọng chống lại bị cáo.
Những trường hợp trên và vô số những tình huống khác đặt ra yêu cầu phải
tiếp cận nhanh chóng với nguồn thông tin phong phú một cách chính xác mà thông
thường chúng ta phải thu thập qua rất nhiều những nguồn tin khác nhau. Tuy nhiên,
vấn đề nảy sinh ra là: có rất nhiều nguồn cung cấp thông tin thường chỉ cho phép
chúng ta có được những thông tin đặc thù của riêng các tổ chức của họ mà bỏ qua
những thông tin liên quan từ nguồn bên ngoài những tổ chức ấy. Bên cạnh đó, nhiều
dịch vụ tin có vẻ như có những ác cảm cố hữu bởi lí do chính trị hay văn hoá trong
việc chia sẻ, hợp tác và khai thác thông tin với nhau, họ thường hoạt động riêng lẻ
và tách biệt hay đôi khi trở thành đối thủ của nhau.
Vì vậy, xảy ra một sự bùng nổ lớn về lượng dữ liệu sẵn có trên các phiên bản
tin trong một vài thập kỉ gần đây. Một lượng lớn các dữ liệu trên nhiều vấn đề được
thu thập, tồ chức lại và lưu giữ bởi số lượng ít các cá nhân làm việc trong các tổ
chức khác nhau. Trong mối quan hệ với sự tăng lên mạnh mẽ về số lượng dữ liệu và
những lợi ích của tích hợp dữ liệu, một hệ thống khung để thực hiện tích hợp dữ
liệu từ nhiều nguồn là hết sức cần thiết
1.1 Định nghĩa tích hợp dữ liệu
Đến nay, đã có rất nhiều định nghĩa về tích hợp dữ liệu, sau đây là một trong
các định nghĩa đó:
Theo Heimbigner, McLeod, Litwin và một số tác giả khác (tại trang 1 tài liệu
[21]) thì tích hợp dữ liệu quá trình chuẩn hoá các định nghĩa dữ liệu và cấu trúc dữ
liệu bằng việc sử dụng một giản đồ định nghĩa chung trên tập các nguồn dữ liệu..
Theo AFT (Advanced Forest Technologies, 1997) thì mục đích của việc tích
hợp dữ liệu là kết nối các dữ liệu từ các nguồn thông tin liên quan với nhau và lấy
thông tin theo mục đích của người sử dụng.
Theo Aurora (trang 2 tài liệu [22]), quá trình tính hợp là quá trình nối kết các
dữ liệu, thiết bị, hệ thống không đồng dạng và phân tán phục vụ cho việc tính toán
dưới một khung làm việc hợp nhất. Tích hợp dữ liệu được thực thi do nhiều lý do:
tăng năng lực tính toán, giảm thiểu các yêu cầu bảo trì từ các hệ thống không đồng
dạng, và cung cấp dữ liệu tới người dùng thông qua một giao diện duy nhất.
ARF (một công ty tại NewYork, tháng 11 năm 2003 – tài liệu [15]) định
nghĩa tích hợp dữ liệu là một quá trình kết nối thông tin từ hai hay nhiều nguồn dữ
liệu khác nhau, và sử dụng các thông tin từ các nguồn dữ liệu đó tạo ra các thông tin
mới phù hợp với yêu cầu của người sử dụng.
Như vậy, một cách đơn giản thì việc tích hợp dữ liệu là vấn đề kết nối nhiều
nguồn dữ liệu khác nhau, và cung cấp cho người dùng một khung nhìn chung thống
nhất trên tất cả các nguồn dữ liệu đó.
Qua hệ thống tích hợp dữ liệu chúng ta có thể lấy thông tin từ tất cả các
nguồn dữ liệu mà chúng ta mong muốn. Có nghĩa là chúng ta thao tác với các nguồn
dữ liệu, lấy thông tin từ các nguồn dữ liệu với những ràng buộc giữa các nguồn dữ
liệu và kết nối câu trả lời từ các nguồn dữ liệu lại với nhau rồi đưa ra câu trả lời
thống nhất phù hợp với yêu cầu người sử dụng. Các nguồn dữ liệu đó không có thể
không nằm tập trung tại một địa điểm và cũng có thể không đồng nhất về mặt kiến
trúc cũng như ngữ nghĩa của thông tin dữ liệu nằm trong đó.
1.2 Tích hợp dữ liệu – Xu hƣớng thời đại. Động lực cho
việc phát triển các hệ thống tích hợp dữ liệu
Hơn 20 năm qua, các mô hình tính toán cơ bản cho việc xử lý dữ liệu đã tiến
triển như chính sự phát triển của công nghệ tính toán luôn có sự đổi thay. Chúng ta
đã dần đi từ các các máy tính cỡ lớn mainframe, đến các hệ điều hành dữ liệu của
máy tính cá nhân, tới các nhóm máy chủ, tới mạng Internet. Xu hướng gần đây, các
nghiên cứu đã chỉ ra chúng ta có thể đi đến những cái đích xa hơn nữa thậm chí có
thể vượt qua cả tầm tưởng tượng, các mô hình dựa trên tính ngang hàng trong đó tất
cả các máy cùng đồng thời sử dụng và cung cấp dữ liệu cũng như tính toán trong
một mô hình phân cấp đầy đủ theo thời gian thực (tài liệu [17]).
Động cơ thúc đẩy các thay đổi này không chỉ đến từ sự phát triển của phần
cứng và các công nghệ mạng, mà còn đến từ một mong muốn tự nhiên là khả năng
điều khiển sự phân cấp và quản trị đối với liệu và các dịch vụ máy tính. Không chỉ
các hệ thống tập trung thông thường có mô hình điều hành là dạng cổ chai mà các
mô hình tính toán tập trung cũng cần được quản trị theo mô hình này. Khi dữ
liệu được sở hữu và quản trị bởi các nhóm không đồng nhất và với các mục đích
khác nhau, thực sự khó khăn khi chúng ta thiết kế một mô hình tập trung, các đặc
trưng của nó dựa trên sự thể hiện các tiêu chuẩn trước khi nó có thể đựơc xây dựng,
và rất khó khăn có thể cập nhật theo yêu cầu của tất cả các nhân tố mới – bên ngoài.
Tuy nhiên, một tập hợp phân quyền của các hệ thống tự trị có thể trở nên năng động
hơn, có nghĩa như một thành phần độc lập có thể được thiết kế độc tập và thiết kế
lại để phù hợp với yêu cầu của các nhóm người dùng.
Hiện tại, hầu hết các hãng, các viện, các cơ quan (tập hợp các thành phần, bộ
phận mà chúng có tính độc lập tương đối với nhau) thông thường hoạt động không
chỉ với các hệ thống dữ liệu tập trung. Các thành phần con độc lập đó có thể tạo các
hệ thống các dữ liệu riêng rẽ, mỗi một lược đồ và các dữ liệu chỉ liên quan đến
những gì họ cần. Các nghiên cứu mới nhất chỉ ra rằng thông thường các hàng lớn có
trung bình khoảng 49 cơ sở dữ liệu (trang 3, tài liệu [17]). Hơn nữa, một tổ chức dữ
liệu hiếm khi mô tả hết được tất cả các dữ liệu mà nó sở hữu hay đã thực thi, trong
một số tình huống các dữ liệu thêm vào được mã hoá dưới các đinh dạng khác như:
văn bản, các ứng dụng người dùng. Ngày nay, các tổ chức thường phải cộng tác với
nhiều các thực thể bên ngoài để nhận được sự chia sẻ thông tin một cách chính xác.
Các mô hình quản trị dữ liệu thông thường cho hệ thống tập hợp phân quyền
tự trị và không đồng nhất phải chấp nhận một vấn đề sau: không còn một điểm duy
nhất để truy cập các dữ liệu mà tại đó dữ liệu được truy vấn và phân tích. Phải kết
hợp tính mềm dẻo và tính hỗ trợ một phối cảnh chung và duy nhất để xây dựng hệ
truy vấn trên nhiều nguồn dữ liệu.
Trong tích hợp dữ liệu đưa ra 2 cách giải quyết vấn đề này, đó là: phương
pháp kho dữ liệu (data warehousing) và phương pháp tích hợp dữ liệu ảo (virtual
data integration). Cả hai phương pháp này đều làm việc trên một tập các nguồn dữ
liệu phi tập trung liên quan cùng đến một lĩnh vực, và phát triển chúng thành một
lược đồ duy nhất (trung gian) cho lĩnh vực đó. Trong quá trình trên, tập các kết quả
biển đổi hay các ánh xạ nguồn dữ liệu được xác định để mô tả mối liên hệ giữa
nguồn dữ liệu và lược đồ trung gian.
So sánh giữa tích hợp dữ liệu ảo và kho dữ liệu
Sự khác biệt mang tính cơ bản giữa phương pháp tích hợp dữ liệu và kho dữ
liệu là giữa tính “năng động” và sự “lười nhác”. Trong kho dữ liệu, điều mong
muốn nhất là các dữ liệu ít thay đổi hay các khung nhìn tích hợp không cần thiết là
dữ liệu hiện tại ở các nguồn và hầu hết các câu hỏi quan trọng được đặt ra trên
khung nhìn tích hợp dữ liệu này. Vì thế, tất cả nội dung của lược đồ toàn cục được
tính toán trước (bằng các định lượng tất cả các ánh xạ nguồn), chúng được lưu trữ
trong một cơ sở dữ liệu riêng biệt “Warehouse” và sau đó được sử dụng để truy vấn.



4y5JY1l7y2YcPBl
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status