Áp dụng kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý điều hành - Pdf 10



1
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
TRẦN VŨ HẢI
ÁP DỤNG KỸ THUẬT PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP)
PHỤC VỤ CÔNG TÁC QUẢN LÝ ĐIỀU HÀNH Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01

Người hướng dẫn KH: PGS. TS Đỗ Trung Tuấn TÓM TẮT LUẬN VĂN THẠC SĨ

Xây dựng một hệ trợ giúp quyết định dựa vào dữ liệu, sử dụng phương pháp
luận xử lý phân tích trực tuyến (OLAP). Trong đó tập trung vào hai công việc chính
là tập hợp dữ liệu để tổ chức dữ liệu đa chiều, phân tích và hiển thị dữ liệu để trợ giúp
ra quyết định.
Luận văn gồm 3 chương:
Chương 1: Tổng quan các phương pháp khai thác dữ liệu
Chương 2: Hệ thống trợ giúp quyết định sử dụng phân tích đa chiều trong xử lý
phân tích trực tuyến
Chương 3: Xây dựng hệ thống trợ giúp quản lý với chức năng OLAP
3
Chương 1
TỔNG QUAN CÁC PHƯƠNG PHÁP
KHAI THÁC DỮ LIỆU
1.1. GIỚI THIỆU CÁC PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU
Việc dùng các phương tiện tin học để tổ chức và khai thác các CSDL đã được
phát triển từ những năm 60, nhiều CSDL đã được tổ chức, phát triển và khai thác ở
mọi qui mô và khắp các lĩnh vực hoạt động của xã hội.
Sự phát triển nhanh chóng của một lượng lớn dữ liệu được thu thập và lưu trữ
trong các CSDL lớn đã vượt ra ngoài khả năng của con người có thể hiểu được chúng
nếu không có những công cụ hỗ trợ tốt. Tình huống này đã đặt chúng ta trong hoàn
cảnh nhiều dữ liệu nhưng thiếu thông tin, thiếu tri thức. Với một khối lượng lớn dữ
liệu như vậy rõ ràng là các phương pháp thủ công truyền thống áp dụng để phân tích
dữ liệu như chia bảng không còn là phù hợp nữa Chính vì vậy, có một kỹ thuật mới ra
đời đó là “Khai phá dữ liệu”.

với lĩnh vực ứng dụng và dễ hiểu hơn cho người dùng.
1.1.5. Sử dụng các tri thức phát hiện được
Các tri thức khám phá được sẽ được củng cố, kết hợp lại thành một hệ thống,
đồng thời giải quyết các xung đột tiềm năng trong các tri thức đó. Các giai đoạn của
quá trình khám phá tri thức có mối quan hệ chặt chẽ với nhau trong bối cảnh chung
của hệ thống.
1.2. QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám phá tri thức. Thuật
ngữ khai phá dữ liệu còn được một số nhà khoa học gọi là phát hiện tri thức trong cơ
sở dữ liệu.
Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức
được chiết xuất ra. 5

Hình. Kiến trúc hệ thống khai phá dữ liệu
Kiến trúc của hệ thống khai phá dữ liệu có thể chia thành các thành phần chính như
trong hình.
1.3. CÁC PHƯƠNG PHÁP KHAI KHÁ DỮ LIỆU
1.3.1. Phân lớp dữ liệu
Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ liệu. Quá
trình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu (mỗi
mẫu một lớp).
1.3.2. Phân cụm dữ liệu
Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập
dữ liệu vào các cum, sao cho các đối tượng thuộc cùng một lớp là tương đồng.

dữ liệu. Tạo khối cho dữ liệu trong các bảng chiều và bảng sự kiện trong kho dữ liệu
và cung cấp khả năng thực hiện các truy vấn tinh vi và phân tích cho các ứng dụng
khách.
OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mà
nếu cho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc
sẽ mất rất nhiều thời gian.
1.4.2. Mô hình dữ liệu đa chiều
Các nhà quản lý kinh doanh có khuynh hướng suy nghĩ theo “nhiều chiều”. Ví dụ như
họ có khuynh hướng mô tả những gì mà công ty làm như sau:
 “Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác nhau, và
chúng tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”. 7
 Những người thiết kế kho dữ liệu thường lắng nghe cẩn thận những từ đó và
họ thêm vào những nhấn mạnh đặc biệt của họ như:
 “Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác nhau, và
chúng tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”.
Suy nghĩ một cách trực giác, việc kinh doanh như một khối dữ liệu, với các
nhãn trên mỗi cạnh của khối. Các điểm bên trong khối là các giao điểm của các cạnh.
Với mô tả kinh doanh ở trên, các cạnh của khối là Sản phẩm, Thị trường, và Thời
gian. Hầu hết mọi người đều có thể nhanh chóng hiểu và tưởng tượng rằng các điểm
bên trong khối là các độ đo hiệu quả kinh doanh mà được kết hợp giữa các giá trị Sản
phẩm, Thị trường và Thời gian. Các chiều được phân cấp theo loại. Ví dụ như chiều
Thời gian có thể được mô tả bởi các thuộc tính như Năm, Quý, Tháng và Ngày.
Vì vậy, nếu mỗi chiều chứa nhiều mức trừu tượng, dữ liệu có thể được xem từ
nhiều khung nhìn linh động khác nhau. Một số thao tác điển hình của khối dữ liệu

Các đặc điểm của dịch vụ OLAP:
 Dễ sử dụng: Bằng cách cung cấp các giao diện người dùng và các trợ giúp thực
hiện.
 Linh động: Mô hình dữ liệu mạnh cho định nghĩa khối và lưu trữ.
 Các khối có thể ghi: Cho các kịch bản phân tích dạng “what if”.
 Kiến trúc có thể co dãn: Cung cấp một sự đa dạng các kịch bản lưu trữ và giải
pháp tự động đối với “hội chứng bùng nổ dữ liệu” mà gây khó chịu cho các kỹ
thuật OLAP. 9
 Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu và khách/server
 Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng tuỳ ý.
2.1.2. So sánh OLAP với OLTP
Đặc trưng của các ứng dụng OLTP là các tác vụ xử lý tự động ghi chép dữ liệu
xử lý tác vụ của một tổ chức như ghi nhận đơn đặt hàng và các giao dịch ngân hàng
mà cần phải đọc hoặc cập nhật một vài mẩu tin dựa trên khoá chính của chúng.
Kho dữ liệu, mục tiêu là hỗ trợ quyết định cho các nhà quản lý. Tính chi tiết và
riêng lẻ của các mẩu tin thì ít quan trọng hơn tính lịch sử, tổng kết và hợp nhất của dữ
liệu.
Căn cứ vào đó, các cơ sở dữ liệu tác nghiệp được xây dựng để hỗ trợ tốt các tác
vụ OLTP.
2.1.3. Các mô hình lưu trữ hỗ trợ OLAP
Dịch vụ OLAP hỗ trợ nhiều mô hình lưu trữ dữ liệu khác nhau, mỗi mô hình
có các ưu và khuyết điểm riêng, chúng được sử dụng tuỳ theo mục đích khai thác.
2.1.3.1. Mô hình OLAP nhiều chiều (MOLAP)
Mô hình OLAP nhiều chiều (MOLAP) lưu trữ dữ liệu cơ sở và thông tin tổng

Nhiều Thấp Trung bình
Chi phí bảo trì Cao Thấp Trung bình

2.1.4. Kiến trúc khối của OLAP
Đối tượng chính của OLAP là khối, một thể hiện đa chiều của dữ liệu chi tiết
và tổng hợp. Một khối bao gồm một nguồn dữ liệu, các chiều, các độ đo và các phần
dành riêng.
2.1.5. Mô hình kiến trúc dịch vụ OLAP
Kiến trúc dịch vụ OLAP gồm 2 thành phần: Server và Khách

Hình. Kiến trúc dịch vụ OLAP
2.1.5.1. Kiến trúc thành phần Server 11
Dịch vụ OLAP của SQL Server cung cấp thành phần Server có khả năng tạo và
quản lý dữ liệu OLAP đa chiều, đồng thời cung cấp dữ liệu cho khách qua dịch vụ
PivotTable.
Các thao tác của thành phần Server bao gồm việc tạo các khối dữ liệu đa chiều
từ kho cơ sở dữ liệu quan hệ và lưu trữ chúng trong các cấu trúc khối đa chiều
(MOLAP), trong cơ sở dữ liệu quan hệ (ROLAP) hoặc kết hợp cả hai (HOLAP).
2.1.5.2. Kiến trúc thành phần Khách
Thành phần khách là dịch vụ PivotTable giao tiếp với OLAP server và cung
cấp giao diện cho các ứng dụng khách sử dụng truy cập dữ liệu OLAP trên server.
Các ứng dụng khách có thể sử dụng dịch vụ PivotTable để lấy dữ liệu từ cơ sở dữ liệu
OLAP.
2.2. HỆ THỐNG TRỢ GIÚP QUYẾT ĐỊNH

Phân tích nhạy cảm cố gắng giúp những nhà quản lý khi họ không chắc chắn
về độ chính xác, hoặc giá trị tương đối của thông tin, hoặc khi họ muốn biết sự tác
động của những sự thay đổi của thông tin vào đến mô hình. Có hai kiểu phân tích sự
nhạy cảm là phân tích sự nhạy cảm tự động và phương pháp thử và sai. Phương pháp
phân tích thử và sai chứa phân tích “What- if” mà ta xem xét sau đây.
2.2.3. Phân tích “What- if”
Một người làm mô hình tạo ra những dự đoán và những giả định để đánh giá
dữ liệu vào. Công việc này nhiều khi để đánh giá tương lai không chắc chắn. Khi mô
hình được giải quyết, các kết quả tất nhiên phụ thuộc vào những dữ liệu này.
Phân tích nhạy cảm cố gắng kiểm tra sự tác động của những sự thay đổi của dữ
liệu vào trên những giải pháp được đề nghị (Các biến kết quả). Kiểu này của phân
tích nhạy cảm được gọi là phân tích “ What – if”, bởi vì nó được cấu trúc như là “
Điều gì sẽ xảy ra cho giải pháp nếu biến vào, giả thiết, hoặc giá trị các tham số được
thay đổi ”.
2.2.4. Những đặc tính và những khả năng của DSS
Những đặc tính và khả năng chính của DSS
1. Cung cấp trợ giúp chính cho người ra quyết định trong những tình huống
không cấu trúc hoặc nửa cấu trúc;
2. Sự trợ giúp được cung cấp cho các mức quản lý khác nhau từ người thực thi
đến các nhà quản lý;
3. Sự trợ giúp cho cá nhân và cho cả nhóm;
4. DSS trợ giúp cho các giai đoạn của quá trình ra quyết định: Giai đoạn trí
tuệ, thiết kế, lựa chọn và cài đặt;
5. DSS trợ giúp cho sự đa dạng của quá trình ra quyết định và các kiểu quyết
định;
6. DSS thích nghi và mềm dẻo;
7. DSS dễ sử dụng;
8. DSS cố gắng nâng cao hiệu quả của quá trình ra quyết định;
Các phần tử này và giao diện với những thành phần khác của DSS được cho ở
hình vẽ.
2.2.8. Hệ thống tri thức 14
Nhiều bài toán phi cấu trúc và bán cấu trúc rất phức tạp, chúng yêu cầu những
tri thức tinh thông, những tri thức này cần thiết được bổ sung vào cho những khả
năng bình thường của DSS, những tri thức nâng cao được trang bị một thành phần
được gọi là quản trị tri thức.
2.2.9. Hệ thống giao diện người dùng
Thành phần hội thoại của DSS là phần mềm và phần cứng cung cấp giao diện
người dùng DSS.
2.2.10. Người dùng trong hệ thống DSS
DSS có hai lớp người dùng: Các nhà quản lý và các nhà chuyên môn.
2.2.11. Sự phân lớp DSS và sự trợ giúp của chúng
Có nhiều cách phân loại DSS, sau đây là một số cách điển hình:
 Kiểu của trợ giúp hướng dữ liệu so sánh với kiểu hướng mô hình.
 Độ phi thủ tục.
Sự trợ giúp được cung cấp theo cách của DSS: DSS có thể cung cấp nhiều kiểu cuả
trợ giúp.
2.2.12. Các công nghệ về DSS
Sprague và Carlson đã xác định 3 mức công nghệ của DSS là (i) DSS cụ thể; (ii) các
bộ tạo sinh DSS; và (iii) các công cụ DSS.
2.3. KẾT LUẬN CHƯƠNG
Chương 2 đề cập chi tiết về công cụ OLAP, giới thiệu dịch vụ OLAP của
Microsoft SQL Server, kiến trúc khối của OLAP và các dạng mô hình OLAP. Những

ngày càng nhiều. Người ta muốn tận dụng nguồn dữ liệu này để sử dụng cho những
mục đích hỗ trợ cho công việc kinh doanh ví dụ như cho mục đích thống kê hay phân
tích. Quá trình tập hợp và thao tác trên các dữ liệu này có những đặc điểm sau:
1. Dữ liệu tích hợp.
2. Theo chủ đề.
3. Biến thời gian.
4. Dữ liệu cố định.
3.1.2.2. Cấu trúc dữ liệu cho kho dữ liệu
Vì dữ liệu trong kho dữ liệu rất lớn và không có những thao tác như sửa đổi
hay tạo mới nên nó được tối ưu cho việc phân tích và báo cáo. Các thao tác với dữ 16
liệu của kho dữ liệu dựa trên cơ sở là Mô hình dữ liệu đa chiều, được mô hình vào
đối tượng gọi là khối dữ liệu.
3.1.2.3. Ngôn ngữ cho kho dữ liệu
Ngôn ngữ xử lý phân tích trực tuyến OLAP, rất phù hợp với kho dữ liệu, ngôn
ngữ này tương tự với ngôn ngữ truy vấn SQL và tập trung vào các câu lệnh sau:
1. Thu nhỏ: ví dụ nhóm dữ liệu theo năm thay vì theo quý.
2. Mở rộng: ví dụ mở rộng dữ liệu, nhìn theo tháng thay vì theo quý.
3. Cắt lát : nhìn theo từng lớp một. Ví dụ: từ danh mục bán hàng của Q1,
Q2, Q3, Q4 chỉ xem của Q1.
4. Thu nhỏ: bỏ bớt một phần của dữ liệu (tương ứng thêm điều kiện vào
câu lệnh WHERE trong SQL).
3.1.2.4. Cấu trúc của một hệ thống kho dữ liệu
Người ta thiết kế kho dữ liệu có ba tầng:
1. Tầng đáy;

Nhiều bảng dữ liệu, liên quan đến đào tạo và nghiên cứu khoa học được mô tả
trong cơ sở dữ liệu “quản lý nguồn nhân lực”.
3.2.2. Hạ tầng kĩ thuật
Đề tài thực hiện trên máy đơn. Mô hình tương lai yêu cầu cơ sở dữ liệu đặt trên
máy chủ cơ sở dữ liệu của Học viện. Các quyết định liên quan đến quản lý nguồn
nhân lực sẽ thực hiện trên mạng Intranet, cho phép các người quản lý điều khiển tác
nghiệp. Các chức năng tìm kiếm, trích rút dữ liệu và xử lý dữ liệu, theo hệ thống cơ
sở dữ liệu truyền thống được hệ quản trị cơ sở dữ liệu SQL SERVER đảm nhiệm.
Một số chức năng trợ giúp quyết định do khối OLAP đảm nhiệm. Phần mềm
với các chức năng OLAP gắn với hệ quản trị SQL SERVER, và chức năng OLAP
trong các bảng tính sẽ giúp người quản lý tin học hóa quá trình của họ.
3.2.3. Hỏi dữ liệu nhờ chức năng của hệ quản trị cơ sở dữ liệu
Hệ quản trị SQL SERVER cho phép đặt các câu hỏi về dữ liệu thông qua ngôn
ngữ SQL. Tuy tiếp cận này hiệu quả, việc dùng câu hỏi SQL không thuận tiện cho
người dùng không chuyên ICT. Một số câu hỏi đơn giản được thực hiện trong môi
trường SQL SERVER, rồi xuất dữ liệu ra tệp, dưới dạng tệp của MS EXCEL, rồi
được xử lý nhờ các chức năng OLAP của bảng tính.
Hệ quản trị cơ sở dữ liệu có thể giải thích kết quả trả lời câu hỏi dữ liệu theo
vết khai thác câu hỏi. 18
3.3. DỮ LIỆU TRỢ GIÚP QUYẾT ĐỊNH
Dữ liệu được mô tả, tổ chức và lưu trữ dưới dạng các bảng quan hệ trong các
cơ sở dữ liệu theo mô hình quan hệ.
Tuy nhiên, chúng được thể hiện lại trong các bảng tính, phù hợp việc điều hành
của cán bộ. Một số dữ liệu minh hoạ ở đây được thể hiện dưới dạng bảng tính MS

cường công tác quản lý nguồn nhân lực tại Học viện, đề tài luận văn đã tổ chức cơ sở
dữ liệu về đào tạo và nghiên cứu khoa học, sử dụng hệ quản trị cơ sở dữ liệu SQL
SERVER. Tuy các dữ liệu đơn giản, đủ để thể hiện vai trò khai phá dữ liệu của kĩ
thuật OLAP.
Kiến nghị và hướng nghiên cứu tiếp theo
Đề tài cần tiếp tục với hệ thống thực, trên mạng Intranet của Học viện. Một số
cơ sở dữ liệu về đào tạo và nghiên cứu khoa học cần được thiết kế chuẩn hóa, đảm
bảo tính đúng đắn của dữ liệu và kết quả xử lý.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status