Tiểu luận môn Hệ hỗ trợ quyết định ỨNG DỤNG OLAP TRONG DATA WAREHOUSE - Pdf 27

Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
o0o
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
ỨNG DỤNG OLAP TRONG
ỨNG DỤNG OLAP TRONG
DATA WAREHOUSE
DATA WAREHOUSE
GVHD : PGS. TS. ĐỖ PHÚC
HVTH : NGUYỄN THỊ MAI
MÃ HV : CH1301038
LỚP : CAO HỌC KHÓA 8
TP.HCM T6 – 2014
TP.HCM T6 – 2014
SVTH: Nguyễn Thị Mai 1
Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc
MỤC LỤC
MỞ ĐẦU 4
I. NHU CẦU THÔNG TIN CỦA CÁC DOANH NGHIỆP 5
2.1 Truy cập dễ dàng 9
2.2.1 Thao tác cuộn lên (roll-up) 31
2.2.2 Thao tác khoan xuống (drill-down) 32
2.2.3 Thao tác cắt lát (slice) 32
2.2.4 Thao tác phân tích theo ô (dice) 32
2.2.5 Thao tác xoay (pivot/ rorate) 33
PHỤ LỤC THUẬT NGỮ VÀ VIẾT TẮT 47
SVTH: Nguyễn Thị Mai 2
Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc
LỜI CẢM ƠN

cho một tổ chức doanh nghiệp.
SVTH: Nguyễn Thị Mai 4
Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc
I. NHU CẦU THÔNG TIN CỦA CÁC DOANH NGHIỆP
1. Nhu cầu thông tin nghiệp vụ
Công ty A là một đối thủ quốc tế trong lĩnh vực sản xuất xe hơi và đang lập kế
hoạch mở rộng phạm vi thị trường toàn cầu với sự khởi đầu bằng hàng loạt chuỗi
mô tô mới. Từ khi công ty A chiếm lĩnh thị trường ở nhiều lĩnh vực khác nhau
trên toàn cầu, sự phát triển và lịch trình cho các bước tiếp theo là điều vô cùng
quan trọng để dẫn đến thành công. Điều cần thiết là thông tin chính xác về thời
kỳ khởi động, cho dù các công ty khác sẽ tham gia vào phong trào, việc mua mô
hình khách hàng mục tiêu hỗ trợ kế hoạch đề ra và nếu không có gì thay đổi, nên
đưa vào chính sách khuyến mãi cục bộ để có thể thu được lợi nhuận cao nhất. Tất
cả những câu hỏi này vẫn còn để ngỏ không với sự hiện diện của hệ hỗ trợ ra
quyết định tiên tiến nào. Với sự hỗ trợ của Hệ hỗ trợ ra quyết định có khả năng
tạo ra tri thức nghiệp vụ, công ty A có thể dễ dàng dẫn đầu trong cuộc cạnh tranh
của họ.
Việc kinh doanh ngày nay phải đối mặt với nhiều thử thách, đặc biệt là sự thu
hẹp nhanh chóng của thế giới. Hầu hết các doanh nghiệp lớn ngày nay bắc cầu
qua nhiều quốc gia, và công nghệ như Internet đóng play truant đến nguyên nhân
của toàn cầu hóa. Trong môi trường kinh doanh cạnh tranh, những người giỏi
nhất và nắm hầu hết thông tin, dường như chắc chắn là các nhà lãnh đạo. Nhưng
chỉ đơn thuần là sở hữu thông tin với số lượng lớn không đủ để đạt được lợi thế
hơn các đối thủ kinh doanh. Điều này giống như có tất cả nhưng lại không có gì.
Phân tích thông tin thành tri thức nghiệp vụ toàn diện là nhu cầu mỗi ngày, mỗi
giờ của doanh nghiệp.
Một số nhu cầu thông tin cho các doanh nghiệp hiện đại:
• Quyết định thông tin quan trọng.
• Các mô hình, các mối quan hệ và phân cấp trong xu hướng thị trường
• Các kiến thức nghiệp vụ liên quan đến đối thủ cạnh tranh.

tin hoạt động của ứng dụng đó. Một tổ chức (organization, company ) có thể
có nhiều ứng dụng, do vậy có nhiều database khác nhau. Mỗi ứng dụng thường
tập trung vào một lĩnh vực hoạt động hay kinh doanh (domain) cụ thể nào đó.
Ví dụ: một ngân hàng thường sẽ có một ứng dụng banking để quản lý các tài
khoản và giao dịch cá nhân như checking account (debit card), saving account,
credit card Đồng thời, ngân hàng cũng có một ứng dụng khác chuyên quản lý
về các khoản vay, chẳng hạn vay tiền để mua nhà hoặc để đi học. Như vậy
SVTH: Nguyễn Thị Mai 7
Hình.1. Dữ liệu hai chiều đơn
giản
Hình.2. Dữ liệu đa chiều với trục thời gian
Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc
trong trường hợp này, ít nhất có 2 cơ sở dữ liệu hoạt động (operational
database) cùng tồn tại trong một ngân hàng.
Operational database thứ nhất chuyên về các giao dịch cá nhân (banking
transaction) hàng ngày. Cuối tháng công ty trả lương cho bạn bằng cách nạp
(deposit) một khoản tiền vào tài khoản của bạn. Sau đó, bạn chỉ việc đi đến
ATM để rút tiền. Như vậy, có ít nhất 2 bản ghi giao dịch (transaction record) đã
được chèn vào database.
Tương tự, khi bạn cần vay ngân hàng để mua một căn hộ mới, thông tin về
bạn sẽ được nạp vào một operational database chuyên về các khoản vay. Mỗi
tháng, ngân hàng yêu cầu bạn đóng một khoản tiền để trả nợ bao gồm cả lãi
suất. Một transaction record sẽ được đưa vào database chuyên về cho vay hàng
tháng.
Như vậy, có thể thấy 2 cơ sở dữ liệu ở trên được dùng với mục đích duy trì
hoạt động hàng ngày của ngân hàng. Do vậy, được gọi là Operational
Database.
Khi ngân hàng của bạn quyết định đưa ra một chiến lược kinh doanh mới để
thúc đẩy các hoạt động trong mảng cho vay bởi đây là thị trường rất tiềm năng.
Để làm được điều này, ngân hàng cần biết đối tượng nào có nhu cầu mua nhà

Thông tin lưu trữ trong data warrehouse phải trực quan và dễ hiểu đối
với người dùng. Nói cách khác, dữ liệu nên được trình bày thông qua các
tên gọi quen thuộc và gần gũi với nghiệp vụ của người dùng.
Có thể phân chia người dùng (business user) ra 2 loại.
Người dùng cấp thấp chủ yếu thao tác trên các thông tin chi tiết.
Chẳng hạn như nhập số liệu về một khách hàng, theo dõi các giao dịch
của khách hàng cụ thể đó Báo cáo cho dạng công việc kiểu này
thường là thông tin chi tiết về một khách hàng, hoặc một danh sách các
SVTH: Nguyễn Thị Mai 9
Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc
khách hàng. Những báo cáo kiểu này có thể lấy ra trực tiếp từ cơ sở dữ
liệu hoạt động (operational database).
Người dùng cấp cao lại chủ yếu xử lý dữ liệu ở mức độ tổng hợp, để
từ đó phân tích rồi đưa ra các quyết định mang tính định hướng cho
nghiệp vụ. Họ không quan tâm đến một khách hàng cụ thể nào cũng
như không cần phải để ý cả một danh sách 1000 khách hàng. Thay vào
đó, cái làm họ bận tâm là số lượng khách hàng sử dụng dịch vụ
tăng/giảm 25% trong quý IV so với quý III cùng năm và tăng/giảm
45% so với cùng quý IV năm ngoái. Từ các thông số này, họ mới đưa
ra quyết định sẽ làm gì để cải thiện tình hình hoặc đặt ra mục tiêu tăng
trưởng 30% cho quý IV năm tới. Đây là đối tượng chủ yếu của Data
Warehouse. Do vậy, thông tin cho loại đối tượng này càng dễ hiểu và
gần với thực tế càng tốt. Một ví dụ dễ thấy là thay vì sử dụng các code,
data warehouse nên thể hiện thông tin bằng các mô tả hoặc tên.
Một điều nữa cần bàn đến là tốc độ truy cập data warehouse phải
nhanh. Do phải xử lý một số lượng lớn bản ghi cùng một lúc, hiệu suất là
một trong những yêu cầu phải có của một kho dữ liệu. Đây là nơi mà các
kỹ thuật tuning database (cơ sở dữ liệu điều chỉnh) được dịp phát huy hết
công suất: query tuning (điều chỉnh truy vấn), query hints (gợi ý truy
vấn), indexes (chỉ mục), parallel processing (xử lý song song), partition

- Nếu dữ liệu có cùng tên, chúng bắt buộc phải cùng chỉ đến một thực thể.
- Ngược lại, nếu dữ liệu chỉ đến các thực thể khác nhau, chúng phải được
đặt tên khác nhau.
Đây chính là những công việc chủ đạo của quá trình ETL (Extract -
Transform - Load).
SVTH: Nguyễn Thị Mai 11
Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc
2.4 Thích nghi với thay đổi
Thay đổi là điều không thể tránh khỏi cho bất cứ ứng dụng nào, không
riêng gì data warehouse. Do vậy, data warehouse cần phải được thiết kế để
xử lý những thay đổi có thể xảy ra. Có nghĩa là khi có thay đổi mới, dữ liệu
cũ trong data vẫn phải được bảo tồn tính đúng đắn.
2.5 Bảo mật
Dữ liệu trong data warehouse đến từ nhiều nguồn khác nhau, do vậy
hiển nhiên việc bảo đảm những thông tin không lộ ra ngoài là một yêu cần
thiết yếu. Để lộ dữ liệu của một database đã là cực kỳ nghiêm trọng. Để lộ
dữ liệu từ nhiều database là thảm họa.
2.6 Hỗ trợ ra quyết định
Đây có thể nói là mục tiêu quan trọng nhất của doanh nghiệp khi xây
dựng data warehouse. Mặc dù có những trường hợp xây dựng một cơ sở dữ
liệu tập trung để thu thập data từ nhiều nguồn khác nhau, nhưng những
trường hợp như vậy nên gọi là data integration (tích hợp dữ liệu) chứ
không phải data warehouse. Một doanh nghiệp trước khi xây dựng data
warehouse, nên tự đặt câu hỏi liệu data warehouse đó có giúp ích gì trong
việc ra quyết định kinh doanh của doanh nghiệp không.
Nói một cách nôm na, trong phạm vi của data warehouse, người ta muốn
dựa vào thông tin để từ đó thấy được cần phải làm những gì để kinh doanh
đạt kết quả tốt nhất.
Công cụ gần nhất và dễ dùng nhất là dựa trên các báo cáo (report) và
phân tích. Theo một số kinh nghiệm cho thấy người dùng thường tạo ra các

2. Khu vực xử lý (Staging Area).
3. Khu vực trình bày (Data Presentation Area).
SVTH: Nguyễn Thị Mai 13
Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc
4. Công cụ truy cập dữ liệu (Data Access Tools).
Các thành phần trên tương tác với nhau như sau:
- Data từ Nguồn dữ liệu được nạp vào Khu vực xử lý.
- Data đã qua xử lý được nạp từ Khu vực xử lý vào Khu vực trình bày.
- Công cụ truy cập dữ liệu do người dùng cuối thao tác sẽ làm việc trên dữ
liệu trong Khu vực trình bày.
3.1 Nguồn dữ liệu
Nói một cách đơn giản, đây là nơi mà dữ liệu xuất phát và thường là cơ sở
dữ liệu của một ứng dụng nào đó. Nói một cách khách quan, nguồn dữ liệu là
một thành phần nằm ngoài data warehouse. Như đã trình bày trong phần trước,
dữ liệu của một hệ thống data warehouse thường đến từ nhiều nguồn khác
nhau. Ví dụ: trong cùng một tổ chức, có phòng ban nhập dữ liệu vào Access
database, trong khi phòng ban khác lại dùng bảng biểu Excel. Thậm chí có nơi
dữ liệu được xuất ra từ những mainframe server 50, 60 tuổi theo dạng csv file.
Do tính chất đa dạng của nguồn dữ liệu, nên các phương pháp chuyển tải dữ
liệu từ nhiều nguồn về cùng một chỗ khá phong phú. Tùy theo quy định riêng
của từng tổ chức, bạn có thể được phép truy cập trực tiếp dữ liệu nguồn. Nhưng
cũng có nơi dữ liệu chỉ được truy cập qua Email, FTP, File Sharing Thậm chí
bạn có thể phải tạo ra các modules riêng để truy cập Web Services để lấy dữ
liệu về. Do đó, làm data warehouse không chỉ đơn thuần là database mà đòi hỏi
các nhà phát triển phải có kiến thức rộng và tổng hợp cũng như những kỹ năng
lập trình ứng dụng khác.
Xác định được dữ liệu đến từ những nguồn nào là một phần quan trọng trong
việc xây dựng kiến trúc cho hệ thống data warehouse (data warehouse
architecture).
SVTH: Nguyễn Thị Mai 14

SVTH: Nguyễn Thị Mai 15
Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc
cảm thấy có thể nạp dữ liệu trực tiếp từ nguồn vào data warehouse database, bỏ
qua staging area. Nhưng như đã trình bày ở trên, cách làm này tuy có thể tiết
kiệm được thời gian và không gian nhưng không hề ổn định. Những người làm
data warehouse lâu năm có một nguyên tắc vàng: "Luôn phải có staging
area".
3.3 Khu vực trình bày
Đây chính là data warehouse database. Hiện tại, phần lớn các data warehouse
database đều là cơ sở dữ liệu quan hệ (relational database) bởi đây là loại cơ sở
dữ liệu thông dụng nhất hiện nay trên thị trường. Dữ liệu trong relational
database được tổ chức theo dạng hình sao (star schema), về cơ bản tức là mô
phỏng tính đa chiều trong cơ sở dữ liệu quan hệ. Data warehouse database có
thể được tổ chức dưới dạng cube, tức là đa chiều theo đúng nghĩa. Cho dù được
lưu trữ theo kiểu gì, nguyên tắc thiết kế đa chiều là giống nhau giữa 2 loại
database.
Do nhu cầu của BI ngày càng cao, trên thị trường hiện nay xuất hiện khá
nhiều cơ sở dữ liệu thương mại và mã nguồn mở dành riêng cho kho dữ liệu.
Đặc điểm của các cơ sở dữ liệu này là phải xử lý được một khối lượng lớn dữ
liệu và tốc độ nhanh.
3.4 Công cụ truy cập
Có thể hiểu đây là các công cụ để làm báo cáo. Ở mức thấp nhất, đó có thể là
một công cụ soạn SQL đơn giản. Ở mức cao hơn, đó có thể là các bộ công cụ
chuyên về báo cáo như Business Objects, Cognos, Oracle BI Các công cụ
phân tích cũng ngày càng được sử dụng rộng rãi. Những công cụ thương mại kể
trên đều bao gồm các công cụ để tạo báo cáo một trực quan (bằng cách sinh ra
các SQL) và các công cụ phân tích truy cập vào các OLAP databases (cube).
SVTH: Nguyễn Thị Mai 16
Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc
4. Kiến trúc hệ thống kho dữ liệu

hỏi đặc biệt về các sự kiện quá khứ. Nó có thể chỉ cấp phát thông tin liên quan
trực tiếp đến một số yếu tố hoặc lĩnh vực nào đó.
III. OLAP
1. Định nghĩa
Trái với hệ thống lưu trữ dữ liệu thông thường, nơi dữ liệu tồn tại dưới
hình thức các quan hệ, OLAP (On Line Analytical Processing) cung cấp cái
nhìn tốt hơn về dữ liệu tiềm năng chưa được khai thác. Nó hỗ trợ khung nhìn
đa chiều về dữ liệu, tạo ra sự tăng đa tạp về nội dung toong tin của cùng một
SVTH: Nguyễn Thị Mai 18
Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc
lượng dữ liệu. OLAp tạo ra truy cập hiệu quả, nhanh chóng, nhất quán đến
các khung nhìn đa dạng khác nhau của thông tin.
OLAP có thể được định nghĩa với 5 từ khóa: Fast Analys of Shared
Multimensional Information.
Fast: như là hầu hết các truy vấn phức tạp yêu cầu không tới 5 giây để xử
lý. Analys ám chỉ quá trình phân tích thông tin của tất cả các loại liên quan
để xử lý các truy vấn phức tạp và thiết lập tiêu chuẩn rõ ràng cho kết quả
truy vấn. Thông tin được sử dụng để phân tích nhìn chung được lấy từ các
nguồn được chia sẻ (Shared) như là kho dữ liệu. Thông tin có thể liên quan
đến một hoặc nhiều chiều. Ví dụ, một tập hợp đặc biệt các dữ liệu nghiệp vụ
có thể liên quan, khác nhau đến số liệu bán hàng, xu hướng thị trường, sức
mua của người tiêu dùng, điều kiện cung cấp và tính thanh khoản của doanh
nghiệp. Được trình bày trong chi tiết đa chiều (Multidimensional)), như
thông tin có thể hữu dụng và quan trọng trong việc ra quyết định quản lý.
2. Các dạng OLAP server
Nói một cách hợp lý, các OLAP server trình bày cho người dùng doanh
nghiệp các dữ liệu có cấu trúc đa chiều từ các kho dữ liệu hay kho dữ liệu
theo chủ đề, mà không cần quan tâm dữ liệu được chứa như thế nào và nằm
ở đâu. Tuy nhiên, kiến trúc vậy lý và sự thi hành của các OLAP server cần
phải chú ý đến việc cấp phát nơi lưu trữ dữ liệu. Các quá trình thực thi của

Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc
Các MOLAP server
Ưu: do truy cập trực tiếp vào cell nên thực thi nhanh, cho phép chỉ
mục nhanh đến các dữ liệu tổng hợp đã được tính trước.
Khuyết: khó co dãn và dư thừa (có nhiều cell trống), khả năng lưu trữ
sẽ thấp nếu tập dữ liệu thưa thớt.
Nhiều server MOLAP chấp nhận sự thể hiện lưu trữ hai mức độ dày
đặc và thưa thớt của các tập dữ liệu: những khối con dày đặc được
nhận dạng và chứa trong cấu trúc mảng, trong khi những khối con
thưa thớt dùng kỹ thuật nén để tận dụng khả năng chứa có hiệu quả.
2.3 Các HOLAP (Hybrid OLAP) server
Hướng lai ghép OLAP là sự kết hợp hai kỹ thuật OLAP và
MOLAP
Dữ liệu chính được lưu dưới dạng ma trận đa chiều (MOLAP), và
dữ liệu chi tiết (dữ liệu để drill-down) thì lưu dưới dạng các bảng
quan hệ (OLAP)
SVTH: Nguyễn Thị Mai 21
Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc
Các ROLAP server
Ưu:
Kết hợp khả năng co dãn của ROLAP và năng suất của MOLAP
Linh họat với người dùng
Ví dụ: Microsoft SQL Server 2000 ứng dụng server lai ghép này
Specialized SQL server:
Với sự phát triển của yêu cầu trên tiến trình OLAP trong CSDL
quan hệ, một số hệ thống CSDL dùng các Specialized SQL server để
cung cấp các truy vấn đặc trưng trên lược đồ hình sao và lược đồ bông
tuyết trong môi trường read-only.
Hầu hết các hệ thống kho dữ liệu chấp nhận kiến trúc server-client. Các kho
dữ liệu quan hệ cư trú tại kho dữ liệu/ kho dữ liệu theo chủ đề của server site.

Dữ liệu có thể được truy vấn trực tiếp với sự kết hợp của nhiều chiều, thông
qua các truy vấn cơ sở dữ liệu phức tạp.
2.1 Một số khái niệm
Một mô hình đa chiều lưu trữ dữ liệu liên quan đến hai loại bảng là fact
table và dimension table.
2.3.2 Fact table
Fact table có thể được hiểu như là bảng chứa các dữ liệu có tính
chất đo lường. Một fact (hay còn gọi là measure) trong data
warehouse được dùng để minh họa cho một trường (field/column)
chứa một giá trị đo lường được và đóng một vai trò quan trọng với
business. Trên thực tế, ta hay gặp nhất các fact ở dạng số (numeric)
và có tính chất cộng (additive).
Dưới đây là một ví dụ đơn giản về một fact table:
SVTH: Nguyễn Thị Mai 24
Hình.6.Hình.5.
Hình.5.
Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc
Daily Sales Fact Table
Date Key (FK)
Product Key (FK)
Store Key (FK)
Quantity Sold
Dollar Sales Amount
Có thể dễ dàng nhận thấy fact table Daily Sales chỉ có 2 loại dữ liệu chính:
Foreign Key và Fact. Date Key, Product Key, và Store Key là các foreign
keys. Quantity Sold và Dollar Sales Amount là các fact (measure). Date
Key, Product Key, và Store Key liên kết đến các dimension table tương
ứng là Date, Product, Store. Ta sẽ nói về dimension table ở phần sau.
Với cách tổ chức như trên, việc tính tổng lượng hàng hóa bán ra hoặc tổng
thu nhập khá là đơn giản. Ta chỉ việc thực hiện phép toán cộng trên các


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status