Công nghệ cơ sở dữ liệu cho các hệ thống hỗ trợ quyết định
Tạo ra một khung hỗ trợ hiệu quả cho hệ thống hỗ trợ ra quyết định - một trong số
đó sẽ thúc đẩy dữ liệu kinh doanh từ nhiều nguồn rời rạc rạc - là nhiệm vụ khó khăn
nhưng khả thi.
Hệ thống hỗ trợ quyết định là nòng cốt của kinh doanh dựa trên cơ sở hạ tầng CNTT, Bởi
vì chúng cung cấp cho công ty một cách chuyển đổi các thông tin kinh doanh sang kết quả cụ
thể và hữu ích hơn. Thu thập , duy trì, và phân tích lượng dữ liệu lớn, tuy nhiên,để thực hiện
nhiệm vụ to lớn này có liên quan đến những thách thức đối với kỹ thuật và chi phí mà đòi hỏi sự
đảm bảo của tổ chức.
Hệ thống xử lý giao dịch trực tuyến cho phép các tổ chức thu thập lượng lớn dữ liệu kinh
doanh hàng ngày. Ứng dụng OLTP thuộc kiểu tự động hóa cấu trúc, các nhiệm vụ thường lặp đi
lặp lại, như là nhập đơn hàng hay giao dịch ngân hàng. Cụ thể , dữ liệu cập nhật hàng ngày từ
các điểm khác nhau độc lập phải được tổng hợp ở một địa điểm duy nhất trước khi các nhà phân
tích có thể phân tích đưa ra kết quả tổng hợp. Hàng ngày, những người quản lý sẽ sử dụng những
dữ liệu tổng hợp này để ra quyết định. Tất cả mọi việc từ quản lý hàng tồn kho đến việc đặt hàng
qua thư điện tử.
CÁC THÀNH PHẦN CỦA HỆ THỐNG HỖ TRỢ QUYẾT ĐỊNH
Một hệ thống hỗ trợ quyết định thành công là một hệ thống sáng tạo phức tạp gồm nhiều
thành phần.Một ví dụ cụ thể về kinh doanh,là Công ty FootWear Seller , giúp hình dung về một
hệ thống hỗ trợ quyết định bao gồm nhiều thành phần, , FSC sản xuất giày dép và bán thông qua
hai kênh , trực tiếp cho khách hàng và thông qua các đại lý. Giám đốc điều hành tiếp thị của FSC
cần phải trích xuất các thông tin sau đây từ các dữ liệu kinh doanh tổng hợp của công ty:
• Báo cáo của 5 tiểu bang có doanh số tăng cao nhất về loại mặt hàng dành cho thanh
thiếu niên trong năm qua
• Tổng doanh số bán giày dép của thành phố New York trong tháng qua của mặt hàng
dành cho gia đình.
• 50 thành phố có lượng khách hàng cao nhất.
• 1 triệu khách hàng thích mua kiểu giày mới Walk – on – Air
Trước khi xây dựng một hệ thống cung cấp thông tin hỗ trợ ra quyết định này, các nhà phân tích
của FSC phải giải quyết ba vấn đề cơ bản:
• Thu thập những dữ liệu gì, mô hình hóa dữ liệu và quản lý lưu trữ nó thế nào?
cách tiếp cận mạnh mẽ, tin cậy và hiệu quả để lưu trữ và quản lý khối lượng lớn dữ liệu. Vấn đề
quan trọng nhất liên quan đến xây dựng kho dữ liệu là thiết kế cơ sở dữ liệu, vừa hợp lý và hữu
hình. Xây dựng một sơ đồ hợp lý cho doanh nghiệp đòi hỏi phải có mô hình kinh doanh lớn.
THIẾT KẾ CƠ SỞ DỮ LIỆU HỢP LÝ.
Trong thiết kế lược đồ hình sao, cơ sở dữ liệu thực tế là bao gồm một bảng mô tả tất cả
các giao dịch và một bảng kích thước cho mỗi thực thể. Đối với các công ty FSC ictitious, mỗi
giao dịch bán hàng liên quan đến một số cơ quan, khách hàng, nhân viên bán hàng, một sản
phẩm, một đơn đặt hàng, một ngày giao dịch, và các thành phố nơi giao dịch xảy ra. Mỗi giao
dịch có các thuộc tính đo lường như số lượng bán, tổng số tiền khách hàng thanh toán.
Mỗi bộ trong bảng thực tế bao gồm một con trỏ đến từng đối tượng trong một giao dịch.
Và số các biện pháp liên quan đến giao dịch. Bảng một chiều bao gồm các cột tương ứng với
các thuộc tính của thực thể. Tính toán tham gia giữa một bảng thực tế và một bộ các bảng một
chiều thì hiệu quả hơn tính toán một loạt các trong quan hệ tùy ý.
Tuy nhiên một số thực thể được được kết hợp với hệ thống phân cấp mà lược đồ phân cấp
mô hình sao đó không hỗ trợ một cách rõ ràng. Một hệ thống phân cấp là một nhóm đa cấp trong
đó mỗi cấp độ bao gồm một nhóm tách rời các giá trị ở cấp độ ngay bên dưới nó. Ví dụ, tất cả
sản phẩm có thể được nhóm lại thành một tập rời nhau về chủng loại , bản thân chúng tự nhóm
lại thành một bộ tách rời nhau.
Mô hình dạng bông tuyết là cải tiến của mô hình hình sao trong đó hệ thống phân cấp
được thể hiện rõ bằng việc chuẩn hóa kích thước bảng. Trong lược đồ sao mô tả trong hình 2.
Một tập hợp các thuộc tính mô tả mỗi chiều và có thể liên quan thông qua một quan hệ hệ thống
phân cấp. Ví dụ, kích thước sản phẩm của FSC bao gồm năm thuộc tính: tên sản phẩm (Running
Show 2000), thể loại (Sport), Sản phẩm gia đình (Shoe), giá ($ 80), và tỷ suất lợi nhuận (80 phần
trăm).
Hình 2 Sơ đồ bông tuyết giả thuyết cho các Công ty bán giày dép. Một tập hợp các thuộc
tính mô tả mỗi chiều và có liên quan thông qua một hệ thống phân cấp mối quan hệ.
THIẾT KẾ CƠ SỞ DỮ LIỆU VẬT LÝ
Hệ thống cơ sở dữ liệu sử dụng thêm các cấu trúc như chỉ mục, khung nhìn để có thể xử
lý hiệu quả các truy vấn phức tạp. Xác định tập chỉ mục và khung nhìn là vấn đề khó trong thiết
kế vật lý. Trong khi tìm kiếm chỉ mục có thể hiệu quả cho các truy vấn dữ liệu chọn lọc,truy vấn
mục.
• Xác định quan điểm cụ thể hóa .
• Khai thác quan điểm cụ thể hóa để trả lời truy vấn.
• Cập nhật các quan điểm cụ thể hóa trong quá trình tải lên và làm mới
Bởi vì cụ thể hóa quan điểm đòi hỏi rất lớn về không gian các giải pháp hiện đang áp
dụng chỉ hỗ trợ một lớp hạn chế các quan điểm cụ thể có cấu trúc đơn giản.
ỨNG DỤNG PHÂN TÍCH TRỰC TUYẾN
Trong một ứng dụng phân tích trực tuyến điển hình, một số biện pháp tập hợp truy vấn ở
cấp cao hơn trong kích thước hệ thống phân cấp. Một ví dụ là các truy vấn tiếp thị FSC đầu tiên
yêu cầu một loạt các biện pháp phân cấp tổng hợp năm tiểu bang báo cáo mức tăng cao nhất
trong loại sản phẩm bán hàng dành cho thanh thiếu niên trong năm qua, Trường Tiểu bang và
năm là cái gốc của các trường dữ liệu thành phố và ngày.
Trong điều kiện của kho dữ liệu FSC, một phiên OLAP điển hình để xác định khu vực
bán hàng giày thể thao trong quý cuối cùng có thể tiến hành như sau.
• Các nhà phân tích sử dụng truy vấn chọn đưa ra tổng hợp (bán hàng) bởi nhóm
đất nước để xem sự phân phối bán giày thể thao trong quý cuối cùng trên tất cả
các quốc gia.
• Sau khi lựa chọn được một đất nước với kết quả là doanh thu bán hàng cao nhất
hoặc thấp nhất so với quy mô thị trường, các nhà phân tích vấn đề các truy vấn
khác nhau để tính toán tổng doanh thu trong mỗi tiểu bang của đất nước đó để
hiểu lý do có kết quả doanh thu đó.
Các nhà phân tích tìm hiểu thông tin dữ liệu xuống hệ thống phân cấp các thành phố liên
quan, Giống như giảm móc nối của hệ thống phân cấp từ những tóm tắt nhất đến mức chi tiết
nhất gọi là drill-down. Trong một hoạt động rollup, các nhà phân tích đi lên một cấp có lẽ từ cấp
tiểu bang đến cấp đất nước trong kích thước một hệ thống phân cấp.
Từ khóa OLAP liên quan đến vấn đề bao gồm các khái niệm mô hình dữ liệu và kiến trúc
máy chủ.
MÔ HÌNH DỮ LIỆU KHÁI NIỆM OLAP
Mô hình đa chiều được thể hiện trong hình 3 sử dụng một số biện pháp như phân tích đối
tượng của nó. Mỗi biện pháp trong tập hợp trung tâm mô hình dữ liệu khái niệm phụ thuộc vào
của người dùng trong thuật ngữ materialized views thích hợp và tạo ra nhiều lệnh SQL cho máy
chủ back-end. Họ cũng cung cấp thêm các dịch vụ như lập lịch and quản lý tài sản. Máy chủ
ROLAP khai thác các khả năng mở rộng và các tính năng giao dịch của hệ thống quan hệ, nhưng
không phù hợp giữa kiểu truy vấn OLAP và SQL có thể tạo nút thắt cổ chai trong các máy chủ
OLAP.
Tắc nghẽn là vấn đề nhỏ trong đặc trưng của OLAP – các SQL mở rộng thực hiện trong
các máy chủ Oracle, IBM DB2 và Microsoft SQL Server. Các chức năng như trung bình, chế độ,
và phần trăm được mở rộng từ các chức năng tổng hợp. Tính năng bổ sung khác bao gồm tính
toán tổng hợp trên cửa sổ di chuyển, tổng số, điểm dừng để tăng cường hỗ trợ cho các ứng dụng
báo cáo.
Bảng tính đa chiều yêu cầu gộp nhóm các bộ thuộc tính khác nhau. Jim Gray và các đồng
nghiệp đề xuất 2 thao tác – roll-up và cube – làm tăng thêm SQL và giải quyết yêu cầu này. Roll-
up của danh sách các thuộc tính như là sản phẩm, năm, thành phố trên 1 tập kết quả tổng hợp là
kết quả của bộ câu trả lời các ứng dụng sau:
* Nhóm theo sản phẩm, năm và thành phố
* Nhóm theo sản phẩm, năm và
* Nhóm theo sản phẩm
Cho một danh sách k cột, mỗi thao tác trên khối lập phương cung cấp bởi một nhóm là sự
kết hợp của k cột. Nhiều hoạt động nhóm bởi như vậy có thể được thực hiện một cách hiệu quả
bằng cách nhận ra sự tương đồng giữa chúng. Khi áp dụng, tính toán trước có thể nâng cao hiệu
suất máy chủ OLAP.
Máy chủ MOLAP (multidimensional OLAP)
Máy chủ MOLAP là kiến trúc máy chủ gốc, mà không khai thác các chức năng của quan
hệ back-end nhưng lại trực tiếp hỗ trợ các view đa chiều thông qua công cụ lưu trữ đa chiều.
MOLAP cho phép thực hiện các truy vấn đa chiều trên các lớp lưu trữ thông qua bản đồ. Ưu
điểm chính của MOLAP là thuộc tính indext tốt. Nhược điểm của nó là kém trong việc lưu trữ,
đặc biệt khi các dữ liệu thưa thớt. Nhiều máy chủ thích ứng với dữ liệu thưa thớt thông qua việc
lưu trữ đại diện mức 2 và nén. Trong lưu trữ đại diện hoặc là trực tiếp hoặc là sử dụng các công
cụ thiết kế, người sử dụng xác định tập các mảng phụ một hoặc hai chiều đại diện cho chúng.
Cấu trúc chỉ mục truyền thống sau đó có thể các chỉ mục này nhỏ hơn mảng. Nhiều kỹ thuật
liệu liên quan đến việc tham gia FSC giữa các mối quan hệ khách hàng và bán hàng cũng như
xác định 10 sản phẩm hàng đầu cho mỗi khách hàng. Tất cả các vấn đề liên quan đến xử lý hiệu
quả truy vấn hỗ trợ quyết định đều làm nằm trong nội dung khai phá dữ liệu. Trong thực tế, nền
tảng của khai phá dữ liệu sử dụng OLAP hoặc các máy chủ quan hệ để đáp ứng chuẩn bị dữ liệu.
Khai phá dữ liệu thường liên quan đến xây dựng mô hình trên một tập dữ liệu đã được
chuẩn bị và sau đó triển khai thêm một hoặc nhiều mô hình. Bởi vì xây dựng mô hình trên tập dữ
liệu lớn có thể tốn kém, các nhà phân tích thường làm việc ban đầu với bộ dữ liệu mẫu. Nền tảng
của khai phá dữ liệu. do đó, phải hỗ trợ tính toán mẫu ngẫu nhiên của dữ liệu qua truy vấn phức
tạp.
Xây dựng và đánh giá các mô hình khai phá dữ liệu
Chỉ sau khi quyết định để triển khai mô hình này, các nhà phân tích xây dựng mô hình trên toàn
bộ tập dữ liệu chuẩn bị. Mục tiêu của giai đoạn xây dựng mô hình là định ra khuôn mẫu định nghĩa 1
thuộc tính. Một thuộc tính ví dụ trong tập dữ liệu FSC là khách hàng mua ít nhất một sản phẩm từ danh
mục
Một số lớp của mô hình khai phá dữ liệu giúp dự đoán cả hai thuộc tính rõ và thuộc tính ẩn. Hai
vấn đề quan trọng ảnh hưởng đến lựa chọn mô hình là tính chính xác của mô hình và hiệu quả của các
thuật toán để xây dựng mô hình trên tập dữ liệu lớn. Theo thống kê, tính chính xác của các mô hình cải
thiện với số lượng dữ liệu được sử dụng, do đó, các thuật toán để xây dựng mô hình khai phá phải có hiệu
quả và khả năng mở rộng để xử lý dữ liệu lớn trong một khoảng thời gian hợp lý.
Các loại mô hình
Mô hình phân loại là việc dự đoán, Khi đưa ra một bộ mới các mô hình phân loại dự đoán liệu các
bộ thuộc về một trong các lớp mục tiêu Trong ví dụ danh mục FSC, một mô hình phân loại sẽ quyết định,
dựa trên hành vi trong quá khứ, là một khách hàng có hay không mua hàng từ 1 danh mục. Cây quyết
định và mô hình Bayes là hai loại phổ biến trong mô hình phân loại.
Cây hồi quy và hồi quy logistic là 2 loại phổ biến của mô hình hồi quy, mà dự đoán các thuộc tính
số, như lương hoặc tuổi của 1 khách hàng.
Với mốt số ứng dụng, các nhà phân tích không biết rõ ràng tập hợp các lớp đối tượng và coi như
chúng ẩn. Các nhà phân tích sử dụng các mô hình phân cụm như Kmeans và Brich để xác định tập hợp
các lớp và phân loại bộ mới vào trong các lớp ẩn.
Các nhà phân tích sử dụng các luật như luật kết hợp để tìm xem liệu có việc mua một tập hợp các
Các ứng dụng đóng gói.
Để phát triển 1 OLAP hoàn chỉnh hoặc 1 giải pháp thống kê khai thác dữ liệu, những nhà phân
tích phải thực hiện 1 loạt truy vấn phức tạp và xây dựng, điều chỉnh và phát triển mô hình phức tạp. Một
số công cụ thương mại cố gắng thu hẹp khoảng cách giữa yêu cầu giải pháp thực tế cho các tên miền được
hiểu rõ và hỗ trợ từ OLAP cung cấp hoặc nền tảng khai thác dữ liệu. Ứng dụng đóng gói và công cụ báo
cáo có thể khai thác kiến thức dọc tên miền để nhiệm vụ của những nhà phân tích đơn giản hơn bằng cách
cung cấp mức cao hơn, trừu tượng tên miền cụ thể. Data Ware housing Information
Center(dwinfocenter.org) và KDnuggets (kdnuggets.com/solutions/index.html) cung cấp đầy đủ danh
sách giải pháp tên miền cụ thể.
Các doanh nghiệp có thể mua các giải pháp thay vì phát triển các phân tích của của mình, nhưng
những giải pháp tên miền cụ thể được giới hạn bởi toàn bộ đặc điểm và do đó có thể không đáp ứng tất
cả các phân tích của một công ty cần như kinh doanh của mình phát triển.
Nền tảng APIs và tác động XML.
Một số OLAP và khai phá dữ liệu cung cấp APIs để các nhà phân tích có thể xây dựng giải pháp
tuỳ chỉnh Tuy nhiên, giải pháp cung cấp thường có chương trình cho một loạt OLAP hoặc các công cụ
khai thác dữ liệu để cung cấp 1 giải pháp độc lập. 1 dịch vụ giải pháp web XML mới cung cấp 1 giao diện
phổ biến cho các công cụ OLAP. Microsoft và Hyperion đã xuất bản đặc tả XML dành cho những nhà
thiết kế (http://www.essbase.com/downloads/XML_Analysis_spec.pdf), 1 ví dụ đối tượng truy cập giao
thức cơ bản XML API thiết kế đặc biệt chuẩn hóa cho sự tương tác truy cập dữ liệu giữa 1 ứng dụng và 1
nhà cung cấp dữ liệu (OLAP và khai thác dữ liệu) đang làm việc trên web. Với 1 đặc tả, giải pháp cung
cấp có thể sử dụng chương trình như đơn XML API thay vì nhiều nhà cung cấp APIs.
Xử lý truy vấn gần đúng (xấp xỉ)
Xử lý các truy vấn tổng hợp thường đòi hỏi phải truy cập vào một lượng lớn dữ liệu trong kho dữ
liệu. Ví dụ, doanh số bàn hàng trung bình của máy tính FSC trên toàn thành phố đòi hỏi quét tất cả dữ liệu
của kho dữ liệu. Tổng hợp các xử lý truy vấn phức tạp thường đòi hỏi phải truy cập vào lượng lớn dữ liệu
trong warehouse. Ví dụ, doanh số bàn hàng trung bình của máy tính FSC trên toàn thành phố đòi hỏi quét
tất cả dữ liệu của warehouse. Trong nhiều trường hợp, tuy nhiên, xử lý truy vấn gần đúng như là một lựa
chọn để có được một ước lượng chính xác rất nhanh chóng. Ý tưởng cơ bản từ tổng hợp các dữ liệu cơ
bản là giống nhất có thể và sau đó trả lới truy vấn tổng hợp sử dụng tóm tắt thay vì dữ liệu thực tế. Dự án
xử lý truy vấn gần đúng (http://www.research.microsoft.com/dmx/ApproximateQP) và dự án AQUA
Gỉai nén và chuyển đổi.
Mục tiêu của bước khai thác dữ liệu để đưa dữ liệu từ các nguồn khác nhau vào một cơ sở dữ liệu
mà nó có thể được sửa đổi và đưa vào kho dữ liệu. Mục tiêu của bước chuyển đổi dữ liệu tiếp theo là để
giải quyết sự khác biệt trong giản đồ và giá trị thuộc tính quy ước. Một tập hợp các quy tắc và các kịch
bản thường xử lý việc chuyển đổi dữ liệu từ một lược đồ đầu vào lược đồ đích.
Ví dụ, một nhà phân phối FSC có thể báo cáo các giao dịch bán hàng như một tập tin trong đó
mỗi bản ghi mô tả tất cả các đơn vị và số lượng các đơn vị tham gia giao dịch. Các nhà phân phối có thể
chia mỗi tên khách hàng vào ba lĩnh vực: tên, tên lót và tên cuối cùng. Đưa thông tin doanh số bán hàng
của nhà phân phối vào kho dữ liệu FSC với các lược đồ thể hiện trong hình 2, các nhà phân tích trước tiên
phải giải nén các hồ sơ và sau đó, cho mỗi bản ghi, chuyển đổi tất cả ba tên liên quan đến cột nguồn để
đưa ra một giá trị cho các thuộc tính tên của khách hàng .
Làm sạch dữ liệu.
Lỗi nhập dữ liệu và sự khác biệt trong lược đồ có thể là nguyên nhân bảng kích thước khách hàng
để có nhiều bộ dữ liệu tương ứng cho một khách hàng, dẫn đến kết quả của truy vấn không chính xác và
các mô hình khai phá không phù hợp. Ví dụ, nếu bảng khách hàng có nhiều bộ dữ liệu cho một số khách
hàng FSC tại New York, New York có thể không chính xác xuất hiện là sẽ trong danh sách top 50 thành
phố có số lượng cao nhất khách hàng độc đáo. Công cụ giúp phát hiện và dị thường dữ liệu chính xác có
thể dẫn đến kết quả cao, và một số lượng đáng kể của nghiên cứu giải quyết các vấn đề của dữ liệu loại bỏ
và làm sạch dữ liệu trùng lặp.
Tải dữ liệu
Sau khi giải nén và chuyển đổi của nó, dữ liệu vẫn có thể yêu cầu thêm tiền xử lý trước khi nó
được tải vào kho dữ liệu. Thông thường, tiện ích tải hàng loạt cũng như xử lý các chức năng kiểm tra ràng
buộc toàn vẹn; phân loại; tổng hợp, tập hợp và thực hiện các tính toán khác để xây dựng bảng gốc được
lưu trữ trong kho dữ liệu; và xây dựng chỉ mục và các vùng truy cập khác. Trong việc thêm dữ liệu vào
kho dữ liệu, 1 công cụ tải phải cho phép người quản trị hệ thống theo dõi tình trạng, hủy bỏ, tạm dừng
hoặc tiếp tục tải, và khởi động sau khi thất bại mà không làm giảm tính toàn vẹn dữ liệu. Bởi vì tiện ích
tải dữ liệu cho kho dữ liệu xử lý khối lượng dữ liệu lớn hơn nhiều so với các thao tác trên dữ liệu, họ sử
dụng kỹ thuật tính toán song song và phân vùng.
Làm mới dữ liệu.
Làm mới dữ liệu trong kho dữ liệu bao gồm việc cập nhật dữ liệu vào nguồn dữ liệu tương ứng và
vực công cụ độc lập, giải quyết nhiều vấn đề làm sạch dử liệu gắn với phát triển kho dữ liệu.
Hầu hết các nghiên cứu khai thác dữ liệu đã tập trung vào phát triển các thuật toán để xây dựng
mô hình chính xác hơn hoặc để xây dựng mô hình nhanh hơn. Hai giai đoạn khác của quá trình khai phá
tri thức- chuẩn bị dữ liệu và mô hình khai thác triển khai - phần lớn đã bị bỏ qua. Cả hai giai đoạn hiện
nay một số vấn đề thú vị liên quan đặc biệt để đạt được sức mạnh tổng hợp tốt hơn giữa các hệ thống cơ
sở dữ liệu và công nghệ khai phá dữ liệu. Cuối cùng, công cụ mới sẽ cung cấp cho các nhà phân tích cách
hiệu quả hơn để chuẩn bị một bộ dữ liệu tốt để đạt được một mục tiêu cụ thể và cách thức hiệu quả hơn để
triển khai mô hình trên các kết quả của các truy vấn SQL tùy ý.