TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
ĐẠI HỌC QUỐC GIA TPHCM
BÀI THU HOẠCH MÔN HỌC
KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU
Đề tài: Khai phá dữ liệu trong SQL Server
Giảng viên: PGS.TS Đỗ Phúc
Học viên: Đào Thị Phấn
Mã số: CH1101118 TPHCM, Tháng 11/2012
Trang 2 MỤC LỤC
LỜI NÓI ĐẦU 3
Phần 1: Tổng quan khai phá dữ liệu 4
1.1. Khai phá dữ liệu là gì? 4
1.2. Các ứng dụng và chức năng của khai phá dữ liệu 4
1.3. Các bước trong khai phá dữ liệu 5
của phép kết. Hệ quản trị dữ liệu Microsoft SQL Server 2005 cung cấp Microsoft data
mining provider d
ựa trên OLE DB cho chuẩn Data Mining. Provider này gồm một số
thuật toán data mining phổ biến như Microsoft Decision Trees, Microsoft Clustering,
Microsoft Naïve Bayes, …
Tiểu luận này trình bày khái quát về khai phá dữ liệu, đồng thời trình bày sự hỗ
trợ khai phá dữ liệu trong một hệ quản trị cơ sở dữ liệu phổ biến, đó là SQL Server
2005 và cuối cùng là minh họa cho quá trình khai thác dữ liệu trên một công cụ của
SQL Server 2005.
Em xin chân thành cảm ơn PGS.TS. Đỗ Phúc – Giảng viên môn học Khai Phá
Dữ Liệu và Kho Dữ
Liệu đã truyền đạt cho em những kiến thức vô cùng quý báu. Em
cũng xin chân thành cảm ơn quý Thầy Cô thuộc phòng đào tạo Sau đại học đã tạo điều
kiện về tài liệu tham khảo để em có thể hoàn thành môn học này.
Chân thành cảm ơn!
Trang 4
Phần 1: Tổng quan khai phá dữ liệu
1.1. Khai phá dữ liệu là gì?
Khai phá dữ liệu nhằm rút trích thông tin hữu ích, chưa biết, tiềm ẩn, phân tích
dữ liệu bán tự động, giải thích dữ liệu trên các tập dữ liệu lớn.
Khai phá dữ liệu - Data mining, là một bước của tiến trình KDD (Knowledge
Discovery in Database), cung cấp tri thức hỗ trợ ra quyết định, dự báo và khái quát dữ
liệu, tiến trình này bao gồm:
• Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem
understanding and data understanding).
• Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu
(data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data
selection), biến đổi dữ liệu (data transformation).
• Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa
ộ quá trình (nếu mô hình
dữ liệu thay đổi), v.v…
Tiếp theo là công việc thu thập và tiền xử lý dữ liệu. Sẽ là quá cồng kềnh với
một giải thuật khai phá dữ liệu nều phải truy nhập vào toàn bộ nội dung của cơ sở dữ
liệu và làm những việc như trên. Có rất nhiều giải thuật khai phá dữ liệu thực hiện dựa
trên những thống kê tóm tắt khá đơn giản c
ủa cơ sở dữ liệu, khi mà toàn bộ thông tin
trong cơ sở dữ liệu là quá dư thừa đối với mục đích của việc khai phá dữ liệu.
Bước tiếp theo là chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc
khai phá dữ liệu để tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương
ứng với các ý nghĩa đó (thường được biểu diễn d
ưới dạng các luật xếp loại, cây quyết
định, luật sản xuất, biểu thức hồi quy, …).
Hình 1: Các bước khai phá dữ liệu
Xác định
nhiệm vụ
Xác định dữ
liệu liên quan
Thu thập và
tiền xử lý dữ
liệu
Giải thuật
khai phá dữ
liệu
Thkê tóm tắt
Mẫu
DL
trực
tiề
ết hợp tìm
được. Một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa hai thành phần A và
B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B trong cùng
bản ghi đó: A ⇒ B.
Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X⇒B sao
cho tần số của luật không nhỏ hơ
n ngưỡng σ cho trước và độ tin cậy của luật không
Trang 7
nhỏ hơn ngưỡng θ cho trước. Từ một cơ sở dữ liệu, có thể tìm được hàng nghìn và
thậm chí hàng trăm nghìn các luật kết hợp.
d) Các phương pháp phân lớp và hồi quy phi tuyến
Các phương pháp này bao gồm một họ các kỹ thuật dự đoán để làm cho các kết
hợp tuyến tính và phi tuyến của các hàm cơ bản (hàm sigmoid, hàm spline (hàm
mành), hàm đa thức) phù hợp với các kết hợp của các giá trị biế
n vào. Các phương
pháp thuộc loại này như mạng neuron truyền thẳng, phương pháp mành thích nghi,
v.v…
e) Gom cụm và phân đoạn (clustering and segmentation)
Kỹ thuật phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao cho
mỗi phần hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó. Mối quan hệ thành
viên của các nhóm có thể dựa trên mức độ giống nhau của các thành viên và từ đó xây
dựng nên các luật ràng buộc giữa các thành viên trong nhóm. Mẫu đầu ra c
ủa quá trình
khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫu chứa các dữ liệu có chung những
tính chất nào đó được phân tách từ cơ sở dữ liệu. Một kỹ thuật phân nhóm khác là xây
dựng nên các hàm đánh giá các thuộc tính của các thành phần như là hàm của các
tham số của các thành phần. Phương pháp này được gọi là phương pháp phân hoạch
tối ưu (optimal partitioning).
f) Các phương pháp dựa trên mẫu
2.2. Các thuật toán khai phá dữ liệu trong Microsoft SQL Server
Hệ quản trị cơ sở dữ liệu MS SQL Server 2005 ngoài tính năng phổ biến là hỗ trợ
người dùng quản trị và truy vấn dữ liệu, còn được cải tiến thêm khả năng khai thác
thông tin được tích hợp trong một số công cụ, khiến cho việc triển khai và quản lý dễ
dàng hơn. Microsoft cung cấp công cụ phân tích và khai thác dữ liệu dựa trên cơ sở
các thuật toán khai phá dữ liệu (Data Mining) sau:
a) Microsoft Decision Tree (Cây quyết định)
Trang 9
Thuật toán Microsoft Decision Tree hỗ trợ cả việc phân loại và hồi quy, và tạo
rất tốt các mô hình dự đoán. Sử dụng thuật toán này có thể dự đoán cả các thuộc tính
rời rạc và liên tục .
Trong việc xây dựng mô hình, thuật toán này sẽ khảo sát sự ảnh hưởng của mỗi
thuộc tính trong tập dữ liệu và kết quả của thuộc tính dự đoán. Và tiếp đến nó sử dụng
các thuộ
c tính input (với các quan hệ rõ ràng) để tạo thành một nhóm phân hoá gọi là
các node. Khi một node mới được thêm vào mô hình, một cấu trúc cây sẽ được thiết
lập. Node đỉnh của cây sẽ miêu tả sự phân tích (bằng thống kê) của các thuộc tính dự
đoán thông qua các mẫu. Mỗi node thêm vào sẽ được tạo ra dựa trên sự sắp xếp các
trường của thuộc tính dự đoán, để so sánh với dữ liệu input. Nếu một thuộc tính input
được coi là nguyên nhân củ
a thuộc tính dự đoán (to favour one state over another),
một node mới sẽ thêm vào mô hình. Mô hình tiếp tục phát triển cho đến lúc không còn
thuộc tính nào, tạo thành một sự phân tách (split) để cung cấp một dự báo hoàn chỉnh
thông qua các node đã tồn tại. Mô hình đòi hỏi tìm kiếm một sự kết hợp giữa các thuộc
tính và trường của nó, nhằm thiết lập một sự phân phối không cân xứng giữa các
trường trong thuộc tính dự đoán, vì thế cho phép dự
đoán kết quả của thuộc tính dự
đoán một cách tốt nhất.
b) Microsoft Clustering(Gom cụm)
tạo cho mô hình một lựa chọn tốt để khai phá dữ liệu, khám phá các thuộc tính input
được phân bố trong các trường khác nhau của thuộc tính cần dự đoán.
d) Microsoft time series : (chuỗi thời gian)
Thuật toán này tạo ra những mô hình được sử
dụng để dự đoán các biến tiếp theo
từ OLAP (On-Line Analytical Processing) và các nguồn dữ liệu quan hệ. Ví dụ, sử
dụng thuật toán này để dự đoán bán hàng và lợi nhuận dựa vào các dữ liệu quá khứ
trong một cube .
Sử dụng thuật toán này có thể chọn một hoặc nhiều biến để dự đoán (nhưng các
biến là phải liên tục). Có thể có nhiều trường hợp cho mỗi mô hình. Tậ
p các trường
hợp xác định vị trí của một nhóm, như là ngày tháng khi xem việc bán hàng thông qua
vài tháng hoặc vài năm trước.
Mỗi trường hợp có thể bao gồm một tập các biến (ví dụ như bán hàng tại các cửa
hàng khác nhau). Thuật toán này có thể sử dụng sự tương quan của thay đối biến số
(cross-variable) trong dự đoán của nó, ví dụ bán hàng trước kia tại một cửa hàng có thể
rất hữu ích trong việc dự báo bán hàng hiện t
ại tại những cửa hàng khác.
Trang 11
e) Microsoft Association (Kết hợp)
Thuật toán này được thiết kế đặc biệt để sử dụng trong phân tích giỏ thị trường
(market basket). Có một định nghĩa về market basket như sau:
Market basket (chỉ số rổ thị trường : tức là ta sẽ dùng tất cả các loại hàng hoá đang
có trên thị trường (một siêu thị chẳng hạn ), ta nhân giá cả của nó với chỉ số của hàng
hoá (ví dụ gạo x 10 , thịt x 20…) để tính chỉ
số CPI (consumer price index ). Nếu chỉ
số CPI của ngày hôm nay cao hơn so với ngày hôm qua thì xảy ra lạm phát ) (Nguyễn
Đức Tĩnh-Ngân hàng Hàng Hải VN).
Thuật toán Microsoft Association sẽ xem xét mỗi cặp biến/giá trị (như là sản
các tình trạng của một chuỗi, thuật toán có thể dự đoán tương lai trong các chuỗi có
quan hệ với nhau .
Thuật toán còn là sự pha trộn giữa thuật toán chuỗi và thuật toán liên cung. Thuật
toán nhóm tất cả các sự kiện phức tạp với các thuộc tính trình tự vào một phân đoạn
dựa vào sự giống nhau c
ủa những chuỗi này. Một đặc trưng sử dụng chuỗi sự kiên cho
thuật toán này là phân tích khách hàng web của một cổng thông tin (portal site). Một
Cổng thông tin là một tập các tên miền liên kết như: tin tức, thời tiết, giá tiền, mail, và
thể thao… Mỗi khách hàng được liên kết với một chuỗi các “click web” trên các tên
miền này. Thuật toán này có thể nhóm các khách hàng web về một hoặc nhiều nhóm
dựa trên kiểu hành động của họ. Những nhóm này có thể được trực quan hoá, cung c
ấp
một bản chi tiết để biết được mục đích sử dụng trang web này cuả khách hàng.
g) Microsoft neural network(Mạng nơ-ron)
Trong MS SQL server 2005, thuật toán này tạo các mô hình khai mỏ hồi quy và
phân loại bằng cách xây dựng đa lớp perceptom của các nơ-ron. Giống như thuật toán
cây quyết định, đưa ra mỗi tình trạng của thuộc tính có thể dự đoán. Thuật toán này
tính toán khả năng có thể của mỗi trạng thái có thể c
ủa thuộc tính input . Thuật toán sẽ
xử lý toàn thể các trường hợp. Sự lặp đi lặp lai so sánh các dự đoán phân loại của các
trường với sự phân loại của các trường đã biết. Sai số từ sự phân loại ban đầu (của
phép lặp ban đầu) của toàn bộ các trường hợp được trả về mạng (network) và được sử
dụng để thay đổi sự thực thi của network cho các phép lặ
p kế theo, v.v. Có thể sau đó
sử dụng những khả năng này để dự đoán kết quả của các thuộc tính dự đoán, dựa trên
Trang 13
thuộc tính input. Sự khác biệt chính giữa thuật toán này và thuật toán Cây quyết định
là các kiến thức xử lí là những tham số network tối ưu nhằm làm nhỏ nhất các lỗi có
thể trong khi cây quyết định tách các luật, mục đích để cực đại hoá thông tin có lợi.
market basket. Điển hình là thuật toán kết hợp (Microsoft Association
Algorithm)
Thuật toán phân tích tiến trình (Sequence Analysis algorithm): tổng kết
những tiến trình thường xảy ra hoặc ít xảy ra trong dữ liệu. Điển hình là
thuật toán Microsoft Sequence Clustering.
2.3. Vấn đề sử dụng các thuật toán
Lựa chọn đúng thuật toán để sử dụng trong một nhiệm vụ có thể coi là một thách
thức. Thường thì dựa vào kinh nghiệm là chính, trong khi có thể sử dụng các thuật
toán khác nhau
để thực hiện những công việc giống nhau, mỗi thuật toán đưa ra những
kết quả khác nhau, và một vài thuật toán có thể sẽ đưa ra nhiều hơn một loại kết quả .
Ví dụ như, có thể sử dụng thuật toán Microsoft Decision Trees không những để dự
đoán mà còn để làm giảm bớt số cột trong tập dữ liệu (dataset), bởi Decision Trees có
thể xác định các cột không ảnh hưởng đến mô hình khai mỏ
cuối cùng .
Ngoài ra, cũng không phải sử dụng các thuật toán độc lập với nhau – trong một
giải pháp khai phá dữ liệu, có thể sử dụng một số thuật toán để khai phá dữ liệu, và
tiếp đó sử dụng một số thuật toán khác dể dự đoán các kết quả cụ thể thông qua các dữ
liệu đó. Ví dụ có thể sử dụng thuật toán Clustering để nhận dạng các mô hình, để c
ắt
các dữ liệu vào một nhóm cực đại hoặc tiểu đồng nhất (to break data into groups that
are more or less homogeneous), và tiếp đó sử dụng những kết quả đó để tạo lên một
mô hình cây quyết định tốt hơn. Có thể sử dụng nhiều thuật toán trong một giải pháp
để thực hiện những nhiệm vụ riêng biệt, ví dụ bằng cách sử dụng thuật toán cây hồi
quy để thu được thông tin dự đ
oán tài chính, và một thuật toán luật cơ sở để thi hành
việc phân tích market basket (giỏ thị trường ).
Mô hình khai phá dữ liệu có thể dự đoán những giá trị, sản phẩm sơ lược của dữ
liệu, và tìm ra những tương quan ẩn. Nhằm giúp việc lựa chọn thuật toán cho giải pháp
khai phá dữ liệu trong SQL Server, bảng mô tả dưới đây trình bày sự phân loại các
Microsoft Association
Microsoft Decision Trees Tìm những mục (item) giống nhau
Ví dụ: để gom các dữ liệu nhân khẩu
học (demographic) vào một nhóm để
nhận thức dễ dàng mối quan hệ giữa các
thuộc tính
Microsoft Clustering
Microsoft Sequence Clustering
Tóm lại, tùy theo loại dữ liệu, mục đích ứng dụng khai phá dữ liệu mà chọn các
thuật toán phù hợp để đạt hiệu quả cao bởi mỗi mô hình của thuật toán trả về một kiểu
kết quả khác nhau.
Trang 16
2.4. Công cụ khai phá dữ liệu
Từ trước đến nay, SQL Server được biết đến với vai trò là một hệ quản trị cơ sở
dữ liệu có trách nhiệm hỗ trợ quản lý, lưu trữ dữ liệu với Database Engine. Tuy nhiên,
từ phiên bản SQL Server 2005 thì bộ SQL Server đã được tích hợp nhiều gói dịch vụ
hỗ trợ việc tích hợp và khai thác khả năng tiềm tàng của một cơ sở dữ li
ệu như SQL
Server Integrating Services, SQL Server Analysis Services, SQL Server Management
Studio, Data Transformation Services, SQL Server Reporting Services, …Sau đây sẽ
trình bày một số công cụ hỗ trợ khai phá dữ liệu trong SQL Server như đã nêu trên.
a) SQL Server Analysis Services (SSAS)
SSAS là một dịch vụ hỗ trợ mạnh mẽ việc phân tích, khai thác thông tin tiềm tàng
bên trong của một hệ cơ sở dữ liệu, là một trong những dịch vụ chính của SQL Server
2005 dùng để xây dựng các chiều và cubes cho nhà kho dữ liệu (Data warehouse).
SSAS là một phần của nền tảng quản lý doanh nghiệp thông minh (Business
- ROLAP (Relational OLAP) đây là cách lưu trữ mà dữ liệu chính được lưu trữ
trong cơ sở dữ liệ
u quan hệ. Cách truy vấn trên SSAS được thay đổi sang kiểu truy
vấn trên cơ sở dữ liệu quan hệ mỗi khi thực thi điều này làm giảm hiệu năng của truy
vấn, các truy vấn thường rất chậm so với mô hình trên. Điểm mạnh của cách lưu trữ
này là dung lượng cube chỉ giới hạn bởi dung lượng của cơ sở dữ liệu quan hệ.
- HOLAP (Hybrid OLAP): Đây là mô hình tích hợp của cả hai mô hình trên d
ữ
liệu thông thường được lưu trữ dưới dạng cơ sở dữ liệu quan hệ trong khi các dữ liệu
tổng hợp được lưu trữ dưới dạng đối tượng SSAS. Nếu dữ liệu yêu cầu là dạng tổng
hợp thì sẽ thực hiện truy vấn tại SSAS còn nếu dữ liệu yêu cầu là dạng chi tiết truy
vấn sẽ được dịch và truy vấn tại cơ
sở dữ liệu quan hệ. Điều này làm tăng tốc độ xử
lý của mô hình ROLAP và tận dụng được khả năng lưu trữ của mô hình ROLAP.
Dịch vụ SSAS của SQL Server 2005 cung cấp cho người dùng các tính năng
mạnh mẽ trong phân tích dữ liệu. Đây là công cụ mạnh để xây dựng các hệ thống xử
lý giao dịch trực tuyến.
b) Business Intelligent Developtment Studio (BIDS)
BIDS là công cụ cho phép tổ chức quản lý và khai thác kho dữ
liệu (Xử lý phân
tích trực tuyến - OLAP) cũng như xây dựng các mô hình khai phá dữ liệu rất dễ sử
dụng và hiệu quả của Microsoft.
BIDS là tập hợp những công cụ thiết kế để tạo những công việc thông minh. Đây
là công cụ dựa trên bộ Microsoft Visual Studio. Người dùng có thể kéo và thả các đối
tượng trong giao diện đồ họa hay có thể lập trình bằng mã lệnh trong giao diện soạn
thảo. Vì BIDS đã tạo một môi trường phát triển tích hợp (Integrated Development
Environment - IDE) trong đó cho phép tạo những giải pháp hoàn chỉnh nên người
dùng làm việc tách rời khỏi server . Với BIDS có thể thay đổi đối tượng khai phá dữ
Trang 19
Analysis Services server. Từ đây, tiêu điểm di chuyển từ phát triển tới bảo quản và sử
Trang 20
dụng. Sử dụng SSMS, người dùng có thể quản lý cơ sở dữ liệu, và thực hiện một vài
chức năng như trong BIDS, như là thể hiện và thiết lập dự đoán từ mô hình khai mỏ dữ
liệu.
d) Data Transformation Services (DTS)
DTS bao gồm các công cụ rút trích (extract), biến đổi và lặp (ETL) trong SQL
Server 2005. Những công cụ này có thể được thể hiện một trong hầu hết các nhiệm vụ
quan trọng trong khai phá dữ liệu: d
ọn dẹp và chuẩn bị dữ liệu cho việc thiết lập mô
hình. Trong khai phá dữ liệu, người dùng cần thực hiện chuyển đổi hoàn toàn các dữ
liệu lặp đi lặp lại để dọn dẹp (clean) dữ liệu, trước khi sử dụng dữ liệu để huấn luyện
(train) một mô hình khai mỏ. Sử dụng các nhiệm vụ và các chuyển đổi trong DTS
người dùng hoàn toàn có thể phối hợp dữ
liệu chuẩn bị và thiết lập mô hình trong các
gói DTS đơn lẻ.
DTS cũng cung cấp các thiết kế DTS để giúp người dùng dễ dàng chạy các gói
(package) bao gồm tất cả các nhiệm vụ và các phép biến đổi. Sử dụng bộ thiết kế DTS
(DTS designer), ta có thể triển khai các package tới một server, và chạy chúng trên
những nền tảng lập trình. Điều này rất có lợi, ví dụ như khi sưu tầm các dữ liệu trong
tuần và mu
ốn thực hiện chuyển đổi dữ liệu đã dọn dẹp trong mỗi lần một cách tự động,
khi đó cần kết hợp giữa nền tảng lập trình có kết nối với các server chứa dữ liệu. Đây
cũng là sự cải tiến vượt bậc của Microsoft SQL Server 2005 trong lĩnh vực khai phá
dữ liệu so với Microsoft SQL Server 2000. Sự tích hợp và liên kết giữa Business
Intelligent Development Studio với Microsoft .NET 2005 đã làm cho ngườ
i sử dụng
cảm thấy dễ dàng làm việc hơn, thuận tiện hơn khi kết hợp dữ liệu với lập trình.
2.5. Khai phá dữ liệu bằng câu lệnh SQL
Các từ khoá LONG, DOUBLE, TINYINT và TEXT định nghĩa kiểu dữ liệu của
cột. Tuy nhiên có một vài mở rộng so với SQL chuẩn. Từ khoá KEY chỉ định cột (các
cột) làm khoá. Hai từ khoá CONTINUOUS (liên tục) và DISCRETE (rời rạc) là hai
giá trị có thể chỉ định giá trị của cột thuộc dạng nào. Từ khoá PREDICT chỉ định cột
kết quả dự báo.
Trang 22
Sau khi tạo DMM, bước tiếp theo là huấn luyện mô hình. Huấn luyện mô hình
nghĩa là chạy mô hình trên dữ liệu dùng để huấn luyện (training data) bằng cách dùng
một thuật toán đặc thù nào đó. Đây là bước tốn nhiều thời gian nhất. Thuật toán có thể
lặp lại một vài lần trên tập dữ liệu huấn luyện để tìm ra các mẫu ẩn bên trong tập dữ
liệu này. Trong SQL Server, OLE DB for Data Mining API che giấu các phức tạp của
việc hu
ấn luyện mô hình bằng cách cung cấp lệnh INSERT như là lệnh dùng để huấn
luyện. Mặc dù có một lượng dữ liệu khổng lồ được đưa vào mô hình data mining trong
giai đoạn này, nhưng nó không lưu trữ bất kỳ dữ liệu nào, thay vào đó nó lưu trữ các
mẫu của chúng. Khi mô hình đã được huấn luyện, ứng dụng khách có thể duyệt qua
nội dung của mô hình và thực hiện các truy vấn trên tập dữ li
ệu mới này.
Cú pháp của lệnh INSERT:
INSERT [INTO] <tên mô hình>
[ <các cột được ánh xạ của mô hình > ]
<truy vấn dữ liệu nguồn>
Ví dụ: Huấn luyện cho mô hình đã tạo ra bên trên
INSERT INTO [Model_SQL_DM]
([CustomerKey], [FirstName], [LastName], [Age], [Region], [TotalChildren],
[BikeBuyer])
OPENROWSET(‘SQLOLEDB’, ’…’, SELECT DISTINCT [CustomerKey],
[FirstName], [LastName], [Age], [Region], [TotalChildren], [Bike Buyer]
FROM vTargetMail)
9 <WHERE-expression>: điều kiện lọc dữ liệu trả về từ truy vấn dự báo
Ví dụ: Hãy dự báo các khách hàng nào có khả năng mua sản phẩm nhất (>80%)
SELECT FLATTENED [T].[CustomerKey], [T].[FirstName], [T].[LastName],
[T].[Age], [T].[Region], [T].[TotalChildren], [T].[Bike Buyer])
FROM [Model_SQL_DM] AS [M]
PREDICTION JOIN OPENROWSET('SQLOLEDB', ’…’, SELECT DISTINCT
[CustomerKey], [FirstName], [LastName], [Age], [Region], [TotalChildren], [Bike
Buyer] FROM vTargetMail) AS [T] ON [M]. [CustomerKey]= [T]. [CustomerKey]
WHERE PredictProbability([M]. [BikeBuyer]) > 0.8.
Trang 24
PHỤ LỤC
Phần này trình bày một ví dụ minh họa cho việc khai phá dữ liệu trong SQL
Server 2005. Đó là Khai phá dữ liệu trên Business Intelligent Developtment Studio
(BIDS).
Cơ sở dữ liệu được sử dụng để minh họa có tên là AdventureWorksDW, đây là
kho dữ liệu của công ty Adventure Works chuyên sản xuất xe đạp. Cơ sở dữ liệu mẫu
này có thể download từ trang web của Microsoft và theo các hướng dẫn để cài vào
SQL Server. Mục đích của việc xây dựng các mô hình khai phá dữ liệu nhằm để phân
loạ
i khách hàng, tìm ra các khách hàng tiềm năng cũng như dự đoán được khách hàng
nào có thể mua sản phẩm của công ty Adventure Works giúp cho bộ phận Marketing
xây dựng các chiến lược quảng cáo, tiếp thị nhằm mở rộng thị trường, tìm kiếm khách
hàng, mở rộng kinh doanh.
Qui trình Xây dựng mô hình khai phá dữ liệu với BIDS gồm các bước như sau :
• Tạo mới một project (Analysis Services Project)
• Tạo một Data Source
• Tạo một Data Source View
• T
ạo một Mining model structure.