ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
ĐÀO THỊ THU HIỀN
NGHIÊN CỨU GIẢI PHÁP QUẢN LÝ KHÁCH HÀNG
HIỆU QUẢ DỰA TRÊN HƢỚNG TIẾP CẬN KHAI PHÁ
DỮ LIỆU
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI - 2014
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
ĐÀO THỊ THU HIỀN
NGHIÊN CỨU GIẢI PHÁP QUẢN LÝ KHÁCH HÀNG
HIỆU QUẢ DỰA TRÊN HƢỚNG TIẾP CẬN KHAI PHÁ
DỮ LIỆU
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM
2.2. Tìm hiểu bộ cơng cụ BI của SQL Server ........................................................... 24
2.2.1. SQL Server Reporting Services ..................................................................25
2.2.2. SQL Server Analysis Services: ...................................................................26
CHƢƠNG 3. XÂY DỰNG HỆ THỐNG HỖ TRỢ KHÁCH HÀNG DỰA TRÊN
KHO DỮ LIỆU GIAO DỊCH........................................................................................ 27
3.1. Giới thiệu dữ liệu ................................................................................................ 27
3.1.1. Cơ sở dữ liệu................................................................................................ 27
3.1.2. Lƣợc đồ kho dữ liệu .................................................................................... 30
3.2. Báo cáo thống kê ................................................................................................ 31
3.2.1. Thống kê việc sử dụng giao dịch:................................................................ 31
3.2.2. Thống kê lƣợng tiền thanh toán bán lẻ theo tỉnh và độ tuổi ........................ 33
4
3.2.3. 10 dịch vụ bán lẻ đƣợc thực hiện nhiều nhất tại Hồ Chí Minh và Hà Nội. .34
3.2.4. Tƣơng quan giữa các top 10 loại dịch vụ của Hồ Chí Minh và Hà Nội ......35
3.2.5. Tƣơng quan giữa lƣợng tiền thanh toán và số dƣ tài khoản ........................ 37
3.2.6. Mức điện thoại theo chức vụ và tình trạng hơn nhân ..................................38
3.2.7. Thống kê lƣợng giao dịch ATM tại các thời điểm trong ngày .................... 39
3.3. Dự báo, dự đoán .................................................................................................39
3.3.1. Sự phụ thuộc giữa các loại dịch vụ ............................................................. 39
3.3.2. Nhóm khách hàng nào có khả năng sử dụng dịch vụ thanh toán bán lẻ cao
nhất: ....................................................................................................................... 47
3.3.3. Sự phụ thuộc giữa loại hình dịch vụ và tỉnh thành ......................................50
3.3.4. Dự đoán xu hƣớng sử dụng dịch vụ thanh toán cƣớc điện thoại .................54
KẾT LUẬN – HƢỚNG PHÁT TRIỂN ........................................................................57
TÀI LIỆU THAM KHẢO ............................................................................................. 58
5
Automatic teller machine
SMS
Short Message Service
SQL
Structured Query Language
ETL
Extract, Transform and Load
6
DANH MỤC BẢNG BIỂU
Bảng 3.1. Mô tả bảng TaiKhoan ...................................................................................28
Bảng 3.2. Mô tả bảng ATM........................................................................................... 28
Bảng 3.3. Mô tả bảng Bill ............................................................................................. 29
Bảng 3.4. Mô tả bảng Retail .......................................................................................... 30
Bảng 3.5. Kết quả mơ hình khi thay đổi tham số COMPLEXITY_PENALTY ...........40
Bảng 3.6. Chú thích của các nút tại nhánh sử dụng ATM = 1 ......................................41
Bảng 3.7. Bảng tỷ lệ dự đốn ba thuật tốn dự báo tình hình sử dụng dịch vụ ............45
Bảng 3.8.Chú thích các nút của cây phân nhánh ........................................................... 49
7
Hình 3.24. Mơ hình dự báo thanh toán bán lẻ tháng 6 ..................................................46
8
Hình 3.25. Kết quả dự báo thanh tốn bán lẻ của khách hàng ......................................47
Hình 3.26. Mơ hình khai phá dữ liệu.............................................................................48
Hình 3.27. Mạng phụ thuộc thanh tốn bán lẻ và các thuộc tính của khách hàng ........48
Hình 3.28. Cây phân nhánh dự đốn nhóm khách hàng sử dụng thanh tốn bán lẻ .....49
Hình 3.29. Biểu đồ so sánh độ chính xác ......................................................................50
Hình 3.30. Mơ hình khai phá dự đốn sự việc sử dụng giao dịch rút tiền .................... 50
Hình 3.31. Mơ hình khai phá dự đốn việc sử dụng giao dịch thanh tốn điện thoại ...51
Hình 3.32. Cây phân nhánh dự báo tình hình sử dụng giao dịch rút tiền ATM ............51
Hình 3.33. Cây phân nhánh dự báo tình hình sử dụng giao dịch thanh tốn điện thoại51
Hình 3.34. Mạng phụ thuộc khi dùng thuật toán cây quyết định dự báo việc rút tiền
ATM .............................................................................................................................. 52
Hình 3.35. Mạng phụ thuộc dự báo việc thanh tốn điện thoại ....................................52
Hình 3.36. Biểu đồ dự báo việc sử dụng giao dịch thanh toán hóa đơn điện thoại .......53
Hình 3.37. Ma trận phân lớp dự đốn tình hình rút tiền tại ATM .................................53
Hình 3.38. Ma trận phân lớp của việc sử dụng dịch vụ thanh tốn điện thoại ..............54
Hình 3.39. Mơ hình khai phá dữ liệu dự báo xu hƣớng sử dụng thanh toán điện thoại 54
Hình 3.40. Dự đốn chiều hƣớng sử dụng dịch vụ thanh tốn điện thoại ..................... 55
Hình 3.41. Biểu đồ lƣợng giao dịch thanh toán cƣớc điện thoại theo tháng .................56
9
MỞ ĐẦU
Trong thời đại kinh tế thị trƣờng, các doanh nghiệp sản xuất kinh doanh ngày
càng có nhiều đối thủ cạnh tranh, cạnh tranh về giá cả và chất lƣợng sản phẩm dịch vụ.
Khi cuộc chiến về giá cả gần nhƣ bão hịa thì các đơn vị sản xuất kinh doanh hàng hóa
10
CHƢƠNG 1. GIỚI THIỆU
1.1. Nhu cầu xây dựng kho dữ liệu về khách hàng
1.1.1. Tại sao cần quan tâm đến khách hàng
Vai trò của khách hàng trong hoạt động sản xuất kinh doanh của doanh nghiệp
là không thể phủ nhận. Ở đây có thể dẫn chứng nhận định của nhà kinh tế nổi tiếng
Erwin Frand “Khơng có khách hàng sẽ khơng có bất cứ cơng ty nào tồn tại” đã cho
thấy vai trò của khách hàng trong mọi hoạt động kinh doanh.
Lý do cần quan tâm đến khách hàng:
Khách hàng là yếu tố quan trọng quyết định sự sống còn và phát triển
của doanh nghiệp.
Khách hàng ngày càng có nhiều sự lựa chọn cho sản phẩm dịch vụ.
Chất lƣợng sản phẩm dịch vụ ngày càng có ít sự khác biệt.
Làm thế nào để giữ chân đƣợc khách hàng cũ lôi kéo đƣợc khách hàng mới
luôn là vấn đề mà các doanh nghiệp quan tâm. Để làm đƣợc điều này trƣớc tiên cùng
xem khách hàng mong muốn gì trƣớc khi mua sản phẩm hoặc sử dụng dịch vụ. Theo
một bài báo tại Doanh nhân Hồ Chí Minh cuối tuần thì khách hàng thƣờng có những
câu hỏi sau trƣớc khi quyết định mua sản phẩm hay sử dụng dịch vụ [6]:
Doanh nghiệp có thể làm đƣợc điều gì cho tôi: theo Robbie Bogue,
Chủ tịch của Marketing Excellence, một cơng ty tƣ vấn tiếp của Los
Angeles (Mỹ), nói: “Khách hàng thường khơng quan tâm đến những gì
bạn biết hay bạn có thể làm cho đến khi họ biết được bạn có thể làm
được điều gì cho họ”.
Tại sao sản phẩm/dịch vụ lại Quan trọng đối với tôi: khách hàng sẽ đi
tìm những thứ mà họ muốn mua chứ không phải là những thứ mà doanh
nghiệp muốn họ mua. Doanh nghiệp có thể “yêu” sản phẩm hay dịch vụ
do mình tạo ra nhƣng sản phẩm hay dịch vụ đó chẳng đem đến cho
khách hàng một giá trị hay lợi ích nào thì chắc chắn nó sẽ khơng đƣợc họ
và mất thời gian, tiền bạc để bảo trì, sữa chữa) thành một thú vui.
Dịch vụ của doanh nghiệp có nhanh hơn các dịch vụ mà tơi đang sử
dụng hay khơng? Thời gian là tiền bạc. Chính vì vậy mà thƣ điện tử trở
thành ứng dụng phát triển nhanh nhất trong thế giới Internet. Và nếu
Fedex, một công ty chuyển phát nhanh hàng đầu của thế giới, không đƣa
ra thị trƣờng dịch vụ “giao hàng vào cuối tuần“ để phục vụ những khách
hàng phải làm việc vào cuối tuần thì cơng ty này đã mất một số khách
hàng vào tay US Postal Service, một đối thủ cạnh tranh lớn của FedEx
trên thị trƣờng Mỹ.
Sản phẩm hay dịch vụ của doanh nghiệp có Rẻ Hơn những sản
phẩm hay dịch vụ mà tơi đang sử dụng hay khơng? Chi phí là một
trong những vấn đề đƣợc khách hàng quan tâm hàng đầu khi quyết định
mua một sản phẩm hay dịch vụ. Trƣớc khi mua sỉ đƣợc xem là một việc
làm “hạ cấp“, bình dân nhƣng nay ngƣời ta quan niệm rằng mua lẻ
không phải là một việc làm khôn ngoan. Nếu khách hàng khơng bận tâm
gì đến giá cả thì các công ty đã không sử dụng chiêu “sale off“ (bán hàng
giảm giá) khá thƣờng xuyên trong các quảng cáo của họ.
Việc sử dụng sản phẩm hay dịch vụ của doanh nghiệp có Giảm Bớt
Rủi Ro so với việc sử dụng các sản phẩm hay dịch vụ khác hay
khơng?
Bạn có sẵn sàng đầu tƣ tất cả tiền bạc của mình vào một cơng ty hay dịch
vụ tài chính mới thành lập, chƣa có một dấu ấn, thành tích đáng kể nào
trong hoạt động, mặc dù cơng ty đó có những ý tƣởng đầu tƣ rất tuyệt
vời hay không? Chắc chắn là không. Khách hàng cũng vậy, họ chỉ mua
một sản phẩm mới hay sử dụng một dịch vụ mới khi họ cảm thấy an
toàn.
1.1.2. Nhu cầu quan tâm đến khách hàng của các ngân hàng thƣơng mại
Ngân hàng Thƣơng mại (NHTM) là một tổ chức kinh doanh tiền tệ và dịch vụ
ngân hàng bằng cách huy động vốn tức là nhận tiền gửi và phát hành giấy tờ có giá, rồi
Bộ Thông tin và truyền thơng cho ta thấy thị trƣờng thanh tốn trực tuyến của ngân
hàng rất tiềm năng và cần đƣợc quan tâm.
Các loại giao dịch phổ biến của ngân hàng :
Thanh tốn cƣớc điện thoại qua ngân hàng: Đây là hình thức thanh tốn
cƣớc phí nhanh chóng, an tồn và tiết kiệm chi phí cho khách hàng. Th bao chỉ cần
có Tài khoản Ngân hàng hoặc có thẻ Ngân hàng là có thể thanh tốn cƣớc phí trả sau
online trên tồn quốc. Thời gian xử lý thanh tốn hồn tồn theo phƣơng thức online
nên rất nhanh và hiệu quả. Khách hàng có thể thực hiện qua các hình thức nhƣ Mobile
Banking, Internet Banking, ATM, giao dịch tại quầy Ngân hàng hay ủy nhiệm thu định
kỳ.
Thanh tốn hóa đơn hàng hóa dịch vụ bán lẻ: Đây là hình thức thanh tốn
hóa đơn dịch vụ thông qua hệ thống POS, ATM, qua hệ thống Internet Banking, SMS-
13
Banking. Số lƣợng chủ thẻ ngày càng lớn cùng với việc mở rộng mạng lƣới POS tại
các đại lý và việc hỗ trợ thanh toán liên ngân hàng loại giao dịch này càng ngày càng
gia tăng về số lƣợng giao dịch.
1.2. Giới thiệu một số dịch vụ ngân hàng
-
-
-
-
-
Dịch vụ thu hộ hóa đơn: Dịch vụ Thu hộ hóa đơn qua ngân hàng là kênh thanh
tốn chính xác, tiện lợi giúp nhà cung cấp thu phí sử dụng dịch vụ thơng qua tài
khoản của khách hàng tại ngân hàng. Khách hàng nợ hoá đơn chỉ cần có tài
khoản ngân hàng là có thể chủ động thanh tốn các khoản nợ cƣớc của mình.
Với dịch vụ này, các hóa đơn định kỳ nhƣ điện thoại, Internet, điện, nƣớc,
truyền hình cáp, thanh tốn học phí,...,... có thể đƣợc thanh tốn dễ dàng mà
khách hàng khơng cần tới các điểm thu phí dịch vụ. Chỉ với một lần đăng ký,
các hóa đơn hàng tháng đƣợc khách hàng ủy quyền giao cho ngân hàng sẽ đƣợc
14
thanh toán đầy đủ, đúng hẹn. Số tiền thanh toán đƣợc ngân hàng tự động trích
nợ từ tài khoản của khách hàng. Hóa đơn tài chính sẽ đƣợc nhà cung cấp dịch
vụ gửi về cho khách hàng qua đƣờng bƣu điện.
Việc kết nối dịch vụ thu hộ hóa đơn qua ngân hàng, các nhà cung cấp dịch vụ sẽ
có thêm một kênh thanh tốn mới, giảm thiểu chi phí cho nhân viên thu cƣớc,
các điểm thu cƣớc, phục vụ khách hàng ngày càng tốt hơn bằng việc đem lại
cho họ nhiều tiện ích mới, đa dạng. Cùng với đó, phƣơng thức thanh tốn khơng
dùng tiền mặt sẽ giúp tránh đƣợc các rủi ro xảy ra với các khoản tiền công ty
thu đƣợc từ khách hàng nhƣ: mất tiền, tiền giả…
Dịch vụ thu hộ hóa đơn giúp khách hàng bỏ đƣợc nỗi lo khi bị cắt hoặc dừng sử
dụng dịch vụ khi khách hàng khơng thanh tốn đầy đủ đúng hạn vì khơng phải
thu xếp thời gian đến các điểm thu phí hoặc đi cơng tác.
1.3. Những lợi ích mà dịch vụ ngân hàng mang lại
1.3.1. Đối với ngân hàng
Tiết kiệm chi phí, tăng doanh thu:
Phí giao dịch Internet-banking đƣợc đánh giá là ở mức rất thấp so với giao dịch
truyền thống, từ đó góp phần tăng doanh thu hoạt động cho ngân hàng. Theo thống kê
của Ngân hàng Đông Á, chi phí cho giao dịch trên Internet chỉ bằng 1/12 giao dịch tại
xác.
Thơng tin liên lạc thuận tiện hơn, hiệu quả hơn
Thanh tốn hóa đơn dịch vụ qua các kênh thanh tốn trực tuyến giúp cho khách
hàng có thể liên lạc với ngân hàng một cách nhanh chóng, thuận tiện để thực hiện một
số nghiệp vụ ngân hàng tại bất kỳ thời điểm nào và ở bất cứ nơi đâu có Internet. Dịch
vụ thanh toán trực tuyến giúp khách hàng dễ dàng hơn trong vấn đề chuyển khoản và
thanh toán qua mạng. Việc mua bán hàng hóa qua mạng đặc biệt là hàng hóa số hóa thì
thanh tốn trực tuyến rất tiện lợi cho cả ngƣời mua và ngƣời bán.
1.3.3. Đối với nhà cung cấp dịch vụ:
Đối với nhà cung cấp dịch vụ khi sử dụng dịch vụ của ngân hàng sẽ tiết kiệm
đƣợc chi phí mở cửa hàng, nhân lực vì khơng phải trực tiếp đến giao dịch với ngân
hàng. Không phải đổi tiền, chuẩn bị tiền lẻ để trả lại khách hàng.
1.4. Mục tiêu và cấu trúc của luận văn
Với mục tiêu Tìm hiểu và ứng dụng cơng nghệ Busines Intelligent trong phân
tích và khai thác dữ liệu trong CSDL giao dịch của khách hàng nhằm tìm ra mối liên
quan giữa khách hàng và các dịch vụ của ngân hàng vì thế trong khn khổ giới hạn
của luận văn, tơi xin trình bày:
-
Tìm hiểu cơ sở lý thuyết về công nghệ BI, giới thiệu về kho dữ liệu, khai phá
dữ liệu.
Xây dựng cơ sở dữ liệu khách hàng.
Thiết kế báo cáo động thống kê và trực quan.
Sử dụng các kỹ thuật khai phá dữ liệu để phân tích dữ liệu.
16
các cơng cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho ngƣời sử dụng trên
cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trƣờng khác nhau.
KDL thƣờng rất lớn tới hàng trăm GB thậm chí hàng nghìn TB.
17
b. Kiến trúc kho dữ liệu
Nhìn chung tất cả các hệ thống kho dữ liệu có các thành phần sau [14]
Hình 2.1. Kiến trúc kho dữ liệu
-
-
-
-
-
-
Data Source Layer: Cung cấp dữ liệu cho kho dữ liệu. Nguồn dữ liệu có nhiều
dạng khác nhau: tệp văn bản, cơ sở dữ liệu quan hệ, các loại cơ sở dữ liệu khác,
file excel,…Nhiều loại dữ liệu khác nhau có thể
Data Extraction Layer: Dữ liệu đƣợc lấy từ nguồn dữ liệu vao kho dữ liệu, tại
lớp này dữ liệu có thể làm sạch phần nào đó.
Staging Area: Đây là vị trí tạm thời mà tại đó dữ liệu nguồn đƣợc sao chép.
Stagin area là cần thiết vì lý do thời gian. Tóm lại, tất cả các dữ liệu cần thiết
phải có sẵn trƣớc khi dữ liệu có thể đƣợc tích hợp vào kho dữ liệu.
lịch sử truy cập của ngƣời dùng.
c. Mục đích của kho dữ liệu
Mục đích chính của kho dữ liệu là nhắm đáp ứng các tiêu chuẩn cơ bản sau:
-
-
Phải có khả năng đáp ứng mọi u cầu về thơng tin của ngƣời sử dụng.
Hỗ trợ các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình,
nhƣ có quyết định hợp lý, nhanh và bán đƣợc nhiều hàng hơn, năng suất cao
hơn, thu đƣợc lợi nhuận cao hơn…
Giúp cho tổ chức xác định quản lý và điều hành các dự án, nghiệp vụ một cách
hiệu quả và chính xác.
Tích hợp dữ liệu và các siêu dữ liệu từ nguồn khác nhau.
d. Đặc tính của kho dữ liệu
Những đặc điểm cơ bản của kho dữ liệu là một tập hợp dữ liệu có tính chất sau:
-
-
-
-
Tính tích hợp: Kho dữ liệu thƣờng đƣợc xây dựng bằng cách tổng hợp dữ liệu
từ nhiều nguồn khác nhau, ví dụ các cơ sở dữ liệu, những bản ghi giao tác trực
tuy ến hoặc thậm chí là từ những file dữ liệu độc lập. Những dữ liệu này tiếp
tục đƣợc làm sạch, chuẩn hóa để đảm bảo sự nhất quán, sau đó đƣa vào kho dữ
Hình 2.3. Sơ đồ bơng tuyết
20
-
Sơ đồ chòm sao sự kiện: Bảng sự kiện phức chia sẻ các bảng chiều, tạo khung
nhìn một tập các “ngơi sao” nên cịn đƣợc gọi là sơ đồ ngân hà hoặc chòm sao
sự kiện.
2.1.2.2. Giới thiệu về khai phá dữ liệu
a. Khái niệm
Khai phá dữ liệu đƣợc định nghĩa là: q trình trích xuất các thơng tin có giá trị
tiềm ẩn bên trong lƣợng lớn dữ liệu đƣợc lƣu trữ trong các cơ sở dữ liệu, kho dữ
liệu… Hiện nay, ngoài thuật ngữ khai phá dữ liệu, ngƣời ta cịn dùng một số thuật
ngữ khác có ý nghĩa tƣơng tự nhƣ: khai phá tri thức từ cơ sở dữ liệu (knowlegde
mining from databases), trích lọc dữ liệu (knowlegde extraction), phân tích dữ
liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu
(data dredging). Nhiều ngƣời coi khai phá dữ liệu và một thuật ngữ thông dụng khác
là khám phá tri thức trong cơ sở dữ liệu (Knowlegde Discovery in Databases) là nhƣ
nhau. Tuy nhiên trên thực tế, khai phá dữ liệu chỉ là một bƣớc thiết yếu trong quá
trình khám phá tri thức trong cơ sở dữ liệu. Quá trình này bao gồm các bƣớc sau:
- Bƣớc 1) Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu hoặc các dữ liệu
khơng thích hợp;
- Bƣớc 2) Tích hợp dữ liệu (data integration): tích hợp dữ liệu từ các nguồn
khác nhau nhƣ: Cơ sở dữ liệu, Kho dữ liệu, file text...;
- Bƣớc 3) Chọn dữ liệu (data selection): ở bƣớc này, những dữ liệu liên quan
trực tiếp đến nhiệm vụ sẽ đƣợc thu thập từ các nguồn dữ liệu ban đầu;
- Bƣớc 4) Chuyển đổi dữ liệu (data transformation): trong bƣớc này, dữ liệu
+ Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định.
+ Điều trị y học và chăm sóc y tế: một số thơng tin về chuẩn đoán bệnh lƣu
trong các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa các triệu chứng bệnh,
chuẩn đoán và phƣơng pháp điều trị (chế độ dinh dƣỡng, thuốc, ...)
+ Sản xuất và chế biến: Quy trình, phƣơng pháp chế biến và xử lý sự cố.
22
+ Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm tắt
văn bản,...
+ Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học,
tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một số
bệnh di truyền, ...
+ Mạng viễn thơng: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi,
sự cố, chất lƣợng dịch vụ.
c. Ƣu thế khai phá dữ liệu
Khai phá dữ liệu có nhiều ứng dụng và một số ƣu thế rõ rệt đƣợc xem xét
dƣới đây:
+ So với phƣơng pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá
dữ liệu có thể sử dụng với các cơ sở dữ liệu chứa nhiều nhiễu, dữ liệu không đầy đủ
hoặc biến đổi liên tục. Trong khi đó phƣơng pháp học máy chủ yếu đƣợc áp dụng
trong các cơ sở dữ liệu đầy đủ, ít biến động và tập dữ liệu không quá lớn;
+ Phƣơng pháp hệ chuyên gia: phƣơng pháp này khác với khai phá dữ liệu ở chỗ
các ví dụ của chuyên gia thƣờng ở mức chất lƣợng cao hơn nhiều so với các dữ liệu
trong cơ sở dữ liệu, và chúng thƣờng chỉ bao hàm đƣợc các trƣờng hợp quan trọng.
Hơn nữa các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện
đƣợc;
+ Phƣơng pháp thống kê là một trong những nền tảng lí thuyết của Khai phá dữ
liệu, nhƣng khi so sánh hai phƣơng pháp với nhau ta có thể thấy các phƣơng pháp
thống kê còn tồn tại một số điểm yếu mà Khai phá dữ liệu đã khắc phục đƣợc:
đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có. Các kĩ thuật này có thể liệt kê:
phân cụm (clustering), tóm tắt (summerization), trực quan hóa (visualization), phân
tích sự phát hiện biến đổi và độ lệch, phân tích luật kết hợp (association rules)...;
- Kĩ thuật khai phá dữ liệu dự đốn: có nhiệm vụ đƣa ra các dự đoán dựa vào các
suy diễn trên dữ liệu hiện thời. Các kĩ thuật này gồm có: phân lớp (classification), hồi
quy (regression)...;
Ba phƣơng pháp thông dụng nhất trong khai phá dữ liệu là: phân cụm dữ liệu,
phân lớp dữ liệu và khai phá luật kết hợp.
Phân cụm dữ liệu: Mục tiêu chính của phƣơng pháp phân cụm dữ liệu là nhóm
các đối tƣợng tƣơng tự nhau trong tập dữ liệu vào các cụm sao cho các đối tƣợng thuộc
cùng một lớp là tƣơng đồng còn các đối tƣợng thuộc các cụm khác nhau sẽ không
tƣơng đồng. Phân cụm dữ liệu là một ví dụ của phƣơng pháp học khơng có thầy.
Khơng giống nhƣ phân lớp dữ liệu, phân cụm dữ liệu khơng địi hỏi phải định nghĩa
trƣớc các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là một cách học
bằng quan sát (learning by observation), trong khi phân lớp dữ liệu là học bằng ví dụ
(learning by example). Trong phƣơng pháp này bạn sẽ không thể biết kết quả các cụm
thu đƣợc sẽ nhƣ thế nào khi bắt đầu q trình. Vì vậy, thơng thƣờng cần có một
chuyên gia về lĩnh vực đó để đánh giá các cụm thu đƣợc. Phân cụm dữ liệu đƣợc sử
dụng nhiều trong các ứng dụng về phân đoạn thị trƣờng, phân đoạn khách hàng, nhận
dạng mẫu, phân loại trang Web… Ngồi ra phân cụm dữ liệu cịn có thể đƣợc sử dụng
nhƣ một bƣớc tiền xử lí cho các thuật toán khai phá dữ liệu khác.
Khai phá luật kết hợp: Mục tiêu của phƣơng pháp này là phát hiện và đƣa ra các
mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai
phá dữ liệu là tập luật kết hợp tìm đƣợc. Chẳng hạn: phân tích cơ sở dữ liệu bán hàng
nhận đƣợc thông tin về những khách hàng mua máy tính có khuynh hƣớng mua phần
mềm quản lý tài chính trong cùng lần mua đƣợc miêu tả trong luật kết hợp sau:
“Máy tính => Phần mềm quản lý tài chính”
[Độ hỗ trợ: 2%, độ tin cậy: 60%]
Độ hỗ trợ và độ tin cậy là hai độ đo của sự đáng quan tâm của luật. Chúng tƣơng
ứng phản ánh sự hữu ích và sự chắc chắn của luật đã khám phá. Độ hỗ trợ 2% có nghĩa