Tiểu luận môn học khai phá dữ liệu chủ đề Khai phá dữ liệu bằng luật kết hợp - Pdf 26

Khai phá dữ liệu và datamining Trường Đại học CNTT TP.HCM
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN
MƠN: KHAI PHÁ DỮ LIỆU VÀ DATAMINING
TIỂU LUẬN MÔN HỌC
KHAI PHÁ DỮ LIỆU
BẰNG LUẬT KẾT HP
Giảng viên hướng dẫn
PGS.TS Đỗ Phúc
Sinh viên : Võ Minh Hiếu
MSSV : CH1001103
TP.HCM, tháng 11 - 2012
Học viên: CH1001103 - Võ Minh Hiếu Trang 1 / 77 GVHD: TS Đỗ Phúc
Khai phá dữ liệu và datamining Trường Đại học CNTT TP.HCM
NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN


được gọi là kỹ thuật Khai phá dữ liệu( Data Mining).
Từ những lý do đó em đã hiểu về đề tài Khai phá dữ liệu bằng luật

kết
hợp. Nhằm phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra những mẫu
thông tin, hoạt động có tính chính quy trong tập dữ liệu mà người sử dụng mong

muốn, đồng thời để áp dụng vào bài toán Quản lý bán hàng tại siêu thị.
Trong quá trình làm đồ án để hoàn thành đề tài này chúng đã nhận được sự
giúp đỡ chỉ bảo tận tình của các thầy. Nhưng do thời gian có giới

hạn và năng lực
còn hạn chế nên không tránh khỏi những sai sót, em mong

nhận được sự góp ý
hơn nữa của thầy cô và các bạn.
Học viên: CH1001103 - Võ Minh Hiếu Trang 3 / 77 GVHD: TS Đỗ Phúc
Khai phá dữ liệu và datamining Trường Đại học CNTT TP.HCM
TÓM TẮT ĐỀ TÀI
Nội dung của đồ án là những kiến thức về khai phá dữ liệu sử dụng luật kết
hợp, các thuật toán kinh điển trong quá trình sử dụng luật kết hợp, cách áp dụng
thuật toán Apriori vào một phần nhỏ trong bài toán Quản lý bán hàng tại siêu thị .
Mục đích của đồ án là:
Phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra những mẫu thông
tin, hoạt động có tính chính quy trong tập dữ liệu mà người sử dụng mong muốn.
Đưa ra các thuật toán cơ bản như Apriori, thuật toán tìm luật kết hợp không
phát sinh ứng viên dựa vào cấu trúc cây FP- Tree, v.v.trong việc sử dụng luật kết
hợp để phân tích một cơ sở dữ liệu nào đó.
Phân tích cơ sở dữ liệu và cài đặt thuật toán Apriori để áp dụng một phần
nhỏ vào bài toán Quản lý bán hàng tại siêu thị .

Chọn lọc dữ liệu 16
Làm sạch 16
Làm giàu dữ liệu 17
Mã hoá dữ liệu 17
Đánh giá và trình diễn 17
Khai phá dữ liệu 18
Phát biểu và đánh giá kết quả 18
Sử dụng tri thức đã phát hiện 18
Khaiphádữliệu có nhữnglợi íchgì 18
Cáckỹthuậtkhaiphádữliệu 19
Kỹ thuật khai phá dữ liệu mô tả 19
Kỹ thuật khai phá dữ liệu dự đoán 19
Nhiêm vụ chínhcủakhaiphádữliệu 19
Phân lớp (Classification) 20
Hồi quy (Regression) 20
Gom nhóm (Clustering) 20

1.6.4.
Tổng
hợp
(Summarization)

Tính chất 2.2.4.3 28
Tính chất 2. 2.4.4 28
Định nghĩa 2.2.5: Tập mặt hàng phổ biến 29
Định nghĩa 2.2.6: Luật kết hợp 29
Tính chất 2.2.6.1: Luật kết hợp không có hợp thành. 29
Tính chất 2.2.6.2: Luật kết hợp không có tính tách. 29
Tính chất 2.2.6.3: Luật kết hợp không có tính bắc cầu. 30
Tính chất 2.2.6.4 30
Tìm tập phổbiến 30
Một số khái niệm 30
Thuật toán Apriori 31

2.3.2.1.

tả
thuật
toán


Thuật toán FP_Growth 51
Chương III: CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TOÁN TÌM TẬP PHỔ BIẾN VÀ
LUẬT KẾT HỢP 52
Phátbiểubài toán 52
Lựachọnthuật toán đểcàiđặtphầnmềm 52
Yêu cầu khi cài đặtthuậttoán 52
Cơ sở dữliệu 53
Giao diện chính của cơ sở dữ liệu. 53
Bảng danh mục các Nhà cung cấp hàng hóa 54
Bảng danh mục các Hàng Hoá 55
Bảng danh mục các Khách Hàng. 56
Bảng danh mục các Hoá Đơn. 57
Bảng danh mục chi tiết Hoá Đơn. 58
Ghi XML. 59
Giaodiệnchínhchươngtrình 59
Kếtnốidữliệu 60
Thêmdưliệu Xml 60
Kếtquảphântích 61
KếtquảlọcMinSup =10 61
KếtquảlọcMinCon =40% 62
KẾT LUẬNCHUNG 63
HƯỚNGPHÁTTRIỂNĐỀTÀI 64
TÀILIỆUTHAMKHẢO 65
BẢNGĐỐICHIẾUTHUẬT NGỮ VIỆT - ANH 66
Học viên: CH1001103 - Võ Minh Hiếu Trang 6 / 77 GVHD: TS Đỗ Phúc
Khai phá dữ liệu và datamining Trường Đại học CNTT TP.HCM
MỞ ĐẦU

toán Quản lý bán hàng tại siêu thị .
Học viên: CH1001103 - Võ Minh Hiếu Trang 7 / 77 GVHD: TS Đỗ Phúc
Khai phá dữ liệu và datamining Trường Đại học CNTT TP.HCM
Chương I: TỔNG QUAN VỀ KHAI PHÁI DỮ LIỆU
Đặt vấn đề
Trong kỉ nguyên Internet, Intranets, Warehouses, đã mở ra nhiều cơ hội cho
những nhà doanh nghiệp trong việc thu thập và xử lý thông tin. Hơn nữa, các công
nghệ lưu trữ và phục hồi dữ liệu phát triển một cách nhanh chóng vì thế cơ sở dữ
liệu ở các cơ quan, doanh nghiệp, đơn vị ngày càng nhiều thông tin tiềm ẩn phong
phú và đa dạng.
Cơ sở dữ liệu trong các doanh nghiệp thì dữ liệu giao dịch đóng một vai trò
rất quan trọng cho việc hoạch định kế hoạch kinh doanh trên thương trường vào
những năm tiếp theo. Hiện tại, việc sử dụng các dữ liệu này tuy đã đạt được một số
kết quả nhất định song vẫn còn một số vấn đề tồn đọng như:
- Dựa hoàn toàn vào dữ liệu, không sử dụng tri thức có sẳn về lĩnh vực, kết
quả phân tích khó có thể làm rõ được.
- Phải có sự hướng dẫn của người dùng để xác định phân tích dữ liệu như thế
nào và ở đâu.
Trong điều kiện và yêu cầu của xã hội, đòi hỏi phải có những phương pháp
nhanh, phù hợp, tự động, chính xác và có hiệu quả để lấy được thông tin có giá trị.
Các tri thức chiết xuất được từ cơ sở dữ liệu trên sẽ là một nguồn tài liệu hỗ trợ cho
lãnh đạo trong việc lên kế hoạch hoạt động hoặc trong việc ra quyết định sản xuất
kinh doanh. Vì vậy, tính ứng dụng của khai phá dữ liệu bằng luật kết hợp từ cơ sở
dữ liệu giao dịch là một vấn đề đang được quan tâm đặc biệt trong xã hội hiện nay.
Mục đích của việc nghiên cứu là xây dựng một giải pháp hiệu quả tính ứng
dụng luật kết hợp trong việc ra quyết định của cơ quan doanh nghiệp dựa trên cơ sở
dữ liệu giao dịch.
Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin và Internet vào
nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật, Đã tạo ra nhiều
cơ sở dữ liệu khổng lồ ví dụ như cơ sở dữ liệu bán hàng của một siêu thị chứa hàng

trung tâm. Do đó nó không phải là một hệ thống phân tích tự động mà là một hệ
thống bao gồm nhiều hoạt động tương tác thường xuyên giữa con người và cơ sở dữ
liệu, tất nhiên là với sự hỗ trợ của các công cụ tin học.
Xác địnhbài toán
Thuthập vàtiềnxửlý dữ
liệu
Khai phá dữliệutriết xuất
tri thức
Phát biểukết quảvà
đánh giátriết xuất tri
thức
Sửdụngtri thức
vàphát hiệnđược
triết xuất tri thức
Học viên: CH1001103 - Võ Minh Hiếu Trang 9 / 77 GVHD: TS Đỗ Phúc
Khai phá dữ liệu và datamining Trường Đại học CNTT TP.HCM
Hình 1.1. Quá trình phát hiện tri thức từ cơ sở dữ liệu
Mặc dù có 5 giai đoạn như trên( hình 1.1) xong quá trình phát hiện tri thức từ cơ

sở dữ liệu là 1 quá trình tương tác và lặp đi lặp lại theo kiểu xoắn chôn ốc, trong đó
Học viên: CH1001103 - Võ Minh Hiếu Trang 10 / 77 GVHD: TS Đỗ Phúc
Khai phá dữ liệu và datamining Trường Đại học CNTT TP.HCM
lần lặp sau hoàn chỉnh hơn lần lặp trước. Ngoài ra giai đoạn sau lại dựa trên kết quả
thu được của giai đoạn trước theo kiểu thác nước. Đây là một quá trình biện trứng
mang tính chất học của quá trình phát hiện trí thức và là phương pháp luận trong
viện phát hiện tri thức. Các giai đoạn đó sẽ được trình bày cụ thể như sau:
Xác định bài toán
Đây là một quá trình mang tính định hình với mục đích xác định được lĩnh
vực yêu cầu phát hiện tri thức và xây dựng bài toán tổng kết. Trong thực tế các cơ
sở dữ liệu được chuyên môn hoá và phân chia theo các lĩnh vực khác nhau như: Sản

Pattern Discovery
Học viên: CH1001103 - Võ Minh Hiếu Trang 11 / 77 GVHD: TS Đỗ Phúc
Khai phá dữ liệu và datamining Trường Đại học CNTT TP.HCM
Knowledge
Internet,
Data
Target
Preprocessed
Preparated
Hình 1.2. Quá trình phát hiện tri thức
Học viên: CH1001103 - Võ Minh Hiếu Trang 12 / 77 GVHD: TS Đỗ Phúc
Gom dữ liệu
Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là
bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ
liệu từ các nguồn ứng dụng Web.
Chọn lọc dữ liệu
Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn
nào đó. Đây là giai đoạn chọn lọc, trích rút các dữ liệu cần thiết tứ cơ sở dữ liệu tác
nghiệp vào một cơ sở dữ liệu riêng. Chúng ta chọn ra những dữ liệu cần thiết cho
các giai đoạn sau. Tuy nhiên công việc thu gom dữ liệu vào một cơ sở dữ liệu
thường rất kho khăn vì dữ liệu nằm rải rác khắp nơi trong cơ quan, tổ chức cùng
một loại thông tin, nhưng được tạo lập theo các dạng hình thức khác nhau. Ví dụ
nơi này dùng kiểu chuỗi, nơi kia lại dùng kiểu số để khai báo một thuộc tính nào đó
của khách hàng. Đồng thời chất lượng dữ liệu của các nơi cũng không giống nhau.
Vì vậy chúng ta cần chọn lọc dữ liệu thật tốt để chuyển sang giai đoạn tiếp theo
Làm sạch
Giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một
bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải
trong khi gom dữ liệu là tính không đủ chặt chẻ, logíc. Vì vậy, dữ liệu thường chứa
các giá trị vô nghĩa và không có khả năng kết nối dữ liệu. Giai đoạn này sẽ tiến

lệ để xử lý.
Làm giàu dữ liệu
Mục đích của giai đoạn này là bổ sung thêm nhiều loại thông tin có liên
quan vào cơ sở dữ liệu gốc. Để làm được điêu này, chúng ta phải có các cơ sở dữ
liệu khác ở bên ngoài có liên quan tới cơ sở dữ liệu gốc ban đầu. Ta tiến hành bổ
sung những thông tin cần thiết, làm tăng khả năng khám phá tri thức.
Đây là bước mang tính tư duy trong khai phá dữ liệu.Ở giai đoạn này
nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật
toán thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình
dữ liệu tuần tự, v. v.
Quá trình làm giàu bao gồm việc tích hợp và chuyển đổi dữ liệu. Các dữ
liệu từ nhiều nguồn khác nhau được tích hợp thành một kho thông nhất. Các
khuôn dạng khác nhau của dữ liệu cũng được quy đổi, tính toán lại để đưa về
một kiểu thống nhất, tiện cho quá trình phân tích.
Mã hoá dữ liệu
Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và
điều khiển được bởi việc tổ chức lại nó. Dữ liệu đã được chuyển đổi phù hợp với
mục đích khai thác. Mục đích của giai đoạn này là chuyển đổi kiểu dữ liệu về những
dạng thuật tiện để tiến hành các thuật toán khám phá dữ liệu. Có nhiều cách mã hoá
dữ liệu như:
- Phân vùng: Dữ liệu là giá trị chuỗi, nằm trong các tập các chuỗi cố đinh.
- Biến đổi giá trị năm thành con số nguyên là số năm đã trôi qua so với năm
hiện hành.
- Chia giá trị số theo một hệ số để tập các giá trị nằm trong vùng nhỏ hơn.
- Chuyển đổi Yes-No thành 0-1.
Đánh giá và trình diễn
Đây là giai đoạn cuối trong quá trình khai phá dữ liệu.Ở giai đoạn này, các
mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ
mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu
tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức cần chiết xuất ra.

Củng cố, tinh chế các tri thức đã được phát hiện. Kết hợp các tri thức thành
hệ thống. Giải quyết các xung đột tiềm tàng trong tri thức khai thác được. Sau đó tri
thức được chuẩn bị sẵn sàng cho ứng dụng.
Các kết quả của quá trình phát hiện tri thức có thể được đưa vào ứng dụng
trong những lĩnh vực khác nhau. Do các kết quả có thể là các dự báo hoặc các mô tả
nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá
quá trình này.
Khai phá dữ liệu có những lợi ích gì
- Cung cấp tri thức hỗ trợ ra quyết định.
- Dự báo.
- Khái quát dữ liệu.
Hình 1.3 Là một mô hình thể hiện lợi ích của KPDL trong việc phân tích và

ra quyết định cho việc ra tiếp thị của một loại sản phẩm nào đó
Tiếp thị
CSDL
Tiếp thị
Nhà kho dữ liệu
KDD &
Data Mining
Hình 1.3: Mô hình lợi ích của khai phá dữ liệu
ác kỹ thuật khai phá dữ liệu
Kỹ thuật khai phá dữ liệu thường được chia làm 2 nhóm chính:
Kỹ thuật khai phá dữ liệu mô tả
Có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu
trong CSDL hiện có. Các kỹ thuật này gồm có: Phân cụm (clustering), tóm tắt
(summerization), trực quan hoá (visualiztion), phân tích sự phát triển và độ lệch
(Evolution and deviation analyst), phân tích luật kết hợp (association rules).v.v.
Kỹ thuật khai phá dữ liệu dự đoán
Có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời.

bằng một hàm chỉ tiêu quảng cáo, v. v.
Gom nhóm (Clustering)
Là việc mô tả chung để tìm ra các tập xác định các nhóm hay các loại để mô
tả

dữ liệu. Các nhóm có thể tách riêng nhau hoặc phân cấp hoặc gối lên nhau. Có
nghĩa là

một dữ liệu có thể vừa thuộc nhóm này, vừa thuộc nhóm kia. Các ứng
dụng khai phá

dữ liệu có nhiệm vụ gom nhóm như: Phát hiện tập các khách hàng có
phản ứng giống nhau trong cơ sở dữ liệu tiếp thị, xác định các loại quang phổ từ
các phương pháp đo tia hồng ngoại.
Tổng hợp (Summarization)
Nhiệm vụ tổng hợp là việc sản sinh ra các mô tả đặc trưng cho một lớp. Các
mô tả này là một kiểu tổng hợp, tóm tắt mô tả các đặc tính chung của tất cả các bộ
dữ liệu dạng giỏ mua hàng thuộc một lớp.
Các mô tả đặc trưng thể hiện dưới dạng các luật thường có khuôn dạng:
“Nếu một bộ dữ liệu thuộc về một lớp đã chỉ ra trong tiền đề, thì bộ dữ liệu đó có tất
cả các thuộc tính đã nêu trong kết luận”. Những luật này có những đặc trưng khác
biệt so với các luật phân lớp. Luật phát hiện đặc trưng cho một lớp chỉ được sản
sinh khi các bộ dữ liệu thuộc về lớp đó.
Mô hình ràng buộc (Dependency modeling)
Bao gồm việc tìm kiếm một mô hình mô tả sự phụ thuộc đáng kể giữa các
biến. Các mô hình phụ thuộc tồn tại dưới hai mức: Mức cấu trúc của mô hình xác
định các biến nào là phụ thuộc cục bộ với nhau, mức định lượng của một mô hình
xác định độ mạnh của sự phụ thuộc theo một thước đo nào đó.
Dò tìm biến đổi và độ lệch (Change and Deviation Dectection)
Tập trung vào khai thác những thay đổi đáng kể nhất trong dữ liệu từ các

= > Với mỗi một mô tả mô hình, phương pháp tìm kiếm tham số được áp
dụng để đánh giá chất lượng mô hình. Các phương pháp tìm kiếm mô hình thường
sử dụng các kỹ thuật tìm kiếm heuristic vì kích thước của không gian các mô hình
có thể thường ngăn cản các tìm kiếm tổng thể, hơn nữa các giải pháp đơn giản
không dễ đạt được.
Một số phương pháp khai thác dữ liệu phổ biến
Phương pháp quy nạp (Induction).
Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng
hơn cũng có thể được suy diễn từ kho thông tin đó. Có hai kỹ thuật chính để thực
hiện việc này là suy diễn và quy nạp.
• Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các
thông tin trong cơ sở dữ liệu. Phương pháp suy diễn dựa trên các sự kiện chính xác

để
suy ra các tri thức mới từ các thông tin cũ. Mẫu chiết xuất được bằng cách sử

dụng
phương pháp này thường là các luật suy diễn.
• Phương pháp quy nạp: .Phương pháp quy nạp suy ra các thông tin
được

sinh ra từ cơ sở dữ liệu. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức
chứ

không phải bắt đầu với các tri thức đã biết trước. Các thông tin mà phương pháp
này đem lại là các thông tin hay các tri thức cấp cao diễn tả về các đối tượng trong cơ
sở dữ

liệu. Phương pháp này liên quan đến việc tìm kiếm các mẫu trong CSDL. Trong
khai

thể phát hiện hết các luật và không phân biệt được luật nào là thông tin thực sự có
giá trị và thú vị.
Vậy chúng ta đặt ra câu hỏi là luật kết hợp nào là thực sự có giá trị? Chẳng
hạn ta có luật: Âm nhạc, ngoại ngữ, thể thao = > CD, nghĩa là những người mua
sách âm nhạc, ngoại ngữ, thể thao thì cũng mua đĩa CD. Lúc đó ta quan tâm đến số
lượng trường hơp khách hàng thoả mãn luật này trong cơ sở dữ liệu hay độ hỗ trợ
cho luật này. Độ hỗ trợ cho luật chính là phần trăm số bản ghi có cả sách âm nhạc,
ngoại ngữ, thể thao và đĩa CD hay tất cả những người thích cả ba loại sách trên.
Tuy nhiên giá trị hỗ trợ là không đủ. Có thể có trường hợp ta có một
nhóm

tương đối những người đọc cả ba loại sách trên nhưng lại có một nhóm với
lượng lớn hơn những người thích sách thể thao, âm nhạc, ngoại ngữ mà không thích
mua đĩa CD. Trong trường hợp này tính kết hợp rất yếu mặc dù độ hỗ trợ tương đối
cao. Như vậy chúng ta cần thêm một độ đo thứ hai đó là độ tin cây (Confidence). Độ
tin cậy là phần trăm các bản ghi có đĩa CD trong số các bản ghi có sách âm nhạc, thể
thao, ngoại ngữ.
Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật
dạng X => B sao cho tần số của luật không nhỏ hơn ngưỡng Minsup cho trước và
độ tin cậy của luật không nhỏ hơn ngưỡng Minconfi cho trước. Từ một cơ sở dữ
liệu ta có thể tìm được hàng nghìn và thậm chí hàng trăm nghìn các luật kết hợp.
Mạng Neuron
Mạng Neuron là tiếp cận tính toán mới liên quan tới việc phát triển cấu
trúc toán học và khả năng học. Các phương pháp là kết quả của việc nghiên cứu mô
hình học của hệ thống thần kinh con người.
Mạng Neuron có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không
chính xác và có thể được sử dụng để chiết xuất các mẫu và phát hiện ra các xu
hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính khác không thể
phát hiện được. Khi đề cập đến khai thác dữ liệu, người ta thường đề cập nhiều đến
mạng Neuron. Tuy mạng Neuron có một số hạn chế gây khó khăn trong việc áp

thuyết tập thô, tập mờ, biểu diễn tri thức, v.v.So với các phương pháp này, khai phá
dữ liệu có một số ưu thế rõ rệt.
So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai
phá dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu không đầy
đủhoặc biến đổi liên tục. Trong khi đó phương pháp học máy chủ yếu được áp
dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không qua lớn.
Phương pháp hệ chuyên gia: Phương pháp này khác với khai phá dữ liệu
ở chỗ các ví dụ của chuyên gia thường ở mức cao hơn nhiều so với các dữ liệu trong
CSDL, và chúng thường chỉ bao hàm được các trường hợp quan trọng. Hơn nữa các
chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được.
Phương pháp thống kê là một trong những nên tảng lý thuyết của khai
phá dữ liệu, nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương
pháp thống kê còn tồn tại một số điểm yếu mà khai phá dữ liệu khắc phục được.
Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có
cấu trúc trong rất nhiều CSDL.
Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử
dụng tri thức có sẵn về lĩnh vực.
Kết quả phân tích của hệ thống sẽ rất nhiều và khó có thể làm rõ ra được.
Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định
phân tích dữ liệu như thế nào và ở đâu.
Với nhưng ưu điểm đó, khai phá dữ liệu hiện đang được áp dụng một
cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau như:
Marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh,
internet.v.v.rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai
phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi
ích to lớn.
Một số ứng dụng của khai phá dữ liệu trong lĩnh vực kinh doanh:

Brandaid: Mô hình Marketing linh hoạt tập chung vào hàng tiêu dùng.
Callpla: Giúp nhân viên bán hàng xác định số lần viếng thăm của khách

luật, phát hiện các luật kết hợp, mạng Neuron, giải thuật di truyền.
Ứng dụng của khai phá dữ liệu: Marketing, tài chính, ngân hàng và bảo
hiểm, khoa học, y tế, an ninh, internet…
Một số thách thức đặt ra cho việc khai phá dữ liệu: Cơ sở dữ liệu lớn, dữ liệu
bị thiếu hoặc nhiễu, quan hệ giữa các trường phức tạp.v.v.
Chương II: TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP
Mở đầu
Hiện nay các công ty, doanh nghiệp đang lưu trữ một lượng thông tin lớn về
bán hàng. Một bản ghi trong cơ sở dữ liệu này chứa các thông tin về ngày mua bán,
số lượng hàng bán, Từ cơ sở dữ liệu bán hàng, chúng ta có thể tìm ra các mối
quan hệ giữa các cặp thuộc tính- giá trị thuộc tính. Đó là luật kết hợp tiêu biểu: Ví
dụ có 80% khách hàng mua sách ngoại ngữ thì sẽ mua đĩa CD hoặc VCD.
ác khái niệm cơ bản
Định nghĩa 2. 2.1: Ngữ cảnh khai phá dữ liệu
Cho tập O là tập hữu hạn khác rỗng các giao tác và I là tập hữu hạn khác
rỗng các mặt hàng, R là một quan hệ hai ngôi giữa O và I sao cho với o

O và
i

I, (o,i)

R= > giao tác.o có chứa mặt hàng i. Ngữ cảnh khai phá dữ liệu (dưới
đây sẽ

gọi tắt là NCKPDL) là bộ ba (O, I, R).


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status