NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN
thông tin, hoạt động có tính chính quy trong tập dữ liệu mà người sử dụng mong
muốn, đồng thời để áp dụng vào bài toán Quản lý bán hàng tại siêu thị.
Trong quá trình làm đồ án để hoàn thành đề tài này chúng đã nhận được sự
giúp đỡ chỉ bảo tận tình của các thầy cô giáo trong khoa công nghệ thông tin và các
bạn trong lớp, đặc biệt là thầy giáo Trần Hùng Cường. Nhưng do thời gian có giới
hạn và năng lực còn hạn chế nên không tránh khỏi những sai sót, chúng em mong
nhận được sự góp ý hơn nữa của thầy cô và các bạn.
Chúng em cũng xin chân thành cảm ơn các thầy giáo, cô giáo trong khoa
Công Nghệ Thông Tin đã tạo điều kiện giúp đỡ chúng em trong xuốt thời gian làm
đồ án và học tập tại trường.
2
Chúng em xin chân thành cảm ơn các bạn cùng lớp đã tạo điều kiện cho
chúng em hoàn thành tốt luận văn này.
Chúng em xin chân thành cảm ơn!
Nhóm sinh viên thực hiện:
Phạm Thị Hoàn
Trần Việt Phương Đông
Lớp CĐ-ĐH-KHMT3-K1
3
TÓM TẮT ĐỒ ÁN
Nội dung của đồ án là những kiến thức về khai phá dữ liệu sử dụng luật kết
hợp, các thuật toán kinh điển trong quá trình sử dụng luật kết hợp, cách áp dụng
thuật toán Apriori vào một phần nhỏ trong bài toán Quản lý bán hàng tại siêu thị .
Mục đích của đồ án là:
Phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra những mẫu thông
tin, hoạt động có tính chính quy trong tập dữ liệu mà người sử dụng mong muốn.
Đưa ra các thuật toán cơ bản như Apriori, thuật toán tìm luật kết hợp không
phát sinh ứng viên dựa vào cấu trúc cây FP- Tree, v.v.trong việc sử dụng luật kết
hợp để phân tích một cơ sở dữ liệu nào đó.
Phân tích cơ sở dữ liệu và cài đặt thuật toán Apriori để áp dụng một phần
Sales Management Task in supermarket.
The project has 3 chapters, with main content as follows:
Chapter I: Overview of data mining. The contents of this chapter which
will be presented consist of: Data Mining and Knowledge Discovery in database,
the advantages of data mining? Techniques of data mining, main task of data
mining, methods of data mining, application of data mining and some challenges
which are set up for data mining.
Chapter II: Frequent- Itemset and Association Rules. This chapter’s
content includes in: some concepts, basic property of Frequent- Itemset and
Association Rules, searching for Frequent- Itemset, some basic algorithms of
Association Rules, some examples which illustrates algorithms.
Chapter III: How to install and test The Algorithms of finding Frequent
Itemset and Association Rules. They are: Analysing one database, presenting the
way to install program “ Exploiting Frequent Itemset in Sales Management in
supermarket”. Sales Manager bases on this result to know gather of related product
to statisfy the purpose of management and choice products to do bussiness.
5
MỤC LỤC
NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN 1
LỜI NÓI ĐẦU 2
TÓM TẮT ĐỒ ÁN 4
SUMMARY OF THE PROJECT 5
DANH SÁCH BẢNG BIỂU 9
DANH SÁCH CÁC TỪ VIẾT TẮT 10
10
MỞ ĐẦU 11
Chương I: TỔNG QUAN VỀ KHAI PHÁI DỮ LIỆU 12
1.1. Đặt vấn đề 12
1.2. Khai phá dữ liệu và phát hiện tri thức 13
1.3. Quá trình phát hiện tri thức từ cơ sở dữ liệu 13
1.8. Ứng dụng của khai phá dữ liệu 23
1.9. Một số thách thức đặt ra cho việc khai phá dữ liệu 24
Chương II: TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP 26
6
2.1. Mở đầu 26
2.2. Các khái niệm cơ bản 26
2.2.1. Định nghĩa 2. 2.1: Ngữ cảnh khai phá dữ liệu 26
2.2.2. Định nghĩa 2. 2. 2: Các kết nối Galois 26
2.2.3. Định nghĩa 2.2.3: Độ hỗ trợ (Support) 26
2.2.4. Định nghĩa 2 2.4: Độ tin cậy ( Confidence) 27
2.2.4.1. Tính chất 2. 2.4.1: Hỗ trợ của tập con 27
2.2.4.2. Tính chất 2.2.4.2 27
2.2.4.3. Tính chất 2.2.4.3 27
2.2.4.4. Tính chất 2. 2.4.4 27
2.2.5. Định nghĩa 2.2.5: Tập mặt hàng phổ biến 28
2.2.6. Định nghĩa 2.2.6: Luật kết hợp 28
2.2.6.1. Tính chất 2.2.6.1: Luật kết hợp không có hợp thành 28
2.2.6.2. Tính chất 2.2.6.2: Luật kết hợp không có tính tách 28
2.2.6.3. Tính chất 2.2.6.3: Luật kết hợp không có tính bắc cầu 29
2.2.6.4. Tính chất 2.2.6.4 29
2.3. Tìm tập phổ biến 29
2.3.1. Một số khái niệm 29
2.3.2. Thuật toán Apriori 30
2.3.2.1. Mô tả thuật toán 30
2.3.2.2. Ví dụ minh hoạ cho thuật toán Apriori 32
2.3.2.3. Procedure-Code 33
2.3.2.4. Tạo tập ứng viên (k+1)- hạng mục 34
2.4. Tìm luật kết hợp 34
2.4.1. Phát biểu bài toán khai phá luật kết hợp 35
2.4.2. Phát triển giải pháp hiệu quả trong khai thác luật kết hợp 37
BẢNG ĐỐI CHIẾU THUẬT NGỮ VIỆT - ANH 65
DANH SÁCH HÌNH VẼ
Hình 1.1. Quá trình phát hiện tri thức từ cơ sở dữ liệu 13
Hình 1.2. Quá trình phát hiện tri thức 14
Hình 1.3: Mô hình lợi ích của khai phá dữ liệu 18
Hình 1.4.Thể hiện sơ đồ khai phá dữ liệu bằng mạng Neunon 23
Hình 2.5. Minh họa luật kết hợp không có tính tách 29
Hình 3.1. Giao diện chính của cơ sở dữ liệu 52
Hình 3.2. Danh mục nhà cung cấp 53
Hình 3.3. Danh mục hàng hóa 54
Hinh 3.4.Danh mục khách hàng 55
Hình 3.5. Danh mục hóa đơn 56
Hình 3.6. Danh mục chi tiết hóa đơn 57
Hình 3.7. Ghi XML 58
Hình 3.8. Giao diện chính của chương trình 58
Hình 3.9. Kết nối dữ liệu 59
Hình 3.10. Thêm dư liệu XML 59
8
Hình 3.11. Kết quả phân tích 60
Hình 3.12. Kết quả lọc độ phổ biến tối thiểu 60
Hình 3.13. Kết quả lọc độ tin cậy 61
DANH SÁCH BẢNG BIỂU
Bảng 2.1. CSDL sử dụng minh hoạ thuật toán Apriori 32
Bảng 2. 2. Kết quả thực hiện thuật toán Aprori cho CSDL D 33
Bảng 2. 3. Ví dụ về một CSDL giao dịch – D 35
Bảng 2.4. Tập mục thường xuyên Minsup = 50% 36
Bảng 2.5. Luật kết hợp sinh từ tập mục phổ biến ABE 37
Bảng 2.6. Cây FP 42
Bảng 2.7. Cây FP 42
Bảng 2.8. Cây FP 43
thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa
vào ứng dụng.
Hiện nay có rất nhiều phương pháp để kinh doanh cũng như có rất nhiều
phần mềm để quản lý việc kinh doanh đó. Ví dụ như phần mềm quản lý bán hàng
tại thị siêu bằng Fox, C#, VB, Tuy nhiên đề tài này chúng em không xây dựng một
phần mềm quản lý bán hàng tại thị siêu hoàn chỉnh mà chỉ tìm hiểu và cài đặt một
khía cạnh nhỏ trong bài toán Quản lý bán hàng tại siêu thị . Đó là phân tích dữ liệu
bằng luật kết hợp trong quá trình tìm hiểu các mặt hàng có liên quan tới nhau như
thế nào? Giúp cho nhà quản lý tìm hiểu, phân tích để lựa chọn các mặt hàng kinh
doanh tốt hơn.
Trong phạm vi của đề tài nghiên cứu này, chúng em xin được trình bày:
Những kiến thức về khai phá dữ liệu sử dụng luật kết hợp. Đây là dạng luật
kết hợp tương đối đơn giản nhưng tính hiệu quả cao, giúp tìm ra được những luật
“quý hiếm”.
Đưa ra các định nghĩa, tính chất và một số thuật toán cơ bản thường được áp
dụng trong quá trình tìm luật kết hợp của một cơ sở dữ liệu.
Phân tích và cài đặt thuật toán Apriori áp dụng vào một phần nhỏ trong bài
toán Quản lý bán hàng tại siêu thị .
11
Chương I: TỔNG QUAN VỀ KHAI PHÁI DỮ LIỆU
1.1. Đặt vấn đề
Trong kỉ nguyên Internet, Intranets, Warehouses, đã mở ra nhiều cơ hội cho
những nhà doanh nghiệp trong việc thu thập và xử lý thông tin. Hơn nữa, các công
nghệ lưu trữ và phục hồi dữ liệu phát triển một cách nhanh chóng vì thế cơ sở dữ
liệu ở các cơ quan, doanh nghiệp, đơn vị ngày càng nhiều thông tin tiềm ẩn phong
phú và đa dạng.
Cơ sở dữ liệu trong các doanh nghiệp thì dữ liệu giao dịch đóng một vai trò
rất quan trọng cho việc hoạch định kế hoạch kinh doanh trên thương trường vào
những năm tiếp theo. Hiện tại, việc sử dụng các dữ liệu này tuy đã đạt được một số
kết quả nhất định song vẫn còn một số vấn đề tồn đọng như:
trình phát hiện tri thức trong cơ sở dữ liệu mà trong đó kỹ thuật cho phép ta lấy
được các tri thức chính ra từ kỹ thuật khai phá dữ liệu.
Nếu quan niệm tri thức là mối quan hệ của các mẫu giữa các phần tử dữ liệu
thì quá trình phát hiện tri thức chỉ toàn bộ quá trình triết xuất tri thức từ cơ sở dữ
liệu, trong đó trải qua nhiều giai đoạn khác nhau như: Tìm hiểu và phát hiện vẫn đề,
thu thập và tiền xử lý dữ liệu, phát hiện tri thức, minh hoạ và đánh giá tri thức đã
phát hiện và đưa kết quả vào thực tế.
Khai phá dữ liệu có những điểm khác nhau về mặt ngữ nghĩa so với phát
hiện tri thức từ cơ sở dữ liệu nhưng thực tế ta thấy khai phá dữ liệu là chỉ một
giai đoạn phát hiện tri thức trong một chuỗi các giai đoạn quá trình phát hiện tri
thức trong cơ sở dữ liệu. Tuy nhiên đây là giai đoạn đóng vai trò chủ chốt và là
giai đoạn chính tạo nên tính đa ngành của phát hiện tri thức trong cơ sở dữ liệu.
1.3. Quá trình phát hiện tri thức từ cơ sở dữ liệu
Phát hiện tri thức từ cơ sở dữ liệu là một quá trình có sử dụng nhiều phương
pháp và công cụ tin học nhưng vẫn là một quá trình mà trong đó con người làm
trung tâm. Do đó nó không phải là một hệ thống phân tích tự động mà là một hệ
thống bao gồm nhiều hoạt động tương tác thường xuyên giữa con người và cơ sở dữ
liệu, tất nhiên là với sự hỗ trợ của các công cụ tin học.
Hình 1.1. Quá trình phát hiện tri thức từ cơ sở dữ liệu
Mặc dù có 5 giai đoạn như trên( hình 1.1) xong quá trình phát hiện tri thức từ cơ
sở dữ liệu là 1 quá trình tương tác và lặp đi lặp lại theo kiểu xoắn chôn ốc, trong đó
13
lần lặp sau hoàn chỉnh hơn lần lặp trước. Ngoài ra giai đoạn sau lại dựa trên kết quả
thu được của giai đoạn trước theo kiểu thác nước. Đây là một quá trình biện trứng
mang tính chất học của quá trình phát hiện trí thức và là phương pháp luận trong
viện phát hiện tri thức. Các giai đoạn đó sẽ được trình bày cụ thể như sau:
1.3.1. Xác định bài toán
Đây là một quá trình mang tính định hình với mục đích xác định được lĩnh
vực yêu cầu phát hiện tri thức và xây dựng bài toán tổng kết. Trong thực tế các cơ
sở dữ liệu được chuyên môn hoá và phân chia theo các lĩnh vực khác nhau như: Sản
Giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một
bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải
trong khi gom dữ liệu là tính không đủ chặt chẻ, logíc. Vì vậy, dữ liệu thường chứa
các giá trị vô nghĩa và không có khả năng kết nối dữ liệu. Giai đoạn này sẽ tiến
hành xử lý những dạng dữ liệu không chặt chẽ nói trên. Những dữ liệu dạng này
được xem như thông tin dư thừa, không có giá trị. Bởi vậy, đây là một quá trình rất
quan trọng vì dữ liệu này nếu không được “làm sạch - tiền xử lý - chuẩn bị trước”
thì sẽ gây nên những kết quả sai lệch nghiệm trọng.
Giai đoạn này thực hiện một số chức năng sau:
- Điều hoà dữ liệu: Công việc này nhằm giảm bớt tính không nhất quán dữ
liệu lấy từ nhiều nguồn khác nhau. Phương pháp thông thường là khử các trường
hợp trùng lặp dữ liệu và thống nhất các ký hiệu. Ví dụ một khách hàng có thể có
nhiều bản ghi do việc nhập sai tên hoặc do quá trình thay đổi một số thông tin cá
nhân gây ra và tạo ra sự nhầm lẫn là có nhiều khách hàng.
- Xử lý các giá trị khuyết: Tính không đầy đủ của dữ liệu có thế gây ra
hiện tượng dữ liệu chứa các giá trị khuyết. Đây là hiện tượng khá phổ biến.
Người ta sử dụng nhiều phương pháp khác nhau để xứ lý các giá trị khuyết như:
Bỏ qua các bộ có giá trị khuyết, điểm bổ sung bằng tay, dùng một hằng chung để
bổ sung vào giá trị khuyết, dùng giá trị trung bình của mọi bản ghi trên thuộc
tinh khuyết, dùng giá trị trung bình của mọi bản ghi cùng lớp hoặc dùng các giá
trị mà tần suất xuất hiện lớn nhất.
15
- Xử lý nhiễu và các ngoại lệ: Thông thường nhiễu dữ liệu có thể là nhiễu
ngẫu nhiên hoặc các giá trị bất bình thường. Để làm sạch nhiễu, người ta có thể
sử dụng phương pháp làm trơn nhiễu hoặc dùng các giải thuật phát hiện ra các
ngoại lệ để xử lý.
1.3.2.4. Làm giàu dữ liệu
Mục đích của giai đoạn này là bổ sung thêm nhiều loại thông tin có liên
quan vào cơ sở dữ liệu gốc. Để làm được điêu này, chúng ta phải có các cơ sở dữ
liệu khác ở bên ngoài có liên quan tới cơ sở dữ liệu gốc ban đầu. Ta tiến hành bổ
khai phá dữ liệu, tiến hành lựa chọn các phương pháp khai thác phù hợp với dữ liệu
có được và tách ta các tri thức cần thiết.
Là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp
dụng để trích xuất ra các mẩu dữ liệu.
1.3.4. Phát biểu và đánh giá kết quả
Các tri thức phát hiện từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báo
cáo phục vụ cho các mục đích hỗ trợ các quyết định khác nhau.
Do nhiều phương pháp khai thác có thể được áp dụng nên các kết quả có mức
độ tốt, xấu khác nhau. Việc đánh giá các kết quả thu được là cần thiêt, Các tri thức phát
hiện từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báo cáo phục vụ cho các mục
đích hỗ trợ các quyết định khác nhau.
Do nhiều phương pháp khai thác có thể được áp dụng nên các kết quả có mức
độ tốt, xấu khác nhau. Việc đánh giá các kết quả thu được là cần thiêt, giúp tạo cơ sở
cho những quyết định chiến lược. Thông thường, chúng được tổng hợp, so sánh bằng
các biểu đồ và được kiểm nghiệm, tin hoc.
1.3.5. Sử dụng tri thức đã phát hiện
Củng cố, tinh chế các tri thức đã được phát hiện. Kết hợp các tri thức thành
hệ thống. Giải quyết các xung đột tiềm tàng trong tri thức khai thác được. Sau đó tri
thức được chuẩn bị sẵn sàng cho ứng dụng.
Các kết quả của quá trình phát hiện tri thức có thể được đưa vào ứng dụng
trong những lĩnh vực khác nhau. Do các kết quả có thể là các dự báo hoặc các mô tả
nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá
quá trình này.
1.4. Khai phá dữ liệu có những lợi ích gì
- Cung cấp tri thức hỗ trợ ra quyết định.
- Dự báo.
- Khái quát dữ liệu.
Hình 1.3 Là một mô hình thể hiện lợi ích của KPDL trong việc phân tích và
ra quyết định cho việc ra tiếp thị của một loại sản phẩm nào đó
- Phân lớp (Classification).
- Hồi qui (Regression).
- Gom nhóm (Clustering).
18
- Tổng hợp (Summarization).
- Mô hình ràng buộc (Dependency modeling).
- Dò tìm biến đổi và độ lệch (Change and Deviation Dectection).
1.6.1. Phân lớp (Classification)
Phân lớp là việc phân loại một mẫu dữ liệu vào một trong số các lớp đã xác
định.
Mục tiêu của thuật toán phân lớp là tìm ra các mối quan hệ nào đó giữa các
thuộc tính dự báo và thuộc tính phân lớp, từ đó sử dụng mối quan hệ này để dự báo
lớp cho các bộ dữ liệu mới khác cùng khuông dạng.
1.6.2. Hồi quy (Regression)
Hồi quy là việc l ọc một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự
đoán có giá trị thực. Có rất nhiều ứng dụng khai phá dữ liệu với nhiệm vụ hồi quy,
ví dụ như biết các phép đo vi sóng từ xa, đánh giá khả năng tử vong của bệnh nhân
biết các kết quả xét nghiệm chẩn đoán, dự đoán nhu cầu tiêu thụ một sản phẩm mới
bằng một hàm chỉ tiêu quảng cáo, v. v.
1.6.3. Gom nhóm (Clustering)
Là việc mô tả chung để tìm ra các tập xác định các nhóm hay các loại để mô tả
dữ liệu. Các nhóm có thể tách riêng nhau hoặc phân cấp hoặc gối lên nhau. Có nghĩa là
một dữ liệu có thể vừa thuộc nhóm này, vừa thuộc nhóm kia. Các ứng dụng khai phá
dữ liệu có nhiệm vụ gom nhóm như: Phát hiện tập các khách hàng có phản ứng giống
nhau trong cơ sở dữ liệu tiếp thị, xác định các loại quang phổ từ các phương pháp đo
tia hồng ngoại.
1.6.4. Tổng hợp (Summarization)
Nhiệm vụ tổng hợp là việc sản sinh ra các mô tả đặc trưng cho một lớp. Các
mô tả này là một kiểu tổng hợp, tóm tắt mô tả các đặc tính chung của tất cả các bộ
dữ liệu dạng giỏ mua hàng thuộc một lớp.
mô hình và thay đổi lại các tham số cho phù hợp nếu cần.
• Đánh giá mô hình: Đánh giá xem một mẫu có đáp ứng được các tiêu
chuẩn của quá trình phát hiện tri thức hay không. Việc đánh giá độ chính xác dự
đoán dựa trên đánh giá chéo (Cross Validation). Đánh giá chất lượng mô tả liên
quan đến độ chính xác dự đoán, độ mới, khả năng sử dụng, khả năng hiểu được của
mô hình. Cả hai chuẩn thống kê và chuẩn logic đều có thể được sử dụng để đánh giá
mô hình.
• Phương pháp tìm kiếm: Phương pháp tìm kiếm bao gồm hai thành
phần: tìm kiếm tham số và tìm kiếm mô hình.
- Tìm kiếm tham số: Để tối ưu hóa các tiêu chuẩn đánh giá mô hình với
các dữ liệu quan sát được và với một mô tả mô hình đã định.
- Tìm kiếm mô hình: Xảy ra giống như một vòng lặp qua phương pháp
tìm kiếm tham số: Mô tả mô hình bị thay đổi tạo nên một họ các mô hình.
= > Với mỗi một mô tả mô hình, phương pháp tìm kiếm tham số được áp
dụng để đánh giá chất lượng mô hình. Các phương pháp tìm kiếm mô hình thường
sử dụng các kỹ thuật tìm kiếm heuristic vì kích thước của không gian các mô hình
có thể thường ngăn cản các tìm kiếm tổng thể, hơn nữa các giải pháp đơn giản
không dễ đạt được.
20
1.7.2. Một số phương pháp khai thác dữ liệu phổ biến
1.7.2.1. Phương pháp quy nạp (Induction).
Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng
hơn cũng có thể được suy diễn từ kho thông tin đó. Có hai kỹ thuật chính để thực
hiện việc này là suy diễn và quy nạp.
• Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các
thông tin trong cơ sở dữ liệu. Phương pháp suy diễn dựa trên các sự kiện chính xác
để suy ra các tri thức mới từ các thông tin cũ. Mẫu chiết xuất được bằng cách sử
dụng phương pháp này thường là các luật suy diễn.
• Phương pháp quy nạp: .Phương pháp quy nạp suy ra các thông tin được
sinh ra từ cơ sở dữ liệu. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ
giá trị và thú vị.
Vậy chúng ta đặt ra câu hỏi là luật kết hợp nào là thực sự có giá trị? Chẳng
hạn ta có luật: Âm nhạc, ngoại ngữ, thể thao = > CD, nghĩa là những người mua
sách âm nhạc, ngoại ngữ, thể thao thì cũng mua đĩa CD. Lúc đó ta quan tâm đến số
lượng trường hơp khách hàng thoả mãn luật này trong cơ sở dữ liệu hay độ hỗ trợ
cho luật này. Độ hỗ trợ cho luật chính là phần trăm số bản ghi có cả sách âm nhạc,
ngoại ngữ, thể thao và đĩa CD hay tất cả những người thích cả ba loại sách trên.
Tuy nhiên giá trị hỗ trợ là không đủ. Có thể có trường hợp ta có một nhóm
tương đối những người đọc cả ba loại sách trên nhưng lại có một nhóm với lượng lớn
hơn những người thích sách thể thao, âm nhạc, ngoại ngữ mà không thích mua đĩa CD.
Trong trường hợp này tính kết hợp rất yếu mặc dù độ hỗ trợ tương đối cao. Như vậy
chúng ta cần thêm một độ đo thứ hai đó là độ tin cây (Confidence). Độ tin cậy là phần
trăm các bản ghi có đĩa CD trong số các bản ghi có sách âm nhạc, thể thao, ngoại ngữ.
Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật
dạng X => B sao cho tần số của luật không nhỏ hơn ngưỡng Minsup cho trước và
độ tin cậy của luật không nhỏ hơn ngưỡng Minconfi cho trước. Từ một cơ sở dữ
liệu ta có thể tìm được hàng nghìn và thậm chí hàng trăm nghìn các luật kết hợp.
1.7.2.4. Mạng Neuron
Mạng Neuron là tiếp cận tính toán mới liên quan tới việc phát triển cấu
trúc toán học và khả năng học. Các phương pháp là kết quả của việc nghiên cứu mô
hình học của hệ thống thần kinh con người.
Mạng Neuron có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không
chính xác và có thể được sử dụng để chiết xuất các mẫu và phát hiện ra các xu
hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính khác không thể
phát hiện được. Khi đề cập đến khai thác dữ liệu, người ta thường đề cập nhiều đến
mạng Neuron. Tuy mạng Neuron có một số hạn chế gây khó khăn trong việc áp
dụng và phát triển nhưng nó cũng có những ưu điểm đáng kể.
22
Hình 1.4.Thể hiện sơ đồ khai phá dữ liệu bằng mạng Neunon.
Một trong số những ưu điểm phải kể đến của mạng Neuron là khả năng
ở chỗ các ví dụ của chuyên gia thường ở mức cao hơn nhiều so với các dữ liệu
trong CSDL, và chúng thường chỉ bao hàm được các trường hợp quan trọng. Hơn
nữa các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được.
Phương pháp thống kê là một trong những nên tảng lý thuyết của khai
phá dữ liệu, nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương
pháp thống kê còn tồn tại một số điểm yếu mà khai phá dữ liệu khắc phục được.
Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có
cấu trúc trong rất nhiều CSDL.
Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử
dụng tri thức có sẵn về lĩnh vực.
Kết quả phân tích của hệ thống sẽ rất nhiều và khó có thể làm rõ ra được.
Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định
phân tích dữ liệu như thế nào và ở đâu.
Với nhưng ưu điểm đó, khai phá dữ liệu hiện đang được áp dụng một
cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau như:
Marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh,
internet.v.v.rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai
phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi
ích to lớn.
Một số ứng dụng của khai phá dữ liệu trong lĩnh vực kinh doanh:
Brandaid: Mô hình Marketing linh hoạt tập chung vào hàng tiêu dùng.
Callpla: Giúp nhân viên bán hàng xác định số lần viếng thăm của khách
hàng triển vọng và khách hàng hiện có.
Detailer: Xác định khách hàng nào nên viếng thăm và sản phẩm nào nên
giới thiệu trong từng chuyến viếng thăm.
Geoline: Mô hình thiết kế địa bàn tiêu thụ và dịch vụ.
Mediac: Giúp người quảng cáo mua phương tiện trong một năm, lập kế
hoạch sử dụng phương tiện bao gồm phác hoạ khúc thị trường, ước tính tiềm năng.
1.9. Một số thách thức đặt ra cho việc khai phá dữ liệu
Các cơ sở dữ liệu lớn.