công nghệ khai phá dữ liệu - Pdf 14

26.2.1 Tổng quan công nghệ khai phá dữ liệu.
Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực
của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được các
cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên.
Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất định nào đó. Tuy
nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% đến 10%) là
luôn được phân tích, số còn lại họ không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng
họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua
sau này có lúc cần đến nó.
Mặt khác, trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ
nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần
phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Với những lý do như vậy, các phương
pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã
làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ
liệu (KDD - Knowledge Discovery and Data Mining).
Với những ưu điểm đó, khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh
vực kinh doanh và đời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y
tế, an ninh, internet…
Data mining and data warehousing. – khai thác dữ liệu và kho dữ liệu
- Mục đích của data warehouse là hỗ trợ cho việc ra quyết định khi làm việc với data.
- Data mining được sử dụng kết hợp với data warehouse giúp cho việc chắc chắn khi ra quyết
định.
- Data mining cũng có thể được ứng dụng trong tổ chức dữ liệu thành các transaction riêng lẻ.
- Để cho việc khai thác dữ liệu được hiệu quả, kho dữ liệu phải tập hợp được tính toàn thể hay tổng
lược vè dữ liệu.
- Khai thác dữ liệu giúp cho việc rút trích ngữ nghĩa của những mẫu mới, điều đó có thể không cần
thiết mà chỉ truy vấn hoặc xử lí data hoặc metadata( siêu data) trong data warehouse.
- Các ứng dụng của data mining cần được xem xét đến sớm cho quá trình cùng với các thiết kế của
kho dữ liệu. Cũng vì vậy, mà các công cụ của data mining được thiết kế sao cho có thể dễ dàng
kết hợp với data warehouse.
- Thật vậy, mỗi cơ sở dữ liệu lớn thực thi trên terabyte (1024 MB) của dữ liệu, thành công của

• Phân lớp dạng cây- khách hàng được phân thành những lớp thường xuyên ghé thăm, loại
về tài chính, loại về tổng thu nhập, loại về sự ham thích các mẫu, và một số dùng kĩ thuật
phân tích có lẽ phát sinh dạng lớp.
- Chúng ta có thể thấy có nhiều nhiều tồn tại trong việc khám phá kiến thức mới về các mẫu tin
mua bán, mới quan hệ các nhân tố như là tuổi, nhóm thu nhập, nơi ở, như thấ nào và bao nhiêu
thu nhập khách hàng . Thông tin đó có thể ứng dụng trong việc thêm vào nơi lưu trữ dựa trên
nhân khẩu học, lưu trữ về việc thăng tiến, kết hợp mẫu về quảng cáo , đưa ra chiến lược tiếp thị
cho từng mùa. Đó như ví dụ về cửa hàng, việc khai thác dữ liệu phải theo thứ tự về sự chuẩn bị
những dữ liệu có ý nghĩa trước tiên nó có thể là những mẫu thông tin hữu dụng để định hướng
cho việc kinh doanh sau này.
- Kết quả của việc khai thác dữ liệu sẽ được báo cáo lại theo một định dạng, nhu là dạng danh sách,
xuất ra dạng hình ảnh, bảng tóm lược, hoặc những thông tin.
Mục đích khai thác dữ liệu và khám phá tri thức.
- Nói theo diện rộng, mục đích của khai thác dữ liệu phỏng đoán dựa trên các lớp: dự
đoán(prediction), sự nhận dạng (indentification), sự phân loại, và tối ưu hóa.
o Dự đoán – khai thác dữ liệu có thể hiển thị chắc chắn các thuộc tính mà cho rằng dữ liệu
được dùng trong tương lai. Ví dụ, dự đoán khai thác dữ liệu bao gồm phân tích các giao
dịch mua bán sẽ đoán được khách hàng sẽ mua với giá giảm nhiêu.tỉ lệ cần giảm bao
nhiêu cho của hàng sẽ được ohat1 sinh từng giai đoạn, và loại bỏ một số hàng hóa không
lợi nhuận. Trong ứng dụng này, kinh doanh khoa học phải sữ dụng cả hai với khai thác
dữ liệu. Trong ngữ cảnh khoa học , để dự đoán chắc chắn mẫu thông tin sóng địa chấn
của động đất với xác suất cao.
o Sự chứng thực- mẫu dữ liệu có thể sử dụng sự tồn tại của item, một sự kiện, hoặc một
hành động. Ví dụ, người muốn xâm nhập hệ thống phải chứng thực với chương trình
đang thực thi, file xử lí, hay phiên thời gian của CPU. Ứng dụng trong sinh học, kiểm tra
sự tồn tại của một gen nào đó bằng cách xem xét mẫu DNA. Đó như khu vực biết chứng
thực một hình thức của sự chứng nhận. Nó xác nhận một người phải là thực sự là người
dùng chuyên biệt hay từ một lớp chứng thực, nó sẽ ảnh hưởng so sánh tham số hoặc hình
ảnh hoặc chữ kí trên database.
o Sự phân loại – khai thác dữ liệu có thể phân chia dữ liệu thành lớp khác nhau hoặc phân

dịch trước đó. (2) Một mô hình được phát triển xác định các nhân tố mong muốn cho vị
trí tỉ lệ 1-10. (3) Kho lưu trữ chung phải được phân loại dựa theo khả năng dữ liệu sử
dụng các đặc điểm như: sự trưởng thành, thu nhập, và tính ổn định.
3. Mẫu liên tiếp- Một loạt các hoạt động liên tiếp hoặc các sự việc là quá trình tìm kiếm.
Ví dụ: Nếu một bệnh nhân chịu đựng ca thay thế tim các khối động mạch và chứng
phình động mạnh và sau đó lại phát triển tình tạng máu tăng cao trong vng2 một năm
phẫu thuật giẫu phẩu (quá trình giải phẩu…) , anh và cô ấy se phải chịu đựng quả cật
hỏng trong vòng 6 tháng.Để tìm ra các mẫu liên tiếp đòi hỏi phải tìm hiểu mối quan hệ
giữa các trường hợp chắc chắn mối về mặt thời gian.
4. Chuỗi mẫu theo thời gian – Sự tương tự có thể phát hiện ra vị trí của chuỗi thời gian. 3
ví dụ trên về lưu trữ dữ liệu giá cả thị trường theo khoảng thời gian: (1)Lưu trữ tính thiết
thực công ty ABC và tính an toàn của công ty tài chính XYZ thể hiện dạng mẫu từ năm
1998 theo giá cả đóng mở.(2) Hai sản phẩm giống việc bán hàng trong mùa hè khác hàng
bán trong mùa đông.(3) Dạng sức gió hệ mặt trời có thể dùng dự đoán sự thay đổi khí hậu
ở trái đất.
5. Sự phân loại và sự phân đoạn- đưa ra trường hợp dân số hoặc những mẫu có thể phân
chia được thiết lập như các nhân tố .
Ví dụ: (1) Toàn bộ dân số có dữ liệu điều trị về căn bệnh sẽ được chia theo ra thành
nhóm dựa trên sự giống nhau của các căn bệnh.(2) Những người lớn ở Hoa Kì sẽ được
phân thành năm nhóm từ “hầu như thích mua” đến”ít thích mua” một sản phẩm mới.(3)
trang web được truy cập phải của bộ sưu tập của người sử dụng dựa vào tài liệu (nói,
trong một thư viện tín hiệu) sẽ được phân tích thành mẫu làm từ khóa thu gom lại cho tài
liệu hoặc loại người sử dụng.
Hầu như mọi ứng dụng, tri thức được đề nghị thì chứa đựng các loại trên. Chúng ta có
thể mở rộng với mỗi chủ đề trên thành loại tri thức chi tiết hơn nữa.
26.2.2 Association rules.
Một trong những kĩ thuật chính trong khai thác dữ liệu điều liên quan các luật khám phá
dựa trên mối kết hợp. Trong cơ sở dữ liệu được chú ý đến như là tập hợp nhiều
transaction mỗi cái lại liên quan việc thiết lập các mẫu tin. Một số ví dụ thông thường đó
là dữ liệu trong siêu thị. Ở đó mỗi dữ liệu tương ứng khách hàng mua trong siêu thị đến

nhau.Mục tiêu của sự khai thác các luật kết hợp là để có thể phát sinh ra các luật vượt qua
được các ngưỡng thấp nhất của mức hỗ trợ và độ tin cậy. Vấn đề vì thế cũng được chia
làm 2 vấn đề chính:
1. Phát sinh tất cả các mẫu tin sao cho chúng có mức độ hỗ trợ có thể vượt qua
ngưỡng. Đó là việc thiết lập các mậu tin gọi là itemset lớn. Chúng ý chữ lớn
đây có nghĩa được hỗ trợ nhiều.
2. Đối với mỗi itemset lớn, tất cả các luật có độ tin cậy thấp thì sẽ được phát
sinh sau: để có itemset lớn X và Y⊂ X, sao cho Z = X-Y; khi đó nếu độ hỗ
trợ (X)/ độ hỗ trợ(Z) > độ tin cậy nhỏ nhất, luật Z =>Y(i.e X-Y=> Y) vẫn là
luật hợp lệ.[Chú ý: Trong câu phát biểu trước, Y⊂ X đọc là “Y là tập hợp con
của X” ]
Các luật phát sinh bằng cách sử dụng tất cả itemset lớn và chúng có các mức hỗ trợ tương
đối dễ hiểu. Tuy nhiên, để khám phá ra hết tất cả các itemset lớn cùng với các giá trị về mức
độ hỗ trợ của chúng là một vấn đề lớn nếu các thành phần trong tập hợp quá lớn.Trong một
siêu thị thì có những hàng hàng mẫu tin.Số lượng itemset riêng biệt là 2
m
, trong đó m là số
lượng mẫu tin, và ước tính mức độ hỗ trợ có thể có của các itemset trờ thành rất không hạn
định (computation-intensive) .
Để giảm tổ hợp khoảng cách tìm kiếm, các thuật toán tìm kiếm theo luật kết hợp có các đặc
trưng:
• Một tập hợp con cỉa itemset lớn cũng phải lớn (i.e, mỗi tập hợp con của itemset lớn
vượt qua được mức hỗ trợ tối thiếu yêu cầu).
• Ngược lại, phần mở rộng của một itemset nhỏ cũng phải nhỏ (đơn giản đó là nó
không có đủ mức hỗ trợ).
Các đặc tính thứ 2 có thể giúp trong việc loại bỏ những itemset từ phần thêm vào nếu nó
được cho thì cũng nhỏ (không vượt qua mức hỗ trợ tối thiểu).
Các thuật toán tìm kiếm cơ bản được dùng cho các luật kết hợp.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

công nghệ khai phá dữ liệu - Pdf 14

Tài liệu, ebook tham khảo khác

Học thêm