báo cáo công nghệ thông tin đề tài privacy preserving data mining - Pdf 25

Privacy Preserving
Data Mining
GVHD: PGS. TS. Đặng Trần Khánh
SVTH: Mai Trần Thục Trinh
Lê Hà Minh
Nội dung

Khai thác dữ liệu là gì?

Các phương pháp khai thác dữ liệu

Một số lĩnh vực khai thác và công cụ

Tại sao phải đảm bảo tính riêng tư trong KTDL

Tiêu chí phân loại

Các phương pháp bảo toàn tính riêng tư trong KTDL

Kết luận
Khai thác dữ liệu là gì?

Khai thác dữ liệu (data mining) là việc trích ra các
tri thức chưa được nhận ra, tiềm ẩn trong tập dữ
liệu lớn một cách tự động
Quá trình khai thác

Khai thác dữ liệu là một bước của quá trình khai thác tri thức, bao gồm:

Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề.



Thiên văn học

Tin sinh học

Bào chế thuốc

Thương mại điện tử

Phát hiện lừa đảo

Quảng cáo

Marketing

Quản lý quan hệ khách hàng

Chăm sóc sức khỏe

Viễn thông

Thể thao, giải trí

Đầu tư

Máy tìm kiếm (web)
Một số công cụ khai thác dữ liệu
Boxplots from Statsoft: Multiple Variable
Combinations
2/2/15Data Mining: Concepts and Techniques9

2/2/1514
Visualization of Data Mining Processes by
Clementine
2/2/1515

Understand
variations with
visualized data
See your solution
discovery
process clearly
Tại sao phải đảm bảo tính riêng tư trong
khai thác dữ liệu

Dữ liệu thô có tính nhạy cảm như định danh, tên
hoặc địa chỉ mà người dùng không muốn tiết lộ
nhưng vẫn bị kẻ xấu khai thác với mục đích xấu
Data owner Data recipients
Person-specific
data
Tại sao phải đảm bảo tính riêng tư trong
khai thác dữ liệu

Người dùng không muốn bị lộ những thông tin cá
nhân “nhạy cảm”
Sự ảnh hưởng đối với xã hội

Khai thác dữ liệu có là mối nguy hiểm cho việc bảo mật
thông tin cá nhân?



Biometric encryption

Anonymous databases
Tiêu chí phân loại

Mục đích: dựa vào tiêu chí biến đổi dữ liệu sang dạng
khác mà vẫn đảm bảo:

Khai thác được thông tin đúng,

Đảm bảo tính an toàn, không mất mát trong bảo mật
tính riêng tư.
Các phương pháp bảo toàn tính riêng tư
trong KTDL

Phương pháp phát sinh ngẫu nhiên (The
randomization method)

Phương pháp ẩn danh (The anonymization method)

Phương pháp mã hóa (The encryption method)
Phương pháp phát sinh ngẫu nhiên

Là phương pháp phổ biến trong lĩnh vực nghiên cứu
bảo mật khai thác dữ liệu.

Đánh dấu các dòng trong dữ liệu bằng cách thêm dữ
liệu nhiễu vào dữ liệu gốc.
Phương pháp phát sinh ngẫu nhiên


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status