Privacy Preserving
Data Mining
GVHD: PGS. TS. Đặng Trần Khánh
SVTH: Mai Trần Thục Trinh
Lê Hà Minh
Nội dung
Khai thác dữ liệu là gì?
Các phương pháp khai thác dữ liệu
Một số lĩnh vực khai thác và công cụ
Tại sao phải đảm bảo tính riêng tư trong KTDL
Tiêu chí phân loại
Các phương pháp bảo toàn tính riêng tư trong KTDL
Kết luận
Khai thác dữ liệu là gì?
Khai thác dữ liệu (data mining) là việc trích ra các
tri thức chưa được nhận ra, tiềm ẩn trong tập dữ
liệu lớn một cách tự động
Quá trình khai thác
Khai thác dữ liệu là một bước của quá trình khai thác tri thức, bao gồm:
Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề.
Thiên văn học
Tin sinh học
Bào chế thuốc
Thương mại điện tử
Phát hiện lừa đảo
Quảng cáo
Marketing
Quản lý quan hệ khách hàng
Chăm sóc sức khỏe
Viễn thông
Thể thao, giải trí
Đầu tư
Máy tìm kiếm (web)
Một số công cụ khai thác dữ liệu
Boxplots from Statsoft: Multiple Variable
Combinations
2/2/15Data Mining: Concepts and Techniques9
2/2/1514
Visualization of Data Mining Processes by
Clementine
2/2/1515
Understand
variations with
visualized data
See your solution
discovery
process clearly
Tại sao phải đảm bảo tính riêng tư trong
khai thác dữ liệu
Dữ liệu thô có tính nhạy cảm như định danh, tên
hoặc địa chỉ mà người dùng không muốn tiết lộ
nhưng vẫn bị kẻ xấu khai thác với mục đích xấu
Data owner Data recipients
Person-specific
data
Tại sao phải đảm bảo tính riêng tư trong
khai thác dữ liệu
Người dùng không muốn bị lộ những thông tin cá
nhân “nhạy cảm”
Sự ảnh hưởng đối với xã hội
Khai thác dữ liệu có là mối nguy hiểm cho việc bảo mật
thông tin cá nhân?
Biometric encryption
Anonymous databases
Tiêu chí phân loại
Mục đích: dựa vào tiêu chí biến đổi dữ liệu sang dạng
khác mà vẫn đảm bảo:
Khai thác được thông tin đúng,
Đảm bảo tính an toàn, không mất mát trong bảo mật
tính riêng tư.
Các phương pháp bảo toàn tính riêng tư
trong KTDL
Phương pháp phát sinh ngẫu nhiên (The
randomization method)
Phương pháp ẩn danh (The anonymization method)
Phương pháp mã hóa (The encryption method)
Phương pháp phát sinh ngẫu nhiên
Là phương pháp phổ biến trong lĩnh vực nghiên cứu
bảo mật khai thác dữ liệu.
Đánh dấu các dòng trong dữ liệu bằng cách thêm dữ
liệu nhiễu vào dữ liệu gốc.
Phương pháp phát sinh ngẫu nhiên