11/7/2012
Hà Quang Thụy ‐ KTLab 1
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
Một số tìm hiểu
về khai phá dữ liệu bảo vệ tính riêng tư
Hà Quang Thụy
Phòng TN Công nghệ tri thức, Khoa Công nghệ Thông tin,
Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Ngày 06 tháng 11 năm 2012
Nội dung
Đặt vấn đề
Xuất xứ
Khái niệm
Tình hình nghiên cứu về PPDM
Một số tiếp cận và thuật toán PPDM
Một số tiếp cận
Thuật toán PPDM cho một vài bài toán
Xu hướng nghiên cứu PPDM
Tiêu đề báo cáo:
“khai phá dữ liệu”
“tính riêng tư” và “bảo vệ tính riêng tư”
“một số tìm hiểu”
November 7, 2012
11/7/2012
Hà Quang Thụy ‐ KTLab 2
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
1. Đặt vấn đề
•
Nội dung
Sơ bộ về Khai phá dữ liệu
Hà Quang Thụy ‐ KTLab 3
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
November 7, 2012 5
Quá trình KPDL [FPS96]
November 7, 2012 6
Quá trình KPDL [HK06]
[HK06] J. Han and M. Kamber (2006). Data Mining-Concepts and Techniques (2
nd
edition), Morgan Kaufmann, 2006.
Tiếng Việt “khai mỏ ?”
11/7/2012
Hà Quang Thụy ‐ KTLab 4
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
November 7, 2012 7
Chuẩn công nghiệp CRISP-DM, 2000
[CCKKR00] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas
Reinartz, Colin Shearer and Rüdiger Wirth (2000). CRISP-DM 1.0: Step-by-
ste
p data mining guide, The CRISP-DM consortium, August 2000.
November 7, 2012 8
Mô hình quá trình C-KDD, 2010
[Pan10] Ding Pan (2010). An Integrative Framework for Continuous Knowledge
Discovery, Journal of Convergence Information Technology (JCIT),5(3):46-
53, May 2010..
11/7/2012
Hà Quang Thụy ‐ KTLab 5
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
November 7, 2012 9
Khai phá dữ liệu quá trình [IEEE-TFPM12]
[IEEE-TFPM] The IEEE Task Force on Process Mining (2012). Process Mining
Chair, ACM SIGKDD. Gregory Piatetsky-Shapiro: the President of KDnuggets,
Former Chair, ACM SIGKDD,
The Innovation Award: Dr. J. Ross Quinlan, Dr. Christos Faloutsos, Dr. Padhraic
Smyth, Dr. Raghu Ramakrishnan, Dr. Usama M. Fayyad, Dr. Ramakrishnan
Srikant, Dr. Leo Breiman, Dr. Jiawei Han,Dr.Heikki Manilla, Dr. Jerome H.
Friedman, và Dr. Rakesh Agrawal
The Service Award: Dr. Bharat Rao, Prof. Osmar R. Zaïane, Dr. Sunita
Sarawagi, Dr. Robert Grossman, Dr. Won Kim, The Weka team, Dr. Xindong Wu,
Dr. Usama Fayyad, Dr. Ramasamy Uthurusamy, và Dr. Gregory Piatetsky-
Shapiro.
11/7/2012
Hà Quang Thụy ‐ KTLab 7
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
1.b. Khai phá dữ liệu bảo vệ tính riêng tư
November 7, 2012
•
Nhu cầu bảo vệ tính riêng tư [AS00]
Hầuhếtngườisử dụng web quan tâm bảovệ tính riêng tư
Theo thống kê
17% tuyệt đối không cung cấp thông tin riêng tư
56% cung cấp thông tin riêng tư nếucóbiện pháp bảovệ
27% sẵn sàng cung cấp thông tin riêng tư
Bí mậtthương mạinhạycảmcủa doanh nghiệp bị tiếtlộ từ dữ liệuhoặc
tri thức tạolợithế cho đốithủ cạnh tranh
[Shap95] Gregory Piatetsky-Shapiro (1995). Guidelines for Eating of the Tree of Knowledge,
or Knowledge Discovery in Databases vs. Personal Privacy, Experts Annual
Index, 10(2): 46-47.
[DV09] Aris Gkoulalas-Divanis, Vassilios S. Verykios (2009). An overview of privacy
preserving data mining. ACM Crossroads 15(4) (2009)
[Leary95] Daniel O'Leary (1995). Some Privacy Issues in Knowledge Discovery: OECD
Personal Privacy Guidelines, Experts Annual Index, 10(2): 48-52.
11/7/2012
Hà Quang Thụy ‐ KTLab 8
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
KPDL vi phạm tính riêng tư: Ví dụ (tiếp)
November 7, 2012
•
Dự án Total Information Awareness (TIA) của Bộ
Quốc phòng Mỹ có khai phá dữ liệu
Phản đốicủa the ACM U.S. Public Policy Committee (USACM) : TIA có
thể tạorarủi ro an ninh (Security Risks), rủiroriêngtư (Privacy Risks),
rủirokinhtế (Economic Risks), rủi ro cá nhân (Personal Risks)
Dự luật S.188/2003 nghiêm cấm khai phá dữ liệu được đề xuất
•
Lập luận của Hiệp hội KPDL ACM-SIGKDD [Kim03]
Mộtdự án PH tri thứclớn đòi hỏi nhiềucôngnghệ mà công nghệ KPDL
chỉ là một trong sốđó
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
DBLP:
-
trier.de/~ley/pers/hd/n/Nguyen:Hung_Son.html
November 7, 2012
Cung cấp thông tin cá nhân: Quảng bá thông tin về nhà khoa học
ArnetMiner: />nguyen-670591.html
November 7, 2012
Quáng bá thông tin có cung cấptiểusử cá nhân song đảmbảo tính riêng tư