TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA CÔNG NGHỆ THÔNG TIN
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG
CỦA KHAI PHÁ DỮ LIỆU
NHÓM THỰC HIỆN:
1. Phạm Thị Nhung.
2. Lê Thị Sáu.
3. Lê Lữ Hoàng Nhựt Ánh.
4. Nguyễn Thị Thu Thủy.
5. Võ Thị Huê
1. NHU CẦU KHAI PHÁ DỮ LIỆU
SỰ BÙNG NỔ THÔNG TIN!
Nhiều dữ liệu được sinh thêm:
Web, văn bản, ảnh …
Giao dịch thương mại, cuộc gọi,
DL khoa học: thiên văn, sinh học …
Thêm nhiều dữ liệu được nắm giữ:
Công nghệ lưu giữ nhanh hơn và rẻ hơn.
Hệ quản trị CSDL có thể quản lý các cơ sở dữ liệu với kích thước lớn hơn.
• Vấn đề bùng nổ dữ liệu
Các tiện ích thu thập dữ liệu tự động và công nghệ cơ sở dữ liệu lớn mạnh dẫn tới
một lượng lớn dữ liệu được tích lũy và/hoặc cần được phân tích trong cơ sở dữ liệu, kho
dữ liệu và trong các nguồn chứa dữ liệu khác.
• Chúng ta bị ngập lụt trong dữ liệu mà khát tri thức!
Giải pháp: Kho dữ liệu và Khai phá dữ liệu (mining)
Tạo lập kho dữ liệu và quá trình phân tích dữ liệu trực tuyến OLAP.
Khai phá tri thức hấp dẫn (luật, quy luật, mẫu, ràng buộc) từ dữ liệu trong CSDL lớn.
2. KHAI PHÁ DỮ LIỆU LÀ GÌ?
Theo J.Han và M.Kamber (2006) [1]:
Quan niệm 1:
Khai phá dữ liệu (Data Mining) là quá trình trích chọn ra tri thức từ trong một tập
dữ liệu trong đó bài toán khai phá luật kết hợp là một bài toán tiêu biểu.
Bài toán khai phá luật kết hợp thực hiện việc phát hiện ra mối quan hệ kết hợp giữa
các tập thuộc tính (các tập biến) có dạng X⟶Y, trong đó X và Y là hai tập thuộc tính.
“Sự xuất hiện của X kéo theo sự xuất hiện của Y như thế nào?”
3.3. Phân lớp
Thực hiện việc xây dựng (mô tả) các mô hình (hàm) dự báo nhằm mô tả hoặc phát
hiện các lớp hoặc khái niệm cho các dự báo tiếp theo.
Một số phương pháp điển hình là: cây quyết định, luật phân lớp, mạng neuron,…
Nội dung của phân lớp chính là một hàm ánh xạ các dữ liệu vào trong một số các
lớp (nhóm) đã biết.
Phân lớp còn được gọi là “học máy có giám sát” (supervised learning).
3.4. Phân cụm
Thực hiện việc nhóm dữ liệu thành các “cụm” (có thể coi là một lớp mới) để có
thể phát hiện được các mẫu phân bố dữ liệu trong miền ứng dụng.
Hướng tới việc nhận biết một tập hữu hạn các cụm hoặc các lớp để mô tả dữ liệu.
Mục tiêu của phân cụm là cực đại hóa tính tương đồng giữa các phần tử trong
cùng cụm và cực tiểu hóa tính tương đồng giữa các phần tử khác cụm.
Phân cụm còn được gọi là “học máy không có giám sát” (unsupervised learning).
3.5. Hồi quy
Là bài toán điển hình trong phân tích thống kê và dự báo.
Tiến hành việc dự đoán các giá trị của một hoặc một số biến phụ thuộc vào giá trị
của một tập hợp các biến độc lập.
Có thể quy về việc học một hàm ánh xạ dữ liệu nhằm xác định giá trị thực của
một biến theo một số biến khác.
3.6. Mô hình phụ thuộc
Hướng tới việc tìm ra một mô hình mô tả sự phụ thuộc có ý nghĩa giữa các biến.
Bao gồm 2 mức:
Mức cấu trúc của mô hình: thường dưới dạng đồ thị trong đó các biến là phụ
thuộc bộ phân vào các biến khác.
Mức định lượng của mô hình: mô tả sức mạnh của tính phụ thuộc khi sử dụng
tích thói quen mua hàng, bán hàng chéo, phân đoạn thị trường.
Phân tích và quản lý rủi ro
Dự báo, duy trì khách hàng, cải thiện bảo lãnh, kiểm soát chất
lượng, phân tích cạnh tranh.
Phát hiện gian lận và phát hiện mẫu bất thường (ngoại lai)
Ứng dụng khác
Khai phá Text (nhóm mới, email, tài liệu) và khai phá Web.
Khai phá dữ liệu dòng.
Phân tích DNA và dữ liệu sinh học.
Phân tích kinh doanh: Khai phá quá trình
WMP Van der Aalst (2011). Process Mining: Discovery, Conformance and Enhancement
of Business Processes, Springer.
Phát hiện gian lận và khai phá mẫu hiếm
• Tiếp cận: Phân cụm & xây dựng mô hình gian lận, phân tích bất
thường
• Ứng dụng: Chăm sóc sức khỏe, bán lẻ, dịch vụ thẻ tín dụng, viễn thông.
Bảo hiểm tự động: vòng xung đột
Rửa tiền: giao dịch tiền tệ đáng ngờ
Bảo hiểm y tế
• Bệnh nghề nghiệp, nhóm bác sỹ, và nhóm chỉ dẫn
• Xét nghiệm không cần thiết hoặc tương quan
Viễn thông: cuộc gọi gian lận
• Mô hình cuộc gọi: đích cuộc gọi, độ dài, thời điểm trong ngày
hoặc tuần. Phân tích mẫu lệch một dạng chuẩn dự kiến
Công nghiệp bán lẻ
• Các nhà phân tích ước lượng rằng 38% giảm bán lẻ là do
nhân viên không trung thực
Chống khủng bố
ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG CÔNG CỤ
DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN
chúng được tổ chức dưới dạng có thể sử dụng để khai phá bằng cách thiết kế
và thực hiện các lệnh truy vấn SQL.
Đối với dữ liệu cần thiết để thực hiện nghiên cứu là lộ trình học, ta
không thể liệt kê và gắn với mỗi sinh viên bằng các truy vấn SQL đơn giản.
Đề tài đề xuất xây dựng một công cụ riêng để thực hiện việc này bằng ngôn
ngữ lập trình C#.
2. Xây dựng ứng dụng dự đoán kết quả học tập
Với ý tưởng đã nêu, ứng dụng dự đoán kết quả học tập của sinh viên
được xây dựng Theo sơ đồ (Hình 1)
Để trình diễn kết quả nghiên cứu, tác giả chỉ xây dựng giao diện dự
đoán kết quả học tập như trong hình vẽ bên dưới và chỉ cho phép tư vấn cho
một sinh viên. Khi triển khai ứng dụng, giao diện và chức năng sẽ được xây
dựng tùy vào nhóm người dùng. Chẳng hạn, với người dùng là giảng viên
chủ nhiệm hoặc các cấp quản lý, ứng dụng có thể liệt kê thông tin của tất cả
các sinh viên theo từng lớp, kết hợp với các lộ trình có thể, thực hiện dự báo
và trên cơ sở đó cho phép tư vấn cho từng sinh viên trong lớp. Đối với sinh
viên, giao diện sẽ được thiết kế trong một trang web để sinh viên có thể truy
cập từ xa.
Khi người dùng chọn một lộ trình học, ứng dụng sẽ hiển thị chi tiết các môn
học cùng với học kỳ của lộ trình học đó.
Ngoài ra, hệ thống cho phép xem các mô hình đã được xây dựng
nhằm hỗ trợ cho người dùng cuối là các nhà quản lý, không phải là các kỹ
thuật viên xây dựng mô hình.
Ngoài ra, dữ liệu đào tạo trong cơ sở dữ liệu có thể được bổ sung theo
thời gian, mô hình đề xuất có thể sẽ không còn là tối ưu. Vì vậy, ứng dụng
cung cấp chức năng cho phép người dùng cuối – các nhà quản lý cập nhật
mô hình.
Để xây dựng ứng dụng với các chức năng đã nêu, tác giả đã tiến hành
nghiên cứu và sử dụng thư viện API do Microsoft cung cấp cùng với ngôn
ngữ truy vấn khai phá dữ liệu DMX – Data Mining