TRƢỜNG ĐẠI HỌC LẠC HỒNG
DỰ ĐOÁN KẾT QUẢ HỌC TẬP
CỦA SINH VIÊN TRƢỜNG NGHỀ
SỬ DỤNG PHƢƠNG PHÁP HỒI QUY BAYES
GIÁO VIÊN HƢỚNG DẪN:
TS. HOÀNG THỊ LAN GIAO
HỌC VIÊN THỰC HIỆN:
VÕ THỊ NGỌC LIÊN
Đồng Nai, tháng 09/2013
1
NỘI DUNG TRÌNH BÀY
I.
Tổng quan khai phá dữ liệu và phát hiện tri thức
II.
Hệ hỗ trợ ra quyết định và mô hình hỗ trợ quyết định
III. Phân tích hồi quy
IV. Dự đoán kết quả học tập dựa vào lý thuyết phân lớp
Naive Bayes
kết quả
Bước 5: Sử dụng tri thức phát hiện
được
Hình 1: Quy trình phát hiện tri thức
5
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
VÀ MÔ HÌNH HỖ TRỢ QUYẾT ĐỊNH
6
Hệ hỗ trợ ra quyết định
HHTQĐ là những hệ thống máy tính tương tác nhằm giúp
những người ra quyết định sử dụng dữ liệu và mô hình để giải
quyết các vấn đề không có cấu trúc.
Các thành phần của hệ hỗ trợ ra quyết định
Phân hệ Quản lý dữ liệu
Phân hệ Quản lý mô hình
Phân hệ Quản lý dựa vào kiến thức
– Mạng Neuron
– …
9
Phƣơng pháp phân lớp Naive Bayes
Định lý Bayes
Tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự
kiện liên quan B đã xảy ra.
–
Xác suất này được ký hiệu là P(A|B)
–
Đọc là "xác suất của A nếu có B".
10
Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc
vào 3 yếu tố:
P(A): Xác suất xảy ra A của riêng nó
12
Thuật toán Naive Bayes
Áp dụng trong bài toán phân loại, các dữ kiện gồm có:
- D: tập dữ liệu huấn luyện đã được vector hóa 𝑥 = (𝑥1 , 𝑥2 , … , 𝑥𝑛 )
- Ci: phân lớp i, với i = {1,2,…,m}.
- Các thuộc tính độc lập điều kiện đôi một với nhau.
Theo định lý Bayes:
P(X|Ci )P(Ci )
P Ci X =
P(X)
Theo tính chất độc lập điều kiện:
n
P X Ci =
P x k Ci
k=1
Trong đó:
- 𝑃(𝑥𝑘 |𝐶𝑖 ) xác suất thuộc tính thứ k mang giá trị xk khi đã biết X
thuộc phân lớp i.
13
Các bƣớc thực hiện thuật toán phân lớp Naive Bayes
Gtinh
Kết quả
Trung bình Thấp
Nữ
Rớt
Thành thị
Cao
Trung bình
Nam
Đậu
3
Nông thôn
Thấp
Trung bình
Nam
Cao
Nam
Đậu
7
Nông thôn
Trungbình
Cao
Nữ
Đậu
8
Thành thị
Thấp
Thấp
Nam
Rớt
X1 = P(Đ).P(Noio = Nongthon|Đ).P(Diemvao = thap|Đ).
P(Kinhte = trungbinh|Đ). P(Gioitinh = Nam|Đ)
X2 = P(R).P(Noio = Nongthon|R).P(Diemvao = thap|R).
P(Kinhte = trungbinh|R). P(Gioitinh = Nam|R)
16
Ta lần lượt tính xác suất của các thuộc tính sau:
P(Thành thị| Đ) =3/5
P(Nông thôn| Đ) =2/5
P(Cao| Đ)
=2/5
P(Trung bình| Đ)=3/5
P(Thấp| Đ)
=0/5
P(Cao| Đ)
=3/5
P(Trung bình| Đ)=2/5
P(Thấp| Đ)
=0/5
P(Nam| Đ)
P(Nữ| Đ)
Vậy X1(lớp Đ) = 5/8*2/5*0/5*2/5*2/5 = 0
X2(lớp R) = 3/8*2/3*1/3*1/3*2/3 = 0.0123
CNB = max (X1(lớp Đ) ; X2(lớp R)) = X2(lớp R)
X thuộc lớp Rớt nghĩa là với sinh viên sống Nông thôn , điểm
vào thấp, kinh tế gia đình là Trung bình và giới tính là nam
thì kết quả là Rớt.
18
Một số ƣu điểm của phƣơng pháp Naive Bayes
–
Tính xác suất rõ ràng cho các giả định.
–
Kết hợp nhiều dự đoán của nhiều giả định.
–
Các thuộc tính trong tập mẫu học phải độc lập với điều kiện.
–
Độ chính xác thuật toán phân lớp phụ thuộc nhiều vào tập
dữ liệu học ban đầu.
19
Mô hình hồi qui tuyến tính đa biến
Mô hình hồi qui tuyến tính nhiều chiều có dạng :
Y = α + 𝛽1 X1 + 𝛽2 X2 + … + 𝛽𝑘 Xk + U
Y (biến phụ thuộc): chỉ tiêu phân tích
α ( biến độc lập): hệ số chặn.
β: hệ số ước lượng.
Xi các yếu tố ảnh hưỏng đến năng suất.Với i chạy từ 1 đến k.
U là sai số
23
DỰ ĐOÁN KẾT QUẢ HỌC TẬP
DỰA VÀO LÝ THUYẾT
PHÂN LỚP NAIVE BAYES