ứng dụng phương pháp hồi quy bayes vào việc dự báo thời tiết - Pdf 24

GVHD: TS. Hoàng Thị Lan Giao
HVTH: Nguyễn Thị Thu Hòa
TRƯỜNG ĐẠI HỌC LẠC HỒNG
KHOA CÔNG NGHỆ THÔNG TIN
  
ỨNG DỤNG PHƯƠNG PHÁP HỒI QUY BAYES
VÀO VIỆC DỰ BÁO THỜI TIẾT
NỘI DUNG CHÍNH
Phần I: Tổng quan về khai phá dữ liệu
Phần II: Giới thiệu chung về dự báo thời tiết
Phần III: Giới thiệu phương pháp học Bayes và phân
lớp Naive Bayes
Phần IV: Chương trình thực nghiệm và hướng phát triển

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1. Khái niệm khai phá dữ liệu
Là quá trình khai thác những thông tin tiềm ẩn
có tính dự đoán, những thông tin có nhiều ý nghĩa,
hữu ích từ những cơ sở dữ liệu lớn.
2. Kiến trúc của một hệ thống khai phá dữ liệu
3. Quy trình thực hiện khai phá dữ liệu
Xác định
dữ liệu
liên quan
Chuẩn bị
dữ liệu
Dữ liệu
trực tiếp
Thống kê,
báo cáo
Giải thuật

trị đầu vào Ưu điểm của ID3
- Sử dụng thuật toán tìm kiếm leo đồi (hill -
climbing) dựa trên giá trị Gain để tìm kiếm các
thuộc tính trong toàn bộ cây quyết định
- Đầu ra (Output) chỉ là một giả thuyết đơn (1 kết
quả duy nhất)
- Không bao giờ gặp hiện tượng quay lui – tính hội
tụ cao
-
Khuyết điểm của ID3
- Chỉ thích hợp với mô hình có lượng dữ liệu ít, rời rạc
- Không thích ứng được với những tập dữ liệu tạp (dễ
phát sinh lỗi)
- Không hiệu quả khi xuất hiện những dữ liệu không
mong muốn
- Cây quyết định khi dựng ra vẫn còn có thể lớn, rườm
rà, chưa được tối ưu ở mức tối đa có thể

b) Phương pháp gom nhóm K - Means
Thuật toán K – Means chia dữ liệu thành k nhóm với k là một
số cho trước. Thuật toán này dùng giá trị trung bình của các điểm
trong cùng một nhóm làm tâm của nhóm đó.
Tiêu chuẩn để đánh giá trong giải thuật là hàm sai số bình
phương được định nghĩa như sau: với x là các điểm thuộc nhóm C

2
1
( , ) | |
N
ik jk
k
d i j x x



GIỚI THIỆU CHUNG VỀ
DỰ BÁO THỜI TIẾT
1.Khái niệm về thời tiết và dự báo thời tiết
- Thời tiết
Là trạng thái khí quyển biểu hiện ở một khu vực
nhất định và trong một khoảng thời gian nhất định,
được đặc trưng bởi một số yếu tố khí tượng và hiện
tượng khí tượng điển hình.
- Dự báo thời tiết
Là thông báo trước tình hình thời tiết sẽ xảy ra
sau một khoảng thời gian và tại một khu vực địa lý
xác định.
2.Các nhân tố ảnh hưởng đến thời tiết
- Nhiệt độ không khí trung bình
Nhiệt độ không khí trung bình ngày được tính theo
phương pháp bình quân số học đơn giản từ kết quả của 4
lần quan trắc chính trong ngày tại các thời điểm 1h, 7h,
13h, 19h
- Độ ẩm không khí trung bình
Độ ẩm không khí tương đối trung bình ngày là bình

PB

2. Thuật toán phân lớp Naive Bayes
- Mỗi mẫu được biểu diễn bằng X=(x
1,
x
2,
…, x
n
) với
các thuộc tính a
1
, a
2
,…, a
n
-

Các lớp C
1
, C
2
, …, C
m
. Cho trước mẫu chưa biết X. X
được phân loại vào C
i
nếu và chỉ nếu:

Với (theo định lý Bayes)



Ví dụ: xét bảng 1: bảng dữ liệu về thời tiết
N
g
à
y
Nhiệt
độ (t)
Độ
ẩm (t)
Lượng
mây (t)
Lượng
mưa (t)
Nhiệt
độ (s)
Độ
ẩm (s)
Lượng
mây (s)
Lượng
mưa (s)
1 26.2 77 27 0 25.4 76 9 0
2 25.4 76 9 0 25.4 73 30 0
3 25.4 73 30 0 24.6 79 30 0
4 24.6 79 30 0 24.9 76 30 0
5 24.9 76 30 0 25.5 78 20 0
6 25.5 78 20 0 25.0 75 35 0
7 25.0 75 35 0 24.1 73 35 0

-Biến độ ẩm (kí hiệu ĐA):
+ Thấp nếu ĐA nằm trong khoảng (0 – 80)
+ Cao nếu ĐA nằm trong khoảng (80 - + )
-Biến lượng mây (kí hiệu MA):
+ Ít nếu MA nằm trong khoảng (0 – 20)
+ Nhiều nếu MA nằm trong khoảng (20 – 30)
+ Rất nhiều nếu MA nằm trong khoảng (30 - + )
-Biến lượng mưa (kí hiệu M):
+ Rải rác nếu M nằm trong khoảng (0 – 2)
+ Nhỏ nếu M nằm trong khoảng (2 – 50)
+ Lớn nếu M nằm trong khoảng (50 - + ) 



Sau khi phân lớp ta có bảng dữ liệu mới như sau:
Ngày
Nhiệt độ (t)
Độ ẩm (t)

Lượng mây (t)

Lượng mưa (t)
Nhiệt độ (s)
Độ ẩm (s)

Lượng mây (s)
Lượng mưa (s)

30 TB Thấp Ít Rải rác Thấp Thấp Rất nhiều Rải rác
31 Thấp Thấp Rất nhiều Rải rác TB Thấp Nhiều Rải rác
Yêu cầu:
Áp dụng thuật toán Naive Bayes để phân
lớp cho một thể hiện mới sau đây:
<Cao, cao, ít, nhỏ>
trời có mưa hay không?
Thực hiện:
Bước 1: ta có 3 lớp C1 là mưa rải rác (RR), C2 là mưa
nhỏ, C3 là mưa lớn; tổng số mẫu là 31
-Số mẫu được phân lớp C1 là 29
xác suất mưa RR là : P(C1)=29/31=0.935
-Số mẫu được phân lớp C2 là 1
xác suất mưa nhỏ là: P(C2)=1/31=0.032
-Số mẫu được phân lớp C3 là 1
xác suất mưa lớn là: P(C3)=1/31=0.032
Ta lần lượt tính xác suất của các thuộc tính sau:
Nhiệt độ
Thấp|RR=17/29

TB|RR=12/29

Cao|RR=2/29

Thấp|nhỏ=17

TB|nhỏ=12

Cao|nhỏ=2



Ít|lớn=6

Nhiều|lớn=7

Rất nhiều|lớn 18

Lượng mưa
RR|RR=29/29

Nhỏ|RR=1/29

Lớn|RR=1/29

RR|nhỏ=29

Nhỏ|nhỏ=1

Lớn|nhỏ=1

RR|lớn=29

Nhỏ|lớn=1

Lớn|lớn=1


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status