Nghiên cứu và cài đặt một số giải thuật phân cụm, phân lớp - pdf 14

Download miễn phí Luận văn Nghiên cứu và cài đặt một số giải thuật phân cụm, phân lớp



MỤC LỤC
MỞ ĐẦU . 3
MỘT SỐTỪVIẾT TẮT VÀ THUẬT NGỮTHƯỜNG DÙNG . 5
DANH MỤC BẢNG . 6
DANH MỤC HÌNH . 7
CHƯƠNG 1: TỔNG QUAN PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU . 8
1.1 Giới thiệu chung . 8
1.2 Các kỹthuật khai phá dữliệu . 10
1.3 Lợi thếcủa khai phá dữliệu so với các phương pháp khác . 13
1.4 Các ứng dụng của KDD và những thách thức đối với KDD . 15
1.5 Kết luận. 17
CHƯƠNG 2: KỸTHUẬT PHÂN LOẠI TRONG KHAI PHÁ DỮLIỆU . 18
2.1 Phân loại là gì? . 18
2.2 Các vấn đềquan tâm của phân loại . 20
2.3 Phân loại bằng cây quyết định quy nạp. 22
2.4 Phân loại Bayesian . 30
2.5 Phân loại bằng lan truyền ngược . 37
2.6 Phân loại dựa trên sựkết hợp . 48
2.7 Các phương pháp phân loại khác . 50
2.8 Độchính xác classifier . 56
2.9 Kết luận. 59
CHƯƠNG 3: KỸTHUẬT PHÂN CỤM TRONG KHAI PHÁ DỮLIỆU. 60
3.1 Phân cụm là gì . 60
3.2 Các kiểu dữliệu trong phép phân cụm. 64
3.3 Phân loại các phương pháp phân cụm chính . 74
3.4 Các phương pháp phân chia . 77
3.5 Các phương pháp phân cấp . 84
3.6 Các phương pháp phân cụm dựa trên mật độ. 94
3.7 Các phương pháp phân cụm dựa trên lưới . 101
3.8 Kết luận. 107
CHƯƠNG 4: CÀI ĐẶT THỬNGHIỆM. 108
4.1 Thiết kếtổng thể. 108
4.2 Chuẩn bịdữliệu . 108
4.3 Thiết kếchương trình . 109
4.4 Kết quảthực nghiệm và đánh giá . 110
4.5 Kết luận. 114
KẾT LUẬN . 116
TÀI LIỆU THAM KHẢO.


Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông
tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng
đồng nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một
tích luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa
những giá trị nhất định nào đó. Tuy nhiên, theo thống kê thì chỉ có một lượng
nhỏ của những dữ liệu này (khoảng từ 5% đến 10%) là luôn được phân tích, số
còn lại họ không biết sẽ phải làm gì hay có thể làm gì với chúng nhưng họ vẫn
tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã
bị bỏ qua sau này có lúc cần đến nó. Mặt khác, trong môi trường cạnh tranh,
người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra
quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần trả
lời dựa trên một khối lượng dữ liệu lớn đã có. Với những lý do như vậy,
các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng
không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới
đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge
Discovery and Data Mining).
Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu,
ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam
kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần
đưa vào ứng dụng. Bước quan trọng nhất của quá trình này là Khai phá dữ liệu
(Data Mining - DM), giúp người sử dụng thu được những tri thức hữu ích từ
những CSDL hay các nguồn dữ liệu lớn khác. Rất nhiều doanh nghiệp và
tổ chức trên thế giới đã ứng dụng kĩ thuật khai phá dữ liệu vào hoạt động sản
xuất kinh doanh của mình và đã thu được những lợi ích to lớn. Nhưng để làm
được điều đó, sự phát triển của các mô hình toán học và các giải thuật hiệu quả
là chìa khoá quan trọng. Vì vậy, trong luận văn này, tác giả sẽ đề cập tới hai kỹ

77nyYHW6HwW5AiX

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status