Khai phá dữ liệu với cây quyết định - pdf 25

Link tải luận văn miễn phí cho ae


Tổng quan về khai phá dữ liệu. Trình bày khai phá dữ liệu bằng cây quyết định qua nghiên cứu sơ lược về sự phân lớp, cây quyết định, tránh overfitting dữ liệu, rút ra các luật từ cây quyết định. Tìm hiểu về cây quyết định mờ qua logic mờ, suy luận xấp xỉ, Fuzzy ID3 và Probabilistic Fuzzy ID3 trong cây quyết định mờ và so sánh các giải thuật ID3, FID3, PFID3. Cài đặt phần mềm minh hoạ
Luận văn ThS Công nghệ thông tin 1.01.10 Trường Đại học Công Nghệ Đại học Quốc gia Hà Nội
Trong những thập niên vừa qua, sự phát triển mạnh mẽ của công nghệ
thông tin và ngành công nghiệp phần cứng đã làm cho khả năng thu thập và lưu
trữ thông tin của các hệ thống thông tin tăng nhanh một cách chóng mặt. Bên
cạnh đó việc tin học hoá một cách ồ ạt và nhanh chóng các hoạt động sản xuất,
kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một
lượng dữ liệu lưu trữ khổng lồ. Hàng triệu cơ sở dữ liệu đã được sử dụng trong
các hoạt động sản xuất, kinh doanh, quản lí..., trong đó có nhiều cơ sở dữ liệu
cực lớn cỡ Gigabyte, thậm chí là Terabyte. Các kho dữ liệu ngày càng lớn và
tiềm ẩn nhiều thông tin có ích. Sự bùng nổ đó dẫn tới một yêu cầu cấp thiết là
phải có những kĩ thuật và công cụ mới để biến kho dữ liệu lớn kia thành
những thông tin cô đọng và có ích. Kĩ thuật Khai phá dữ liệu (Data mining) ra
đời như một kết quả tất yếu đáp ứng các nhu cầu đó.
Khám phá tri thức và khai phá dữ liệu (KDD = Knowledge Discovery and
Data mining) đã nhanh chóng trưởng thành trên mọi lĩnh vực, kết hợp với việc
quản lí dữ liệu, khoa học thống kê và mục đích sử dụng tri thức từ khai phá dữ
liệu.
Mục đích của luận văn này là nghiên cứu, tìm hiểu về lĩnh vực khai phá dữ
liệu, các phương pháp, kỹ thuật khai phá dữ liệu và trọng tâm là phương pháp
Cây quyết định và các cải tiến trong Cây quyết định mờ. Để đạt được mục tiêu
đó luận văn được chia làm các phần sau:
Chƣơng 1: Tổng quan về khai phá dữ liệu
Chƣơng 2: Khai phá dữ liệu bằng cây quyết định
Chƣơng 3: Cây quyết định mờ
Chƣơng 4: Cài đặt chƣơng trình minh họa
Kết luận
CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1. Quá trình phát hiện tri thức trong cơ sở dữ liệu
Ngày nay, hầu hết mọi lĩnh vực của đời sống thực phải đối mặt với khối
lượng ngày càng tăng của dữ liệu được thu thập từ các hoạt động của con người
(như dữ liệu giao dịch thị trường, bản ghi việc sử dụng thẻ tín dụng, thông tin về
các cuộc gọi điện thoại, các thống kê của chính phủ) tới các dữ liệu thu thập
được từ bên ngoài (như hình ảnh các thiên thể, cơ sở dữ liệu về phân tử, hoặc
bản ghi y tế). Các công cụ thu thập dữ liệu tự động và các công nghệ cơ sở dữ
liệu phát triển mạnh mẽ tạo ra một lượng dữ liệu lớn được lưu trữ trong các
cơ sở dữ liệu, kho dữ liệu và các nơi lưu trữ thông tin khác. Sự bùng nổ này đã
dẫn tới một yêu cầu cấp thiết là cần có những kĩ thuật và công cụ mới để tự động
chuyển đổi lượng dữ liệu lớn kia thành các tri thức có ích. Từ đó, các kĩ
thuật Khai phá dữ liệu đã trở thành tiêu điểm của một lĩnh vực mới nghiên cứu
và ứng dụng về khám phá tri thức (Knowledge Discovery) và khai phá dữ liệu
(Data Mining).
Khám phá tri thức: phát hiện tri thức trong các cơ sở dữ liệu là một quy
trình nhận biết các mẫu hay các mô hình dữ liệu với các chức năng: hợp thức,
mới, khả ích và có thể hiểu được.
Khai phá dữ liệu: khai phá dữ liệu là một bước trong quá trình phát hiện tri
thức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới một số quy định
về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hay các mô hình trong
dữ liệu đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi số
lượng dữ liệu khổng lồ.
Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và
các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có. Khai phá dữ liệu
là một bước của Quá trình khám phá tri thức (Knowledge Discovery Process),
bao gồm:
1. Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề.
2. Thu thập và tiền xử lý dữ liệu: Bao gồm quá trình làm sạch dữ liệu (data
cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu(data selection),
biến đổi dữ liệu (data transformation)
3. Khai phá dữ liệu và rút ra các tri thức: Xác định nhiệm vụ khai phá dữ
liệu và lựa chọn kỹ thuật khai phá dữ liệu. Kết quả cho ta một nguồn trí
thức thô.
4. Phân tích và đánh giá kết quả: Dựa trên một số tiêu chí tiến hành kiểm tra
và lọc nguồn trí thức thu được.
5. Sử dụng các tri thức phát hiện được.
Quá trình khám phá tri thức không chỉ là một quá trình tuần tự từ bước đầu
tiên đến bước cuối cùng mà là một quá trình lặp và có quay lại các bước đã qua.
Hình vẽ dưới đây biểu diễn quá trình khám phá tri thức


TeId3WETxtKr3cq
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status