Khoá luận tốt nghiệp ứng dụng khai phái dữ liệu trợ giúp tư vấn học tập tại trường đại học sư phạm hà nội 2 - Pdf 30

TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI 2
• • • •
KHOA CÔNG NGHỆ THÔNG TIN CAO HOÀNG LONG
ỨNG DỤNG KHAI PHÁ DỮ LIỆU
TRỢ GIÚP Tư VẤN HỌC TẬP
TẠI TRƯỜNG ĐH SP HN 2
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
• • • •
Chuyên ngành: Khoa học máy tính
HÀ NỘI - 2015 ■
TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI 2
• • • •
KHOA CÔNG NGHỆ THÔNG TIN CAO HOÀNG LONG
ỨNG DỤNG KHAI PHÁ DỮ LIỆU
TRỢ GIÚP Tư VẤN HỌC TẬP
TẠI TRƯỜNG ĐH SP HN 2
KHÓA LUẬN TÓT NGHIỆP ĐẠI HỌC
• • • •
Chuyên ngành: Khoa học máy tính
Người hướng dẫn khoa học PGS.TS. TRỊNH ĐÌNH THẮNG
HÀ NỘI - 2015
LỜI CAM ĐOAN
Tên em là: Cao Hoàng Long
Sinh viên lớp: K37A - Tin học, khoa Công nghệ Thông tin, trường
Đại học Sư phạm Hà Nội 2.
Em xin cam đoan:
1. Nội dung đề tài: “ứng dụng khai phá dữ liệu ừợ giúp tư vấn học
tập tại trường Đại học Sư phạm Hà Nội 2” là nghiên cứu của riêng
em.
2. Kết quả nghiên cứu của em không trùng với bất cứ một kết quả
nào của những tác giả khác.

14
Hình 2.1. Lược đô biêu diên các tập mục cân
xét đươc loai bỏ theo đô hỗ trơ • • • •
29
Hình 3.1. Sơ đô quan hệ cơ sở dữ liệu điêm sinh
viền
43
Hình 3.2. Nhập thông tin sinh viên 45
Hình 3.3. Danh mục môn học 45
Hình 3.4. Chỉ tỉêt môn hoc

45
Hình 3.5. Cập nhật đỉêm sinh viền 46
Hình 3.6. Kêt quả sau khỉ khai phá dữ liệu 47
Bảng 2.1. Ví dụ vê thuật toán Aprỉorỉ 37
Bảng 2.2. Ví dụ vê thuật toán Aprỉorỉ trợ giúp tư
vân học tập
40
Bảng 3.1. Ví dụ vê CSDL điềm sinh viên 44
Bảng 3.2. Thuộc tính đỉêm được chia thành
khoảng và ký hiệu
44
Bảng 3.3. CSDL điểm đã được mã hóa 44
5
MỞ ĐẦU
1. Lý do chọn đề tài
Trong thời đại ngày nay với sự phát triển vượt bậc của công nghệ thông
tin, các hệ thống thông tin có thể lưu trữ một khối lượng dữ liệu lớn về hoạt động
hàng ngày của chúng. Từ khối dữ liệu này, các kĩ thuật khai phá dữ liệu có thể
dùng để trích xuất những thông tin hữu ích mà chứng ta chưa biết. Các tri thức

đại học Sư phạm Hà Nội 2 để tìm ra mối tương quan giữa các môn học.
5. Giả thuyết khoa học
Tìm hiểu về các phương pháp khai phá dữ liệu giúp người lập trình hiểu rõ
hơn về việc phát hiện những thông tin hữu ích trong một cơ sở dữ liệu lớn. Từ đó
việc định hướng cho những hoạt động trong tương lai ừở nên dễ dàng hơn.
Chương trình được xây dựng nếu đưa vào thực tế sẽ ừợ giúp để phát hiện
ra mỗi liên hệ giữa các môn học để trợ giúp tư vấn cho sinh viên, hiệu quả hơn
so với những phương pháp truyền thống.
6. Phương pháp nghiên cứu
• Phương pháp nghiên cứu lý luận
Nghiên cứu qua việc đọc sách, báo và các tài liệu liên quan nhằm xây
dựng cơ sở lý thuyết của đề tài và các biện pháp cần thiết để giải quyết các vấn
đề của đề tài.
• Phương pháp chuyên gia
Tham khảo ý kiến của các chuyên gia để có thể thiết kế chương trình phù
họp với yêu cầu thực tiễn. Nội dung xử lý nhanh đáp ứng nhu cầu ngày càng cao
của người dùng.
• Phương pháp thực nghiệm
Thông qua quá trình học tập, trích rút được mối liên hệ giữa một số môn
học những lý luận được nghiên cứu và kết quả đạt được qua những phương pháp
trên.
7
7. Cấu trúc khóa ỉuân
• Chương 1: Tổng quan về khai phá dữ liệu
Nội dung chính của chương là giới thiệu về khai phá dữ liệu, kiến
trúc hệ thống khai phá dữ liệu, các bước trong quá trình khai phá và ứng dụng
của khai phá dữ liệu.
• Chương 2: Một số phương pháp khai phá dữ liệu
Chương này trình bày một bước trong quá trình khai phá là tìm ra giải
pháp và thuật toán phù họp để tiến hành khai phá.

Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình không tầm
thường nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể
hiểu được”.
Các vấn đề tương tự:
- Khám phá tri thức trong các cơ sở dữ liệu
- Trích rút tri thức
- Phân tích mẫu/dữ liệu
1.1.2. Các ứng dụng của khai phá dữ liệu
Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều
lĩnh vực: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toán song song
và tốc độ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu Đặc biệt
phát hiện tri thức và khai phá dữ liệu rất gàn gũi với lĩnh vực thống kê, sử dụng
các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu, luật Ngân
hàng dữ liệu (Data Warehousing) và các công cụ phân tích trực tuyến (OLAP-
On Line Analytical Processing) cũng liên quan rất chặt chẽ với phát hiện tri thức
và khai phá dữ liệu.
9
Khai phá dữ liệu có nhiều ứng dụng trong thực tế, ví dụ như: Bảo hiểm, tài
chính và thị trường chứng khoán: phân tích tình hình tài chính và dự báo giá của
các loại cổ phiếu ừong thị trường chứng khoán. Danh mục vốn và giá, lãi suất, dữ
liệu thẻ tín dụng, phát hiện gian lận,
Điều tri y học và chăm sóc y tế: một số thông tin về chuẩn đoán bệnh lưu
trong các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa các triệu chứng
bệnh, chuẩn đoán và phương pháp điều ừị (chế độ dinh dưỡng, thuốc, )
Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sự cố.
Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm tắt
văn bản,
Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học,
tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một số
bệnh di truyền, Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ

kiếm và đánh giá các mẫu sao cho các mẫu được tìm thấy là những mẫu được
quan tâm bởi người sử dụng.
Thành phàn này có thể được tích hợp vào thành phần Data mining engine.
1.2.6. User interface
Thành phần hỗ trợ sự tương tác giữa người sử dụng và hệ thống khai phá
dữ liệu.
Người sử dụng có thể chỉ định câu truy vấn hay tác vụ khai phá dữ liệu.
Người sử dụng có thể được cung cấp thông tin hỗ trợ việc tìm kiếm, thực
hiện khai phá dữ liệu sâu hơn thông qua các kết quả khai phá trung gian.
Người sử dụng cũng có thể xem các lược đồ cơ sở dữ liệu/kho dữ liệu, các
cấu trúc dữ liệu; đánh giá các mẫu khai phá được; trực quan hóa các mẫu này ở
các dạng khác nhau.
1.3. Các bước trong quá trình khai phá dữ liệu
Quá trình được thực hiện qua 9 bước:
1. Tìm hiểu lĩnh vực của bài toán (ứng dụng): Các mục đích của bài toán, các tri
thức cụ thể của lĩnh vực.
2. Tạo nên (thu thập) một tập dữ liệu phù hợp.
3. Làm sạch và tiền xử lý dữ liệu.
4. Giảm kích thước của dữ liệu, chuyển đổi dữ liệu: Xác định thuộc tính quan trọng,
giảm số chiều (số thuộc tính), biểu diễn bất biến.
5. Lựa chọn chức năng khai phá dữ liệu: Phân loại, gom cụm, dự báo, sinh ra các
luật kết họp.
6. Lựa chọn/ Phát triển (các) giải thuật khai phá dữ liệu phù họp
7. Tiến hành khai phá dữ liệu.
8. Đánh giá mẫu thu được và biểu diễn tri thức: Hiển thị hóa, chuyển đổi, bỏ đi các
mẫu dư thừa,
9. Sử dụng tri thức được khai phá.
Quá trình khám phá tri thức theo cách nhìn của giới nghiên cứu về các hệ
thống dữ liệu và kho dữ liệu về quá trình khám phá tri thức.
EiwalutiQ

0
Transformed
Data
• Transformation
integration),
chọn dữ liệu
(data
selection),
biến đổi dữ
liệu (data
ttansformati
on).
Khai
thác dữ liệu
(data
milling):
xác định
nhiệm vụ
khai thác
dữ liệu và
lựa chọn kỹ
thuật khai
thác dữ liệu.
Kêt quả cho
ta một
nguồn tri
thức thô.
Đánh
giá
(evaluation)

Tiền xử
lý dữ
liệu
Quá
trình tiền xử
lý dữ liệu,
đầu tiên phải
nắm được
dạng dữ liệu,
thuộc tính,
mô tả của dữ
liệu thao tác.
Sau đó tiếp
hành 4 giai
đoạn chính:
làm sạch,
tích hợp,
biến đổi, thu
giảm dữ liệu.
1.4.1.
Dữ liệu
a, Tập
dữ liệu
Một
tập dữ liệu
(dataset) là
một tập họp
các đối
tượng
(object) và

xã hội
Dữ
liệu có ừật
tự: Dữ liệu
không gian
(ví dụ: bản
đồ). Dữ liệu
thời gian (ví
dụ: time-
series data).
Dữ liệu
chuỗi (ví dụ:
chuỗi giao
dịch).
c) Các
kiểu giá trị
thuộc tính
Kiểu
định
danh/chuỗi
(norminal):
không có thứ
tự. Ví dụ:
Các thuộc
tính như :
Name,
Profession,
Kiểu
nhị phân
(binary): là

Kiểu
thuộc tính
rời rạc
(discrete-
valued
attributes):
có thể là tập
các giá trị
của một tập
hữu hạn.
Bao gồm
thuộc tính có
kiểu giá trị là
các số
nguyên, nhị
phân.
Kiểu
thuộc tính
liên tục
(continuous-
valued
attributes):C
ác giá tri là
số
thực.
d)
Các đặc tính
mô tả của
dữ liệu
Giúp

(standard
deviation).
+ Các
ngoại lai
(outliers).
1.4.2. L
àm sach dữ
liêu
• •
Đối
với dữ liệu


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status