i
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
ĐÀO HUY HIỆU
NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ
LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI
THIỆU VIỆC LÀM CHO SINH VIÊN
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Th¸i Nguyªn - 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ii
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
ĐÀO HUY HIỆU
NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ
LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI
THIỆU VIỆC LÀM CHO SINH VIÊN
Chuyên ngành: Khoa học máy tính
Đại học CNTT&TT
Chuyên ngành:
Khoa học máy tính
Mã số:
60 48 01
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
i
MỤC LỤC
MỤC LỤC ..................................................................................................................... i
DANH MỤC HÌNH .................................................................................................... iii
MỞ ĐẦU .......................................................................................................................1
CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU ...........................................4
1.1 Giới thiệu chung .....................................................................................................4
1.2 Khai phá dữ liệu là gì ? ..........................................................................................5
1.3 Quá trình khám phá tri thức trong CSDL ..........................................................6
1.4 Các kỹ thuật áp dụng trong Data Mining ............................................................8
1.4.1 Các kỹ thuật tiếp cận trong Data Mining ........................................................ 8
1.4.2 Các dạng dữ liệu có thể khai phá ...................................................................... 9
1.5 Ứng dụng của Data Mining .................................................................................10
1.6 Phân cụm dữ liệu và ứng dụng ...........................................................................11
KẾT LUẬN .................................................................................................................62
TÀI LIỆU THAM KHẢO .........................................................................................65
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iii
DANH MỤC HÌNH
Hình 1.1 ................................................................................................................... 7
Hình 1.2 ................................................................................................................... 8
Hình 1.3 .................................................................................................................. 17
Hình 2.1 .................................................................................................................. 18
Hình 2.2 .................................................................................................................. 26
Hình 2.3 .................................................................................................................. 31
Hình 2.4 .................................................................................................................. 31
Hình 2.5 .................................................................................................................. 33
Hình 2.6 .................................................................................................................. 34
Hình 2.7 .................................................................................................................. 34
Hình 2.8 ................................................................................................................. 34
Hình 2.9 .................................................................................................................. 35
Hình 2.10 ................................................................................................................ 36
Hình 2.11 ................................................................................................................ 37
Hình 2.12 ................................................................................................................ 38
Hình 2.13 ................................................................................................................ 39
Hình 2.14 ................................................................................................................ 40
Hình 2.15 ................................................................................................................ 40
Hình 3.1 .................................................................................................................. 47
1
MỞ ĐẦU
Từ vài thập niên trở lại đây, với những tác động mạnh mẽ của các tiến
bộ trong công nghệ phần cứng và truyền thông, các hệ thống dữ liệu phục vụ
cho các lĩnh vực kinh tế - xã hội đã phát triển bùng nổ, lượng dữ liệu được tạo
ra ngày càng lớn. Sự phong phú về dữ liệu, thông tin cùng với khả năng kịp
thời khai thác chúng đã mang đến những năng suất và chất lượng mới cho
công tác quản lý, hoạt động kinh doanh, … Nhưng rồi các yêu cầu về thông
tin trong các lĩnh vực hoạt động đó, đặc biệt trong lĩnh vực ra quyết định,
ngày càng đòi hỏi cao hơn, người quyết định không những cần dữ liệu mà còn
cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc ra quyết định
của mình. Cho đến những năm 90 của thế kỷ trước, nhu cầu khám phá tri thức
mới thực sự bùng nổ, theo đó, hàng loạt các lĩnh vực nghiên cứu về tổ chức
các kho dữ liệu và kho thông tin, các hệ trợ giúp quyết định, các thuật toán
nhận dạng mẫu và phân lớp mẫu … và đặc biệt là khai phá dữ liệu ra đời.
Từ khi ra đời, khai phá dữ liệu đã trở thành một trong những hướng
nghiên cứu phổ biến trong lĩnh vực khoa học máy tính và công nghệ tri thức.
Nhiều kết quả nghiên cứu, ứng dụng của khai phá dữ liệu trong các lĩnh vực
khoa học, kinh tế, xã hội. Khai phá dữ liệu bao hàm nhiều hướng nghiên cứu
quan trọng, một trong số đó là kỹ thuật khai phá dữ liệu web. Khai phá dữ liệu
web là quá trình tìm kiếm và phát hiện ra các cụm hoặc các mẫu dữ liệu tự
nhiên trong cơ sở dữ liệu lớn. Các kỹ thuật chính được áp dụng trong khai phá
dữ liệu web phần lớn được kế thừa từ lĩnh vực thống kê, học máy, nhận dạng,
lượng hoá, .. Đến nay, đã có nhiều ứng dụng khai phá dữ liệu web cho việc
giải quyết các vấn đề trong các lĩnh vực như tài chính, thông tin địa lý, sinh
học, nhận dạng ảnh, … Trong thời gian gần đây, trong lĩnh vực Khai phá dữ
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3
web và ý nghĩa của Khai phá dữ liệu web, các kỹ thuật được sử dụng trong
quá trình khai phá dữ liệu web, quy trình khai phá dữ liệu web theo thuật toán
Crawler, Hits, ... Phần cuối của chương trình bày vắn tắt, tổng kết về các đặc
trưng của các phương pháp khai phá dữ liệu web đồng thời nêu các kỹ thuật
đánh giá kết quả khai phá dữ liệu web.
Chương 3 Giới thiệu chương trình giới thiệu việc làm, quy trình hoạt
động của hệ thống cung cấp dữ liệu việc làm, thu thập dữ liệu về kho cơ sở dữ
liệu và các hình ảnh chức năng của chương trình thu thập giới thiệu thông tin
việc làm.
Phần kết luận, phần này trình bày tóm tắt về các nội dung thực hiện
trong luận văn này, đồng thời đưa ra những vấn đề dự định sẽ nghiên cứu tiếp
theo cho tương lai.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
data error !!! can't not
read....
read....
data error !!! can't not
read....
data error !!! can't not
read....
data error !!! can't not
read....
data error !!! can't not
read....
data error !!! can't not
read....
data error !!! can't not
read....
data error !!! can't not
read....