1
TRƯỜNG………………………
KHOA…………………… LUẬN VĂN TỐT NGHIỆP Ứng dụng DataMining cho phát triển các thuê bao
điện thọai cố định
mang tính lịch sử và thực tiễn cao. Đây là một hướng đi phù hợp và đã sớm được áp dụng
phổ biến ở nhiều công ty viễn thông lớn trên thế giới.
Chính vì lý do đó Ứng dụng DataMining cho phát triển các thuê bao điện thọai cố định sẽ
giúp phát triển các thuê bao đặc biệt ở Hà Nội. 2. Mục tiêu của nghiên cứu khoa học
Mục tiêu đề tài là sử dụng công cụ SQL 2005 trong ứng dụng DataMining cho việc phát
triển các thuê bao điện thoại cố định ở Hà Nội, bao gồm các vấn đề chính sau:
Nắm bắt được khái quát lý thuyết về DataMining
Công cụ sử dụng SQL 2005
3
Đưa ra được các báo cáo, kết quả bài toán phát triển thuê bao điện thoại cố
định giúp cho việc đưa ra các quyết định nhằm giúp ích cho việc đưa ra chiến
lược phát triển thuê bao ở Hà Nội
CHƯƠNG II: PHƯƠNG PHÁP NGHIÊN CỨU
Để thực hiện Đề tài, em đã sử dụng một số phương pháp nghiên cứu sau:
1. Nghiên cứu lý thuyết Kho dữ liệu và Khai phá dữ liệu
2. Tìm hiểu công cụ SQL 2005 với khả năng hỗ trợ Kho dữ liệu và Khai phá
dữ liệu
3. Tìm hiểu bài toán Phát triển thuê bao
4. Ứng dụng bài toán Phát triển thuê bao để cài đặt Kho dữ liệu trên SQL
2005
CHƯƠNG III: KẾT QUẢ NGHIÊN CỨU
1. Nắm được lý thuyết về kho dữ liệu(DataWareHouse-DW) và lý thuyết về khai phá
dữ liệu(DataMining)
1.1. Kho dữ liệu:
phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm
ra các mẫu hình có tính chính quy (regularities) trong tập dữ liệu. Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn như hình 1.1 5
Knowledge
Pattern
Discovery
Transforme
Cleansed
Preprocessed
Preparated
Dat
a
Target
Data
Gathering
Trích lọc dữ liệu (Selection)
Dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn, ví dụ chọn tất cả những
người có tuổi đời từ 25 – 35 và có trình độ đại học.
Làm sạch, tiền xử lý và chuẩn bị dữ liệu (Cleansing, Pre-processing and
Preparation)
Là bước rất quan trọng trong quá trình khai phá dữ liệu “làm sạch - tiền xử lý - chuẩn
bị trước”.
6
Một số lỗi thường mắc phải là tính phi logíc dữ liệu như chứa các giá trị vô nghĩa và
gây lỗi dữ liệu. Ví dụ: tuổi = 673. Đây là giai đoạn tiến hành xử lý những dạng dữ liệu
không chặt chẽ, phi logic, loại bỏ những dữ liệu dư thừa không có giá trị.
Chuyển đổi dữ liệu (Transformation)
Bước chuyển đổi dữ liệu: dữ liệu được sử dụng và điều khiển bởi việc tổ chức lại
giúp chuyển đổi phù hợp với mục đích khai thác.
Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery)
Là bước mang tính tư duy trong khai phá dữ liệu. Giai đoạn sử dụng nhiều thuật
toán khác nhau để trích ra các mẫu dữ liệu. Thuật toán thường dùng là nguyên tắc
phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự,. v.v.
Đánh giá kết quả mẫu (Evaluation of Result)
Là giai đoạn cuối trong quá trình khai phá dữ liệu. Các mẫu dữ liệu được chiết xuất
ra bởi phần mềm khai phá dữ liệu. Không phải mẫu dữ liệu nào cũng hữu ích, đôi
khi còn bị sai lệch. Vì vậy, cần ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra
các tri thức (Knowlege) cần thiết.
2. Tìm hiểu công cụ SQL 2005
2.1. SQL Manager Studio
Quản lý CSDL: cho phép quản lý dự án một cách tốt nhất từ việc tạo đến khi bảo trì
CSDL.
Các chức năng hầu như tương tự với SQL Manager 2000, ngoài ra SQL Manager
c. Measures, Attributes and Hierarchies (kỹ thuật của UDM)
- Measures: là thông tin chính cần phân tích.
- Attributes: là các thông tin về chiều cần phân tích theo các hướng khác
nhau.
- Hiearchies: là khả năng Tổng quát hóa và Chi tiết hóa của DataMining.
Hỗ trợ khả năng sử dụng các SQL để tạo ra các dữ liệu Tổng quát hơn.
d. Mining Structures
8
Mục đích tạo định hướng cho nguồn dữ liệu giúp tìm ra quy luật của dữ liệu, tách
được dữ liệu ở mức cao hơn.
Hỗ trợ các thuật toán DataMining giúp cho việc phân tích dữ liệu như: Microsoft
Decition trees, Microsoft Clustering, Microsoft Linear Regression, Microsoft
Logistic Regression, Microsoft Naive Bayes, Microsoft Neural Network,
Microsoft Sequence Clustering, Microsoft Time Series.
e. Roles, Assemblies, and Miscellaneous
2.4. SQL Report
Giúp ích cho việc đưa ra các báo cáo dưới dạng văn bản hoặc trình duyệt giúp cho
người quản lý, lãnh đạo có thể xem để đưa ra các quyết định
Báo cáo có thể đưa ra dưới nhiều dạng khác nhau: HTML, Web(server), Doc, Excel,
Pdf, Image. Hoặc có thể đưa dữ liệu lên Server để Server trực tiếp Connect tới
DataWarehouse.
Report trong SQL đưa ra các báo cáo từ dữ liệu có trực tiếp trong CSDL. Ngoài ra
bao gồm các dữ liệu khác như dữ liệu từ việc Phân tích các Khối, dữ liệu từ phân tích
DataMining.
Report hỗ trợ việc định dạng báo cáo: dữ liệu có thể được định dạng tùy theo ý muốn:
dữ liệu dạng số, ngày đặc biệt hỗ trợ rất nhiều dạng biểu đồ mang tính trực quan cho
người xem báo cáo.
Basic Report: Tạo các báo cáo đơn giản như sử dụng các Query thông
Tạo kết nối tới nguồn exel
Chuyển đổi kiểu dữ liệu sao cho đúng kiểu
Chèn dữ liệu vào bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng PHUONGXA
Tạo kết nối tới nguồn Exel
Chuyển đổi dữ liệu sao cho đúng kiểu
11
Kiểm tra ràng buộc tham chiếu với bảng Quanhuyen
Chèn dũ liệu vào bộ đệm Tích hợp dữ liệu từ nguồn Excel vào bảng DUONGPHO Tạo kết nối tới nguồn Exel
Chuyển đổi kiểu dữ liệu sao cho đúng kiểu
Chèn dữ liệu vào bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng MAPHO
12
Tạo kết nối tới nguồn Exel
Chuyển đổi kiểu dữ liệu cho đúng
Kiểm tra ràng buộc tham chiếu với bảng PHUONGXA
Kiểm tra ràng buộc tham chiếu với bảng
DICHVU_VIENTHONG
Chèn dữ liệu vào bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng PHI_HD Tạo kết nối tới nguồn Exel
Chuyển đổi kiểu dữ liệu sao cho đúng kiểu
Kiểm tra ràng buộc tham chiếu với bảng
DICHVU_VIENTHONG
Chèn dữ liệu vào bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng KIEU_LD
16
Tạo kết nối tới nguồn Exel
Chuyển đổi dữ liệu sao cho đúng kiểu
Kiểm tra ràng buộc tham chiếu với bảng LOAI_HD
Kiểm tra ràng buộc tham chiếu với bảng
DICHVU_VIENTHONG
Tích hợp dữ liệu từ nguồn Excel vào bảng KIEU_TT
17
Tích hợp dữ liệu từ nguồn Excel vào bảng LOAI_NHANVIEN
20 Tạo kết nối tới nguồn Exel
Chuyển đổi kiểu dữ liệu sao cho đúng kiểu
Chèn dữ liệu vào bộ đệm Tích hợp dữ liệu từ nguồn Excel vào bảng NHANVIEN
Tạo kết nối tới nguồn Exel
Chuyển đổi kiểu dữ liệu sao cho đúng kiểu
Kiểm tra ràng buộc tham chiếu với bảng LOAI_NV
Kiểm tra ràng buộc tham chiếu với bảng DONVI
Chèn dữ liệu vào bộ đệm
21
Tích hợp dữ liệu từ nguồn Excel vào bảng LOAI_KH
Tạo kết nối tới nguồn Exel
Chuyển đổi kiểu dữ liệu sao co đúng kiểu
Chèn dữ liệu vào bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng HOPDONG_TB
22
24
Tạo kết nối tới nguồn Exel
Chuyển đổi kiểu dữ liệu sao cho đúng kiểu
Kiểm tra ràng buộc tham chiếu với bảng MAPHO
Kiểm tra ràng buộc tham chiếu với bảng HOPDONG_KH
Kiểm tra ràng buộc tham chiếu với bảng DONVI
Kiểm tra ràng buộc tham chiếu với bảng NGANHANG
Chèn dữ liệu vào bộ đệm
25 4.2.2 Tích hợp từ bộ đệm vào Kho dữ liệu
Tích hợp dữ liệu từ bộ đệm vào bảng QUANHUYEN