CHƯƠNG I :ĐẶT VẤN ĐỀ
1. Đặt vấn đề
Trong xu thế toàn cầu hóa và tự do hóa thương mại, nền kinh tế thế giới và khu vực tiếp tục
biến đổi nhanh chóng và sâu sắc trên nhiều mặt. Cách mạng khoa học, công nghệ nói chung và
công nghệ thông tin nói riêng tiếp tục phát triển nhanh; cuộc đấu tranh dân tộc, đấu tranh giai
cấp trên toàn thế giới cũng như ở nước ta đang diễn ra hết sức phức tạp, đặt ra yêu cầu đối với
các ngành kinh tế nước ta là phải nắm bắt được các công nghệ hiện đại, chủ động trong hội
nhập, thực hiện công nghiệp hóa, hiện đại hóa theo định hướng xã hội chủ nghĩa.
Đối với nghành Bưu chính Viễn thông, xu thế hội nhập, cạnh tranh, sức ép giảm giá cước viễn
thông, những đòi hỏi xã hội đối với việc nâng cao chất lượng các dịch vụ bưu chính viễn thông
ngày càng cao. Ở một số lĩnh vực, một số dịch vụ, việc cạnh tranh đã trở nên gay gắt.
Ngành công nghiệp viễn thông lưu trữ một khối lượng dữ liệu khổng lồ, bao gồm chi tiết
cuộc gọi, thông tin cảnh báo tình trạng hệ thống mạng viễn thông và thông tin dữ liệu về khách
hàng. Khả năng ứng dụng kỹ thuật khai phá dữ liệu (Data Mining) để phát hiện các quy luật
ẩn chứa trong khối dữ liệu khổng lồ, giúp đưa ra các quyết định đúng đắn mang lại cho các
doanh nghiệp viễn thông cơ hội để phát triển dựa trên các hoạch định chính xác mang tính lịch
sử và thực tiễn cao. Đây là một hướng đi phù hợp và đã sớm được áp dụng phổ biến ở nhiều
công ty viễn thông lớn trên thế giới.
Chính vì lý do đó Ứng dụng DataMining cho phát triển các thuê bao điện thọai cố định sẽ
giúp phát triển các thuê bao đặc biệt ở Hà Nội.
2. Mục tiêu của nghiên cứu khoa học
Mục tiêu đề tài là sử dụng công cụ SQL 2005 trong ứng dụng DataMining cho việc phát
triển các thuê bao điện thoại cố định ở Hà Nội, bao gồm các vấn đề chính sau:
• Nắm bắt được khái quát lý thuyết về DataMining
• Công cụ sử dụng SQL 2005
• Đưa ra được các báo cáo, kết quả bài toán phát triển thuê bao điện thoại cố định
giúp cho việc đưa ra các quyết định nhằm giúp ích cho việc đưa ra chiến lược
phát triển thuê bao ở Hà Nội
1
CHƯƠNG II: PHƯƠNG PHÁP NGHIÊN CỨU
Để thực hiện Đề tài, em đã sử dụng một số phương pháp nghiên cứu sau:
cụ chuẩn để phục vụ cho DW.
1.1.6. Quản lý những siêu dữ liệu
1.1.7. Cung cấp các thông tin được tích hợp, tóm tắt hoặc được liên kết, được tổ chức
theo các chủ đề.
1.1.8. Dùng trong các hệ thống hỗ trợ quyết đinh.
1.2. Khai phá dữ liệu:
Khai phá dữ liệu (Data mining - DM) là một khái niệm ra đời vào những năm
cuối của thập kỷ 80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông
tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu). Về bản chất, khai
phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra
các mẫu hình có tính chính quy (regularities) trong tập dữ liệu.
Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn như hình 1.1
3
Knowledge
Pattern
Discovery
Transformed
Data
Cleansed
Preprocessed
Preparated
Data
Target
Data
Gathering
Data Mining
Selection
Transformati
on
Cleansing Pre-
Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery)
Là bước mang tính tư duy trong khai phá dữ liệu. Giai đoạn sử dụng nhiều thuật toán
khác nhau để trích ra các mẫu dữ liệu. Thuật toán thường dùng là nguyên tắc phân
loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự,. v.v.
Đánh giá kết quả mẫu (Evaluation of Result)
Là giai đoạn cuối trong quá trình khai phá dữ liệu. Các mẫu dữ liệu được chiết xuất
ra bởi phần mềm khai phá dữ liệu. Không phải mẫu dữ liệu nào cũng hữu ích, đôi khi
còn bị sai lệch. Vì vậy, cần ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri
thức (Knowlege) cần thiết.
2. Tìm hiểu công cụ SQL 2005
2.1. SQL Manager Studio
Quản lý CSDL: cho phép quản lý dự án một cách tốt nhất từ việc tạo đến khi bảo trì
CSDL.
Các chức năng hầu như tương tự với SQL Manager 2000, ngoài ra SQL Manager
Studio 2005 còn hỗ trợ việc quản lý của các dự án SQL Analysis, SQL Integrate, SQL
Report. Quản lý các hoạt động Chạy của các dự án.
2.2. SQL Intergrate
Công cụ cho phép người quản trị tích hợp dữ liệu từ nhiều nguồn dữ liệu khác nhau:
Text(có cấu trúc), Excel, Access, SQL, Oracle.
5
Cơ chế này cho phép chuyển đổi hầu hết các dữ liệu có dạng cấu trúc vào CSDL SQL
2005. Với khả năng linh hoạt cho phép lựa chọn những dữ liệu cần thiết, ngoài ra còn
cho phép thông báo ra những dữ liệu không hợp lệ theo ý người dùng.(Cơ chế báo lỗi
ngoài ý muốn).
Hỗ trợ khả năng tích hợp một cách linh hoạt, có thể sử dụng được các Query để phụ
giúp cho quá trình tích hợp dữ liệu, có thể bổ sung dữ liệu mới mà có liên quan tới dữ
liệu đã có trong CSDL(dữ liệu có tính tham chiếu).
2.3. SQL Analysis
Là công cụ cho phép người quản trị phân tích kho dữ liệu theo nhiều cách để giúp cho
việc đưa ra các báo cáo mang tính chiến lược, các dữ liệu khác.
DataWarehouse.
Report trong SQL đưa ra các báo cáo từ dữ liệu có trực tiếp trong CSDL. Ngoài ra bao
gồm các dữ liệu khác như dữ liệu từ việc Phân tích các Khối, dữ liệu từ phân tích
DataMining.
Report hỗ trợ việc định dạng báo cáo: dữ liệu có thể được định dạng tùy theo ý muốn:
dữ liệu dạng số, ngày đặc biệt hỗ trợ rất nhiều dạng biểu đồ mang tính trực quan cho
người xem báo cáo.
• Basic Report: Tạo các báo cáo đơn giản như sử dụng các Query thông
thường trong SQL để đưa thông tin ra.
• Group Report: Tạo ra các nhóm báo cáo giúp cho việc định dạng khuôn
dạng của 1 nhóm để đưa dữ liêu lên Server. Trong đó bao gồm việc tạo các
Mẫu báo cáo.
3. Tìm hiểu bài toán Phát triển thuê bao
Bài toán Phát triển thuê bao điện thoại ở Hà Nội gắn liền với việc ngày càng có nhiều khách
hàng làm Hợp đồng, đăng kí sử dụng các dịch vụ của Bưu điện. Cơ sở dữ liệu bao gồm có 19
bảng : DICHVU_VT, DOITUONG, DONVI, QUANHUYEN, DUONGPHO, MAPHO,
7
PHUONGXA, HD_KHACHHANG, HD_THANHTOAN, HD_THUEBAO, KIEU_LD,
KIEU_TT, LOAI_HD, LOAI_KH, LOAI_NV, LOAIHINH_TB, NGANHANG,
NHANVIEN, PHI_HOPDONG
4. Ứng dụng bài toán Phát triển thuê bao sử dụng SQL 2005
4.1. Lược đồ quan hệ kho dữ liệu
4.2. Sơ đồ tích hợp dữ liệu từ các File Excel vào Kho dữ liệu
8
4.2.1 Tích hợp từ các File Excel vào Bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng QUANHUYEN
• Tạo kết nối tới nguồn exel
• Chuyển đổi kiểu dữ liệu sao cho đúng kiểu
• Chèn dữ liệu vào bộ đệm
12
Tích hợp dữ liệu từ nguồn Excel vào bảng LOAIHINH_TB• Tạo kết nối tới nguồn Exel
• Chuyển đổi kiểu dữ liệu sao cho đúng kiểu
• Kiểm tra ràng buộc tham chiếu với bảng DICHVU_VIENTHONG
13
• Chèn dữ liệu vào bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng PHI_HD
• Tạo kết nối tới nguồn Exel
• Chuyển đổi kiểu dữ liệu sao cho đúng kiểu
• Kiểm tra ràng buộc tham chiếu với bảng DICHVU_VIENTHONG
• Chèn dữ liệu vào bộ đệm
Tích hợp dữ liệu từ nguồn Excel vào bảng KIEU_LD
14
• Tạo kết nối tới nguồn Exel
• Chuyển đổi dữ liệu sao cho đúng kiểu
• Kiểm tra ràng buộc tham chiếu với bảng LOAI_HD
• Kiểm tra ràng buộc tham chiếu với bảng DICHVU_VIENTHONG
Tích hợp dữ liệu từ nguồn Excel vào bảng KIEU_TT
15