Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu - Pdf 25


ĐẠI HỌC QUỐC GIA HÀNỘI
KHOA CÔNG NGHỆ

Ngô Văn Bình

Mét sè ph-¬ng ph¸p khai ph¸ d÷ liÖu
vµ øng dông trong bµi to¸n lËp thêi kho¸ biÓu LUẬN VĂN THẠC SĨ HÀ NỘI – 2004

ĐẠI HỌC QUỐC GIA HÀNỘI
KHOA CÔNG NGHỆ
1.2.3. So sánh Kho dữ liệu và hệ quản trị cơ sở dữ liệu truyền thống. 14
1.2.4. So sánh hệ thống cơ sở dữ liệu tác nghiệp và hệ thống kho dữ liệu. 15
1.2.5. Dữ liệu trong Kho dữ liệu. 17
1.2.6. Kiến trúc kho dữ liệu. 18
1.2.7. Ba mô hình của Kho dữ liệu. 22
1.2.8. Hƣớng tiếp cận đề nghị khi phát triển Kho dữ liệu [9]. 23
1.2.9. Từ Kho dữ liệu đến khai phá dữ liệu. 23
CHƢƠNG 2. KHAI PHÁ DỮ LIỆU 26
2. 1. Giới thiệu khai phá dữ liệu. 26
2.1.1. Khai phá dữ liệu là gì ? 26
2.1.2. Động cơ thúc đẩy dùng khai phá dữ liệu. 26
2.2. Các ứng dụng của khai phá dữ liệu: 27
2.2.1. Phân tích cơ sở dữ liệu và trợ giúp ra quyết định: 27
2.2.2. Các ứng dụng khác. 28
2.3. Khai phá dữ liệu trong quá trình phát hiện tri thức 29
2.4. Khai phá dữ liệu và tin tức kinh doanh 31
2.5. Kiến trúc điển hình của hệ thống khai phá dữ liệu. 31
2.6. Khai phá dữ liệu nơi hội tụ của rất nhiều kiến thức: 32
2.7. Trọng tâm chính trong khai phá dữ liệu. 32
2.8. Những vấn đề không cần dùng khai phá dữ liệu 33
2.9. quá trình khai phá dữ liệu. 34
2.9.1. Truy cập và chuẩn bị dữ liệu. 34
2.9.2. Quá trình khái phá dữ liệu. 37
2.10. Các nhiệm vụ chính của khai phá dữ liệu 37
2.11. Các thành phần của giải thuật khai phá dữ liệu. 39
CHƢƠNG 3. CÁC PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU TRỰC QUAN 40
3.1. Quan sát các hoạt động không theo chủ quan 40
3.2. Trực quan và đòi hỏi của nhận thức 41
3.3. Vẽ sơ đồ dữ liệu trên lƣợc đồ trực quan. 42
3.3.1. Thuật toán xác định vị trí [6] 42

4.7. lựa chọn phƣơng pháp khai phá dữ liệu. 64
4.8. ƣu thế và khó khăn của khai phá dữ liệu. 64
4.8.1. Ƣu thế: 64
4.8.2. Khó khăn. 66
CHƢƠNG 5. GIẢI THUẬT DI TRUYỀN VÀ BÀI TOÁN LẬP THỜI KHOÁ BIỂU. 70
5.1. Tổng quan giải thuật di truyền cổ điển. 70
5.1.1. Ý tƣởng của giải thuật 70
5.1.2 Cấu trúc của GA cổ điển 71
5.2. GA và bài toán lập thời khoá biểu ở trƣờng cao đẳng công nghiệp hà nội. 75
5.2.1. Giới thiệu 75
5.2.2. Các định nghĩa. 77
5.2.3. Giải thuật di truyền cho thời khoá biểu 79
5.2.4. Thiết kế cơ sở dữ liệu 90
5.2.5. Chƣơng trình lập thời khoá biểu. 93
KẾT LUẬN 96
TÀI LIỆU THAM KHẢO 98
PHỤ LỤC 100
3

MỞ ĐẦU
Trong suốt hơn 40 năm phát triển, Cơ sở dữ liệu đã có những bƣớc tiến vô
cùng quan trọng trong lịch sử Công nghệ thông tin. Từ mô hình Cơ sở dữ liệu quan
hệ do E. Codd đề xuất từ những năm 60, các ứng dụng công nghệ thông tin đã thực
sự biến việc lƣu trữ dữ liệu trở thành lƣu trữ thông tin. Ngày nay, bất cứ một tổ
chức nào, với bất kỳ một mô hình hay quy mô nào cũng đều có những nhu cầu về
lƣu trữ và khai thác thông tin. Khái niệm thông tin ở đây bao gồm cả thông tin về
nội tại của tổ chức và thông tin về môi trƣờng (environment) và tổ chức hoạt động.
Với những tiến bộ vƣợt bậc trong nghiên cứu lý thuyết cũng nhƣ cài đặt thực
tế, các hệ quản trị cơ sở dữ liệu đã trở thành nền tảng, là xƣơng sống trong hoạt
động của các tổ chức. Chúng ta có thể thấy những nhà cung cấp hệ quản trị cơ sở dữ

(DataMining) làm trung tâm nghiên cứu.
Nghiên cứu này mới chỉ dừng lại ở việc tìm hiểu các phƣơng pháp khai phá
dữ liệu trong thực tế để có thể dựa vào đó nhƣ một tài liệu thám khảo, cuối cùng
đƣa ra giải pháp để giải quyết bài toán lập thời khoá biểu – một bài toán NP khó.
Với thời gian nghiên cứu chƣa đủ dài cũng nhƣ trình độ và tầm hiểu biết chƣa
thực sự sâu sắc, chắc chắn việc nghiên cứu có nhiều thiếu sót và chƣa chặt chẽ.
Nhƣng qua đây, em xin chân thành cảm ơn PGS.TS. Vũ Đức Thi Chủ tịch hội đồng
Khoa học, Viện phó Viện Công nghệ Thông tin – Viện Khoa học Việt nam ngƣời
đã tận tình hƣớng dẫn và giúp đỡ em trong toàn bộ quá trình nghiên cứu. Em cũng
xin đƣợc bày tỏ lòng biết ơn đến các Thầy, Cô khoa Công nghệ - Đại học Quốc gia
Hà nội đã tạo mọi điều kiện làm việc, học tập tốt nhất cũng nhƣ những ý kiến quý
báu trong thời gian học Cao học giúp em có thể hoàn thành nghiên cứu này.
Tôi xin đƣợc cảm ơn bạn bè, gia đình những ngƣời đã giúp đỡ tôi rất nhiều
trong việc hoàn thành luận văn.
Những đóng góp chính của luận văn:
 Luận văn đã trình bày một phƣơng pháp khai phá dữ liệu bằng các công
cụ trực quan và các phƣơng pháp thông dụng, trong các phƣơng pháp
có trình bày rõ nên sử dụng nhƣ thế nào và sử dụng trong trƣờng hợp
nào.
 Luận văn trình bày về kho dữ liệu và cách sử dụng Kho dữ liệu.
5

 Luận văn xây dựng phƣơng pháp giải quyết bài toán lập thời khoá biểu
dựa trên giải thuật di truyền, một trong các phƣơng pháp khai phá dữ
liệu.
Nội dung của luận văn:
Phần mở đầu của luận văn giới thiệu nội dung nghiên cứu, tính cấp thiết của
đề tài và những đóng góp chính của luận văn. Chƣơng 1 giới thiệu các khái niệm cơ
bản về khai phá dữ liệu, Kho dữ liệu và ứng dụng. Chƣơng 2 giới thiệu về khai phá
dữ liệu nói chung, các ứng dụng của khai phá dữ liệu. Chƣơng 3 giới thiệu các

Theo sự phát triển đi lên của các hệ thống cơ sở dữ liệu, các hệ thống thông
tin cũng đƣợc chuyên môn hoá, phát triển chuyên sâu theo các lĩnh vực ứng dụng
nhƣ sản xuất, kinh doanh, tài chính, thị trƣờng.v.v Nhƣ vậy bên cạnh chức năng
khai thác dữ liệu có tính chất tác nghiệp, sự ứng dụng trong kinh doanh không còn
là dữ liệu đơn thuần của các hệ thống nữa mà cơ sở dữ liệu cần đem lại những "tri
thức" hơn là chính những dữ liệu đó. Trong xã hội hiện nay, các hoạt động kinh
doanh cần có các quyết định nhanh và chính xác dựa trên những dữ liệu sẵn có,
trong khi đó khối lƣợng dữ liệu tăng nhanh làm ảnh hƣởng đến thời gian ra
quyết định cũng nhƣ khả năng hiểu hết đƣợc nội dung dữ liệu. Điều này dẫn đến
các mô hình CSDL truyền thống và ngôn ngữ hỏi không có khả năng đáp ứng đƣợc
yêu cầu này. Để lấy đƣợc những thông tin có tính "tri thức" trong khối dữ
7

liệu khổng lồ này, ngƣời ta đã đi tìm những kỹ thuật có khả năng hợp nhất các dữ
liệu từ các hệ thống dữ liệu khác nhau, chuyển đổi thành một tập hợp các cơ sở dữ
liệu ổn định, có chất lƣợng đƣợc sử dụng chỉ riêng cho một vài mục đích nào đó.
Các kỹ thuật đó đƣợc gọi chung là kỹ thuật tạo kho dữ liệu (Data Warehousing) và
môi trƣờng các dữ liệu có đƣợc gọi là các kho dữ liệu. Tuy nhiên, việc sử dụng các
cách khai thác dữ liệu theo khai thác truyền thống mới chỉ dừng lại ở cách khai thác
dữ liệu với các kỹ thuật cao để đƣa ra các dữ liệu tinh và chính xác hơn chứ chƣa
đƣa ra đƣợc dữ liệu "tri thức". Kho dữ liệu đƣợc sử dụng để hỗ trợ cho phân tích
trực tuyến (OLAP) có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay
sai nhƣng không thể đƣa ra các giả thuyết. Kỹ thuật học máy có thể đƣa ra giả
thuyết, nhƣng trên các tập dữ liệu lớn trong kho dữ liệu thì chúng thể hiện khả năng
rất kém. phƣơng pháp thống kê cũng không có cải tiến gì để phù hợp với sự phát
triển của dữ liệu. Đây là lý do tại sao vẫn còn khối lƣợng lớn dữ liệu vẫn chƣa đƣợc
khai thác và thậm chí đƣợc lƣu chủ yếu trong các kho dữ liệu không trực tuyến.
Điều này đã tạo nên một lỗ hổng lớn trong việc hỗ trợ phân tích và tìm hiểu dữ
liệu, tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai thác các dữ liệu đó
Trong khi đó, càng ngày ngƣời ta càng nhận thấy rằng nếu đƣợc phân tích thông

chọn từ cơ sở dữ liệu.
4. Chuyển đổi dữ liệu: Các dữ liệu đƣợc chuyển đổi sang các dạng phù hợp cho
quá trình xử lý.
5. Khai phá dữ liệu: Là một trong nhƣng bƣớc quan trọng nhất, trong đó sử
dụng những phƣơng pháp thông minh để chắt lọc ra những mẫu dữ liệu.
6. Ước lượng mẫu: Quá trình đánh giá các kết quả tìm đƣợc thông qua các độ
đo nào đó.
7. Biểu diễn tri thức: Quá trình này sử dụng các kĩ thuật biểu diễn và thể hiện
trực quan các tri thức cho ngƣời dùng.
Khai phá dữ liệu là giai đoạn chủ yếu của quá trình Phát hiện tri thức từ
CSDL. Công đoạn khai phá tri thức đƣợc thực hiện sau các quá trình thu thập và
tinh lọc dữ liệu, có nghĩa là chỉ tìm các mẫu hình tri thức (pattern) có ý nghĩa trên
tập dữ liệu có hy vọng chứ không phải là trên toàn bộ CSDL nhƣ các phƣơng pháp
thống kê trƣớc đây.
Vì vậy khai phá dữ liệu bao gồm việc thử tìm mô hình phù hợp với dữ liệu
và tìm kiếm các mẫu hình tri thức từ dữ liệu theo mô hình đó. Mặc dù mẫu hình
9

có thể tìm đƣợc từ bất kỳ một CSDL nào nhƣng chỉ những mẫu phù hợp với mục
đích tìm kiếm mới đƣợc gọi là tri thức. Ta sẽ có những hàm số để đánh giá các tiêu
chí mẫu nhƣ mới, có lợi, đáng xem xét.
Độ mới của mẫu hình phụ thuộc vào khung phạm vi quy chiếu, có thể đối với
hệ thống hoặc đối với ngƣời dùng. Ví dụ với dữ liệu của một công ty, quá trình
Khai phá dữ liệu tìm ra đƣợc một luật nhƣ “Lợi tức thu đƣợc giảm vào mùa thu ở
vùng phía Bắc”, đối với hệ thống thì rất mới, trƣớc kia chƣa hề có nhƣng bất cứ một
cán bộ lập kế hoạch nào cũng nhận ra đƣợc điều này qua các báo cáo tài chính.
Tính hữu dụng của mẫu có thể đo đƣợc qua sự liên quan đến mục đích tìm
kiếm. Với một cán bộ phụ trách bảo trì máy tính ở công ty thì luật trên không có giá
trị, mặc dù là mới đối với anh ta.
Có thể qua công đoạn khai phá tri thức có rất nhiều mẫu đƣợc lấy ra nhƣng

thống thông tin nhƣ thế vấp phải một số hạn chế về mặt kỹ thuật, đặc biệt là khi
kích thƣớc cũng nhƣ độ phức tạp của môi trƣờng thông tin tăng lên. Những hệ
thống thông tin xây dựng theo phƣơng pháp truyền thống không làm hài lòng ngƣời
sử dụng và ngay cả những nhà quản lý hệ thống thông tin. Vê phía ngƣời sử dụng,
các khó khăn gặp phải là[9]:
1. Không thể tìm thấy dữ liệu cần thiết:
- Dữ liệu rải rác ở rất nhiều hệ thống với các giao diện và công cụ khác nhau
gây mất nhiều thời gian chuyển từ hệ thống này sang hệ thống khác.
- Có thể có nhiều nguồn thông tin đáp ứng đƣợc đòi hỏi nhƣng chúng lại có
những khác biệt và rất khó phát hiện thông tin nào là đúng và cần thiết. Không thể
lấy ra đƣợc dữ liệu cần thiết.
- Thƣờng xuyên phải có chuyên gia trợ giúp dẫn đến công việc dồn đống. Có
những loại thông tin không thể lấy ra dƣợc nếu không mở rộng khả năng làm việc
của hệ thống có sẵn. Không thể hiểu đƣợc dữ liệu tìm thấy.
- Mô tả dữ liệu nghèo nàn và thƣờng xa rời với thuật ngữ nghiệp vụ quen
thuộc.
2. Không thể sử dụng được dữ liệu tìm thấy:
- Kết quả tìm thấy thƣờng không đáp ứng về bản chất dữ liệu và thời gian tìm
kiếm.
11

- Dữ liệu phải chuyển đổi bằng thủ công vào môi trƣờng làm việc của ngƣời
sử dụng.
3. Các vấn đề về hệ thống thông tin- Phát triển các chương trình khác nhau là
không đơn giản :
- Một chức năng đƣợc thể hiện ở rất nhiều chƣơng trình, nhƣng việc tổ chức
và sử dụng lại nó là khó khăn do hạn chế về kỹ thuật.
- Chuyển đổi dữ liệu từ các khuôn dạng tác nghiệp khác nhau để phù hợp với
ngƣời sử dụng là rất khó khăn. Duy trì những chƣơng trình này gặp rất nhiều vấn
đề.

vẫn là một thị trƣờng rất phát triển. Ban đầu các dự án về Kho dữ liệu đƣợc xây
dựng chủ yếu ở các tổ chức lớn (nhà băng lớn, hãng hàng không, ). Tại Việt nam,
do nhu cầu tăng cao hiệu quả quản lý, do xu hƣớng hoá nhập vào thế giới với sức ép
cạnh tranh ngày càng tăng từ nƣớc ngoài, do nỗ lực xây dựng công nghệ thông tin
thành ngành công nghiệp mũi nhọn, các dự án về xây dựng những Kho dữ liệu đang
dƣợc dần triển khai ở các cơ quan lớn của nhà nƣớc. Và cùng với việc quan tâm
ngày càng tăng tới hệ trợ giúp quyết định, Kho dữ liệu với vai trò là cơ sở hạ tầng
cung cấp dữ liệu cho hệ trợ giúp quyết định ngày càng trở nên quan trọng.
1.2.2. Định nghĩa kho dữ liệu.
Kho dữ liệu có thể đƣợc định nghĩa bằng nhiều cách khác nhau nhƣng không
nghiêm ngặt lắm, ta có thể định nghĩa kho dữ liệu nhƣ sau [9]:
Kho dữ liệu (Data Warehouse-DW) là một tập hợp các dữ liệu có tính hướng
chủ đề, tích hợp, gắn với thời gian và ổn định, được thiết kế cho việc hỗ trợ ra quyết
định.
Kho dữ liệu có thể gọi là một công trình xây dựng tổng hợp các dữ liệu từ
những nguồn dữ liệu không đồng nhất, bao gồm các dữ liệu quá khứ và dữ liệu hiện
tại, báo cáo phân tích và hỗ trợ quyết định. Kho dữ liệu do vậy thƣờng rất lớn, tới
hàng trăm hay thậm chí hàng nghìn Gigabyte.
Theo W. H. Inmon và R. D. Hackathom [9] định nghĩa : Kho dữ liệu là một s-
ưu tập dữ liệu trợ giúp ra quyết định trong quản lý, với các đặc điểm:
Hướng chủ đề (subject - oriented),
Tích hợp(integrated),
13

Đa dạng thời gian (time-variant)
Không hay thay đổi (nonvolatile).
Cụ thể hơn :
Hướng chủ đề : Trong Data Warehouse dữ liệu đƣợc mô hình hoá và thiết kế
xoay quanh chủ đề chính của công trình cần xây dựng nhƣ khách hàng, sản phẩm,
bán hàng…hơn là đi vào các giao tác riêng biệt hoặc các xử lý hàng ngày. Cung cấp

* Phƣơng pháp truyền thống:
1. Xây dựng hoán đổi hoặc vật dàn xếp trên đỉnh của cơ sở dữ liệu hỗn tạp.
2. Áp dụng các điều khiển Query:
- Khi một client yêu cầu một site, siêu từ điển đƣợc sử dụng để chuyển query
của client thành query thích hợp để tạo site từ các site hỗn tạp, kết quả đƣợc tích
hợp vào tập các câu trả lời chung.
Vấn đề phức tạp trong lọc thông tin và tranh chấp tài nguyên.
*Kho dữ liệu: Sử dụng công cụ update và khả năng thực thi cao.
Thông tin từ các nguồn hỗn tạp đƣợc tích hợp cao hơn và đƣợc chứa trong
các kho phục vụ cho các truy vấn hoặc các phân tích trực tiếp.
1.2.3.2. Vấn đề hoạt động
* Dùng OLTP (on-line transaction processing)- Xử lý các giao tác trực tuyến
- Thực hiện nhiệm vụ chính trong CSDL quan hệ truyền thống.
- Phục vụ các hoạt đồng hàng ngày: mua, bán, đăng ký, thanh toán, lập bảng
lƣơng, báo cáo…
* Dùng OLAP (on-line analytical processing) – Xử lý phân tích trực tuyến
- Dùng cho các nhiện vụ chính của hệ thống Kho dữ liệu.
- Phục vụ phân tích dữ liệu và hỗ trợ ra quyết định.
* Sự khác biệt trong khả năng của OLPT và OLAP [9]:

OLPT
OLAP
Nội dung dữ liệu
Hiện tại, chi tiết
Lịch sử và hợp nhất
Thiết kế CSDL
Mô hình ER và ứng dụng
Mục tiêu và chủ đề
15


thể đƣợc truy cập
10
1.000.000
Số ngƣời dùng
Hàng trăm
Hàng nghìn
Độ lớn CSDL
100MB - GB
100GB – TB
Đơn vị đo
Số lƣợng giao tác
Số lƣợng truy vấn và trả lời

1.2.4. So sánh hệ thống cơ sở dữ liệu tác nghiệp và hệ thống kho dữ liệu.
Thông thƣờng, các cơ quan tổ chức trƣớc khi bắt đầu xây dựng Kho dữ liệu
đều đã tin học hoá các hoạt động hàng ngày bằng xây dựng các hệ tác nghiệp
(Online Transaction Processing - OLTPL). Và nguồn dữ liệu chủ yếu của Kho dữ
liệu chính là từ hệ tác nghiệp. Nhưng tại sao lại phải xây dựng kho dữ liệu - một hệ
thống tin học mới - khi đã có sẵn một hệ thống tin học là hệ tác nghiệp? Đó là vì tác
nghiệp phục vụ cho tự dộng hoá các tác vụ thao tác hàng ngày, còn Kho dữ liệu
phục vụ cho môi trƣờng thông tin ra quyết định, Kho dữ liệu đƣợc thiết kế hƣớng
trợ giúp quá trình phân tác và ra quyết định, và mang những đặc điểm khác nhƣ
sau:

16

Hệ thống tác nghiệp mang tính hướng tác vụ với những đặc điểm chính
sau [9]:
1. Trợ giúp các công việc tức thời hàng ngày.
2. Chứa dữ liệu hiện thời, thể hiện trạng thái thực công việc.

tắt và kết hợp nhằm phân loại khối lƣợng dữ liệu khổng lồ nói trên. Chính vì nhu
cầu quản lý tất cả các dữ liệu quá khứ để thêm vào dữ liệu hiện tại cho nên Kho dữ
liệu lớn hơn nhiều so với cơ sở dữ liệu tác nghiệp.
Lưu trữ thông tin trên nhiều phương tiện: Vì khối lƣợng thông tin phải quản
lý là rất lớn nên Kho dữ liệu thƣờng lƣu trữ dữ liệu trên nhiều phƣơng tiện khác
nhau.
Ghép nối nhiều phiên bản của lược đồ cơ sở dữ liệu: Kho dữ liệu phải lƣu trữ
và quản lý các thông tin quá khứ. Vì các thông tin quá khứ đó đã đƣợc quản lý ở
nhiều thời điểm khác nhau bởi nhiều phiên bản khác nhau của lƣợc đồ cơ sở dữ liệu
nên Kho dữ liệu phải tổng hợp các thông tin đó lại
Tóm tắt và kết hợp thông tin: Mức chi tiết đƣợc thấy trong các thông tin đƣợc
lƣu trữ bởi cơ sở dữ liệu tác nghiệp thƣờng rất lớn để ra quyết định. Kho dữ liệu
tóm tắt và kết hợp thông tin để đƣa ra theo cách thức mà ngƣời dùng có thể hiểu
đƣợc.
Tích hợp và liên kết thông tin từ nhiều nguồn dù liệu khác nhau: Vì các tổ
chức đã sử dụng nhiều cơ sở dữ liệu và ứng dụng phần mềm khác nhau để quản lý
công việc của chúng, Kho dữ liệu cần thiết để thu thập và tổ chức các dữ liệu mà
các ứng dụng này đã thu thập đƣợc qua nhiều năm.
1.2.5. Dữ liệu trong Kho dữ liệu.
Việc xây dựng Kho dữ liệu là một quá trình kỹ thuật thu thập, quản lý và khai
thác tài liệu một cách lợp lý từ nhiều nguồn khác nhau để thiết lập một kho dữ liệu.
Nó cung cấp những dữ liêu phù hợp, dễ hiểu cần thiết cho việc quản lý một phần
hay toàn bộ công tác nghiệp vụ của một tổ chức.
Để xây dựng Kho dữ liệu thì điều đầu tiên cần phải quan tâm là Kho dữ liệu
bao gồm những dữ liệu nào. Tuỳ thuộc vào cách xem xét dữ liệu mà ta có 3 cách
phân chia các kiểu dữ liệu sau:
18

Phân chia theo ngữ nghĩa của dữ liệu : theo ngữ nghĩa của dữ liệu thì Kho dữ
liệu có 3 kiểu dữ liệu [9],[5]:

4. Các truy vấn giao dịch: đƣa ra viễn cảnh của dữ liệu dựa trên cái nhìn của
ngƣời sử dụng.
* Quy trình thiết kế Kho dữ liệu.
1. Dùng cách tiếp cận top-down hoặc bottom – up hoặc trộn lẫn cả hai
phƣơng pháp. Trong đó, phƣơng pháp tiếp cận top-down bắt đầu với thiết kế và kế
hoạch còn bottom-up bắt đầu với các thử nghiệm và nguyên mẫu.
2. Dựa trên quan điểm đánh giá kỹ nghệ phần mềm(công trình học phần
mềm):
- Mô hình thác nƣớc: Phân tích cấu trúc và hệ thống của từng bƣớc trƣớc khi
bƣớc sang bƣớc khác.
- Mô hình xoắn ốc: Nhanh chóng đƣa ra các chức năng hệ thống với thời gian
trả lời ngắn và nhanh
3. Các quy trình thiết kế Kho dữ liệu điển hình
- Thiết kế theo quy trình giao dịch
- Thiết kế theo quy trình hạt nhân
- Thiết kế theo kích thƣớc dữ liệu
- Thiết kế theo các đơn vị đo của dữ liệu.
20

* Kiến trúc đa tầng của Kho dữ liệu [9]
Hình 1.1. Mô Kho dữ liệu.
Mô tả các thành phần :
1. Data sources (Dữ liệu nguồn) bao gồm :
- Dữ liệu sản phẩm: đó là các dữ liệu đƣợc chắt lọc từ các phần mềm ứng
dụng và các hệ CSDL tác nghiệp.
- Dữ liệu kế thừa: Loại dữ liệu này có tính lịch sử. Chúng phục vụ cho quá
trình phân tích dữ liệu. Mặt khác, các phƣơng pháp khai phá dữ liệu cũng thƣờng xử
lí trên các dữ liệu này.
2. Data Storage (Các hệ thống dữ liệu bên trong).
- Extract, Transform, Load, Refresh (Bộ biến đổi và tích hợp dữ liệu) Làm

Data
Storage
OLAP Server
21

- Data mart (Kho dữ liệu cục bộ hay dữ liệu theo chủ đề): là nơi các dữ liệu
đƣợc khoanh vùng theo chủ đề tới một giới hạn nào đó và có thể đƣợc thay đổi cho
phù hợp với nhu cầu của từng bộ phận ngƣời dùng. Với các kho dữ liệu này, cũng
có thể xây dựng một kho dữ liệu theo cách tiếp cận từng giai đoạn kế tiếp nghĩa là
với một tập hợp các kho dữ liệu thông minh, ta tạo ra một kho dữ liệu, ngƣợc lại,
một kho dữ liệu có thế đƣợc phân tích thành nhiều kho dữ liệu cục bộ. Bao gồm các
chức năng: Mô hình hoá, Sàng lọc, tích hợp dữ liệu vào các lĩnh vực có chủ đề cụ
thể, Tổng hợp, kết nối dữ liệu.
- Metadata (Kho dữ liệu về dữ liệu - Siêu dữ liệu): Do tính đa dạng của các
kiểu loại dữ liệu và các phƣơng pháp quản lý dữ liệu mới khác so với các hệ quản
trị CSDL tác nghiệp, nên cần xây dựng loại dữ liệu để định nghĩa và xác định các
loại dữ liệu, các phƣơng pháp xử lí, các phƣơng pháp quản lý dữ liệu trong Kho dữ
liệu. Các chức năng chính của siêu dữ liệu :
+ Định nghĩa dữ liệu ( định nghĩa kỹ thuật và miêu tả nghiệp vụ) của các dữ
liệu lƣu trữ trong Kho dữ liệu.
+ Mô tả các báo cáo và các chất vấn.
+ Mô tả qui định sao chép, cập nhật và nạp lại dữ liệu.
+ Mô tả cách thức truy nhập dữ liệu
3. OLAP Engine: Bản thân Kho dữ liệu là một hệ thống thông tin lớn và
có một khối lƣợng rất lớn các dữ liệu lịch sử và hiện tại, mà các loại dữ liệu này bao
gồm nhiều kiểu loại khác nhau và đa dạng, do đó việc quản trị dữ liệu đóng một vai
trò rất quan trọng. Việc Quản trị dữ liệu này tạo môi trƣờng hoạt động cho chính
Kho dữ liệu. Quản trị kho có những chức năng nhƣ nạp vào, nạp lại, trích đoạn dữ
liệu, tuân thủ an toàn, lƣu trữ, khôi phục dữ liệu.
- Hệ thống phân phối thông tin:

liệu về maketing.
3. Kho ảo: Chứa tập các cái nhìn tổng quan về hoạt động của cơ sở dữ
liệu. Tuy nhiên, chỉ một vài kết luận trong đó có thể thực hiện đƣợc.
23

1.2.8. Hƣớng tiếp cận đề nghị khi phát triển Kho dữ liệu [9].

Hình 1.2. Hƣớng phát triển kho dữ liệu
1.2.9. Từ Kho dữ liệu đến khai phá dữ liệu.
1.2.9.1. Sử dụng Kho dữ liệu.
Kho dữ liệu sử dụng cho ba loại ứng dụng sau:
1. Xử lý thông tin: trợ giúp truy vấn, phân tích thông tin tĩnh và cơ
bản, tạo báo cáo sử dụng crosstabs, bảng, biểu đồ và đồ thị.
2. Xử lý các phân tích: Phân tích nhiều loại kích thƣớc của dữ liệu
trong Kho dữ liệu. Trợ giúp các hoạt động cơ bản của xử lý phân
tích trực tuyến.
3. Khai phá dữ liệu (data mining): Khai phá tri thức từ các mẫu ẩn. Trợ
giúp các mô hình phân tích xây dựng và kết hợp, biểu diễn phân loại
và dự báo, đƣa ra các kết quả khai phá bằng các công cụ trực quan. Define a high-level corporate data model
Data Mart
Data Mart
Distributed Data
Marts
Multi-Tier Data
Warehouse
Enterprise Data
Warehouse


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status