Khai phá dữ liệu điểm để dự đoán kết quả học tập của Sinh viên trường Cao đẳng Sư phạm Hà Nội - Pdf 25

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ NHƢ TRANG KHAI PHÁ DỮ LIỆU ĐIỂM
ĐỂ DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN
TRƢỜNG CAO ĐẲNG SƢ PHẠM HÀ NỘI
LUẬN VĂN THẠC SĨ HÀ NỘI - 2013

1

LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới GS.TS. Vũ
Đức Thi, Viện Công nghệ thông tin, Viện Khoa học và Công nghệ Việt Nam. Thầy
đã dành nhiều thời gian tận tình hướng dẫn, giúp đỡ tôi trong đi
̣
nh hươ
́
ng va
̀
thư
̣
c
hiê
̣
n nô
̣
i dung luâ
̣
n văn.
Tôi xin gư
̉
i lơ
̀
Phạm Thị Nhƣ Trang 3 LỜI MỞ ĐẦU
Ngày nay, các trường Đại học và Cao đẳng đang dần chuyển sang đào tạo
theo học chế tín chỉ. Việc tư vấn học tập nhằm đạt được kết quả học tập cao nhất
cho mỗi sinh viên được đặc biệt quan tâm. Đó là một khó khăn chung cho các cấp
quản lý. Bằng cảm tính hoặc suy luận thủ công từ khối dữ liệu khổng lồ, việc đưa
ra những tư vấn tốt cho mỗi sinh viên trong quá trình học không phải là khả thi.
Tại Việt Nam, việc nghiên cứu khai phá dữ liệu trong lĩnh vực giáo dục đào tạo còn
chưa được quan tâm đúng mức. Phần lớn các trường sử dụng Excel hoặc các phần
mềm quản lý đào tạo theo khuyến cáo của Bộ như Edusoft để quản lý Sinh viên,
quản lý kết quả học tập của Sinh viên. Việc các nhà quản lý muốn có cái nhìn toàn
cảnh để thống kê kết quả học tập nhằm đưa ra những phương hướng, đường lối,
chính sách đối với chương trình đào tạo, phương pháp giảng dạy v.v… gặp rất
nhiều khó khăn. Thông thường việc sinh ra báo cáo rất thủ công, hầu như đều thực
hiện trên excel.
Trường Cao đẳng Sư phạm Hà Nội với bề dầy gần 55 năm, đã đào tạo số
lượng lớn cho thủ đô đội ngũ Giáo viên THCS và Tiểu học. Hàng năm, Phòng Đào
tạo cũng tư vấn và thay đổi chương trình đào tạo cho phù hợp với thực tế. Nhưng
việc thay đổi cũng chỉ mang tính chất chủ quan, cảm tính. Dữ liệu đào tạo được lưu
trữ và sử dụng với mục đích tra cứu, và các báo cáo đơn giản. Các phần mềm quản
lý nhà trường đang sử dụng chưa trả lời được mối quan hệ giữa kết quả tuyển sinh
đầu vào, kết quả của từng môn học, giới tính v.v… với kết quả học tập của Sinh
viên. Các phần mềm cũng chưa sinh ra được các báo cáo đa chiều để giúp các nhà

ra định hướng nghiên cứu trong thời gian tới.

5 MỤC LỤC
DANH SÁCH CÁC HÌNH VẼ 7
DANH SÁCH CÁC BẢNG 8
BẢNG CÁC KÝ HIỆU VIẾT TẮT 9
Chƣơng 1: GIỚI THIỆU 10
1.1. Quản lý đào tạo tại trƣờng Cao đẳng Sƣ phạm Hà Nội 10
1.1.1. Thực tiễn quản lý đào tạo tại trường Cao đẳng Sư phạm Hà Nội 10
1.1.2. Nhu cầu khai thác dữ liệu điểm 11
1.1.3. Một số hướng nghiên cứu về khai thác kho dữ liệu điểm để dự đoán kết
quả học tập của Sinh viên 11
1.2. Đối tƣợng và phạm vi nghiên cứu của luận văn 11
1.2.1. Đối tượng 11
1.2.2. Phạm vi nghiên cứu 11
1.3. Phƣơng pháp nghiên cứu và dự kiến kết quả đạt đƣợc 11
1.3.1. Phương pháp nghiên cứu 11
1.3.2. Dự kiến kết quả đạt được 12
1.4. Kết luận chƣơng 1 12
Chƣơng 2: CƠ SỞ LÝ THUYẾT 13
2.1. Kho dữ liệu 13
2.1.1. Khái niệm về kho dữ liệu 13
2.1.2. Các đặc tính của kho dữ liệu 13
2.1.3. Cấu trúc hệ thống của kho dữ liệu 14
2.1.4. Dòng dữ liệu của kho dữ liệu 15
2.1.5. Ứng dụng của kho dữ liệu 15
2.1.6. Mô hình dữ liệu sử dụng trong kho dữ liệu 16

3.4.3. Phân tích kết quả đạt được: 51
3.5. Kết luận chƣơng 3 51
Chƣơng 4: KẾT LUẬN VÀ ĐỊNH HƢỚNG PHÁT TRIỂN 52
TÀI LIỆU THAM KHẢO 53 7 DANH SÁCH CÁC HÌNH VẼ
Hình 2.1: Cấu trúc hệ thống kho dữ liệu 14
Hình 2.2: Dòng dữ liệu trong kho dữ liệu 15
Hình 2.3: Mô hình đa chiều 18
Hình 2.4: Kiến trúc dịch vụ OLAP 19
Hình 2.5. Các thành phần chính của hệ thống Business Intelligence 23
Hình 2.6. Hệ thống BI đơn giản 24
Hình 3.1. Danh sách bảng điểm toàn khóa lớp SP Toán K33 (Khóa 2007-2010)34
Hình 3.2. Danh sách sinh viên của các lớp 34
Hình 3.3. Sơ đồ cơ sở dữ liệu quan hệ 35
Hình 3.4. Chọn nguồn dữ liệu là Microsoft Excel 38
Hình 3.5. Chọn đích là kho dữ liệu 39
Hình 3.6. Sử dụng Analysis Services Project 39
Hình 3.7. Kết nối DataSource 40
Hình 3.8. Kho dữ liệu 41
Hình 3.9. Khối dữ liệu và các chiều 42
Hình 3.10. Ví dụ 1 về OLAP 42
Hình 3.11. Ví dụ 2 về OLAP 43
Hình 3.12. Tạo mới một mô hình khai phá 43
Hình 3.13.Lựa chọn các thuộc tính 44
Hình 3.14: Kết quả tính Entropy 45

Kí hiệu viết tắt
Business Intelligence
BI
Cơ sở dữ liệu
CSDL
On-Line Analytical Prosessing
OLAP
Business Intelligence Development Studio
BIDS
10

Chƣơng 1: GIỚI THIỆU
1.1.Quản lý đào tạo tại trƣờng Cao đẳng Sƣ phạm Hà Nội
1.1.1.Thực tiễn quản lý đào tạo tại trường Cao đẳng Sư phạm Hà Nội
Trường Cao đẳng Sư phạm Hà Nội với bề dày hơn 55 năm đã đào tạo được hàng
nghìn thế hệ giáo viên các trường Tiểu học, Trung học cơ sở cho Thủ đô Hà Nội. Đến
nay, số ngành trường đang đào tạo là 22 ngành, với số lượng Sinh viên ngành càng tăng.
Năm học 2010-2011, nhà trưởng tuyển sinh được 569 Sinh viên. Nhưng đến năm học
2012-2013, con số này đã tăng gấp đôi với hơn 1000 sinh viên.
Về cơ sở vật chất, nhà trường đã đầu tư khoảng 82 phòng học được trang bị các
máy móc phục vụ học tập, 09 phòng máy tính, 09 phòng ngoại ngữ, 09 phòng nghiệp vụ.
Số giảng viên cơ hữu, thỉnh giảng tăng tỉ lệ so với số sinh viên tuyển sinh trong nhà
trường. Tỉ lệ sinh viên ra trường có việc làm trong năm học 2011-2012 chiếm 83,37%.
Hàng năm, chương trình đào tạo đều được thay đổi phù hợp với thực tế ở các
trường phổ thông. Ví dụ như bắt đầu từ năm học 2012-2013, nhà trường tuyển sinh thêm
một số ngành hai như thay đổi ngành Sư phạm Sử thành ngành Sử - Công tác Đội, hoặc
ngành Sư phạm Văn thành Văn – Giáo dục công dân. Thậm chí, chương trình cắt giảm đi

cáo cơ bản. Nhưng tất cả đều phải thông qua việc xuất ra Excel và thao tác thủ công mới
có được báo cáo mong muốn.
Với số lượng Sinh viên ngày càng tăng, cùng với nhu cầu xã hội ngày càng
nhiều, hệ thống đa ngành, đa nghề ngày càng phát triển, một vấn đề quan tâm là việc lưu
trữ dữ liệu về chương trình đào tạo, thời khóa biểu, thông tin sinh viên và các thông tin về
điểm của sinh viên. Hệ thống quản lý đào tạo đòi hỏi không chỉ tìm kiếm, thống kê mà
còn phải đưa ra được các dự báo từ các dữ liệu sẵn có một cách nhanh chóng, nhằm định
hướng, thay đổi chương trình đào tạo cho phù hợp với thực tế.
Vì vậy việc xây dựng một kho dữ liệu điểm của trường Cao đẳng Sư phạm Hà
Nội và khai thác dữ liệu từ kho là rất cần thiêt.
1.1.3.Một số hướng nghiên cứu về khai thác kho dữ liệu điểm để dự đoán kết
quả học tập của Sinh viên
Tính đến thời điểm hiện tại, rất nhiều bài báo, công trình đã tiến hành nghiên
cứu về khai phá dữ liệu để dự báo kết quả học tập của Sinh viên (student’s performance).
Các công trình hầu như sử dụng kỹ thuật phân lớp (the classification task) trong việc khai
phá và ứng dụng cụ thể bằng các phương pháp khác nhau như Cây quyết định (the
decision tree method) [11], Smooth Support Vector Machine (SSVM) [12]. Thậm chí kỹ
thuật phân cụm cũng được sử dụng như K-means [12].
Tại Việt Nam, đã có một số công trình được công bố sử dụng hồ sơ cá nhân
cũng như điểm đầu vào hoặc sử dụng điểm trung bình trung tích lũy ở cuối năm thứ hai
để dự đoán kết quả học tập cho năm thứ ba [5].
1.2.Đối tƣợng và phạm vi nghiên cứu của luận văn
1.2.1.Đối tượng
Luận văn nghiên cứu cách xây dựng kho dữ liệu, khai phá dữ liệu và các kỹ
thuật phân lớp trong khai phá dữ liệu.
1.2.2.Phạm vi nghiên cứu
Dữ liệu điểm của Sinh viên trường Cao đẳng sư phạm Hà Nội, và sử dụng các
phương pháp phân lớp trong khai phá dữ liệu điểm trên.
1.3.Phƣơng pháp nghiên cứu và dự kiến kết quả đạt đƣợc
1.3.1.Phương pháp nghiên cứu

các hệ thống hỗ trợ quyết định.
Kho dữ liệu thường bao gồm:
-Một hoặc nhiều công cụ để chiết xuất dữ liệu từ các dạng cấu trúc dữ liệu khác
nhau.
-Cơ sở dữ liệu tích hợp hướng chủ đề, ổn định được tổng hợp thông qua việc lập
các bảng dữ liệu.
Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính
sau:
-Là một cơ sở dữ liệu được thiết kế dành cho nhiệm vụ phân tích, sử dụng các
dữ liệu từ các ứng dụng khác nhau.
-Hỗ trợ một số người dùng có liên quan, có sử dụng tới các thông tin liên quan.
-Nội dung được cập nhật thường xuyên, chủ yếu theo hình thức bổ sung thông
tin.
-Chứa các dữ liệu trong lịch sử và hiện tại nhằm cung cấp các xu hướng thông
tin.
-Chứa các bảng dữ liệu có kích thước lớn.
-Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng và các
liên kết nhiều bảng.
2.1.2.Các đặc tính của kho dữ liệu
Hƣớng chủ đề: Kho dữ liệu có thể chứa lượng dữ liệu lên tới hàng trăm
Gigabyte, được tổ chức theo những chủ đề chính. Kho dữ liệu không chú trọng vào giao
tác và việc xử lý giao tác. Thay vào đó, kho dữ liệu tập trung vào việc mô hình hóa, phân
tích dữ liệu nhằm hỗ trợ cho nhà quản lý ra quyết định. Do đó, các kho dữ liệu thường
cung cấp một khung nhìn tương đối đơn giản bằng cách loại bớt những dữ liệu không cần
thiết trong quá trình ra quyết định.
Tính tích hợp: Kho dữ liệu thường được xây dựng bằng cách tổng hợp dữ liệu
từ nhiều nguồn khác nhau, ví dụ các cơ sở dữ liệu, những bản ghi thao tác trực tuyến hoặc
thậm chí là những file dữ liệu độc lập. Những dữ liệu này tiếp tục được làm sạch, chuẩn
hóa để đảm bảo sự nhất quán, sau đó đưa vào kho dữ liệu.


Đầu tiên, dữ liệu được lấy trong các hệ cơ sở dữ liệu tác nghiệp, có thể ở nhiều
dạng khác nhau, dữ liệu được làm sạch, chuẩn hóa rồi đưa vào kho dữ liệu, cuối cùng dữ
liệu được lấy từ kho dữ liệu phục vụ cho các phân tích khác nhau.
2.1.5.Ứng dụng của kho dữ liệu
Kho dữ liệu được đưa vào ba mảng ứng dụng chính.
Theo như cách khai thác truyền thống đối với cơ sở dữ liệu, kho dữ liệu được sử
dụng để khai thác thông tin bằng các công cụ thực hiện truy vấn và báo cáo. Nhờ việc dữ
liệu thô đã được chuyển sang thành các dữ liệu ổn đinh, có chất lượng nên kho dữ liệu đã
giúp nâng cao kỹ thuật biểu diễn thông tin truyền thông. Dữ liệu đầu vào của các kỹ thuật
này được đặt vào một nguồn duy nhất, giúp loại bỏ nhiều lỗi sinh ra do phải thu thập và
biểu diễn thông tin từ nhiều nguồn khác nhau đồng thời giảm bớt sự chậm trễ do phải lấy

16

dữ liệu từ những phân đoạn khác nhau, tránh cho người dùng phải viết những truy vấn
SQL quá phức tạp.
Với cách thứ hai, các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực
tuyến (OLAP). Trong khi ngôn ngữ SQL và các công cụ xây dựng báo cáo truyền thống
chỉ có thể mô tả những gì có trong cơ sở dữ liệu thì phân tích trực tuyến có khả năng phân
tích dữ liệu, xác định xem giả thuyết đúng hay sai. Tuy nhiên, phân tích trực tuyến lại
không có khả năng đưa ra các giả thuyết. Ngoài ra, sử dụng OLAP còn giúp phân tích
tổng hợp dữ liệu, đưa ra kết quả bằng các báo cáo hoặc bảng biểu trực quan.
Cách thứ ba để khai thác kho dữ liệu là dựa trên các kỹ thuật khai phá. Đây là
một phương pháp mới, đáp ứng được cả những yêu cầu trong nghiên cứu khoa học cũng
như yêu cầu trong thực tiễn. Các kết quả thu được mang nhiều tính dự báo, dự đoán, dùng
trong việc xây dựng kế hoạch, chiến lược.
Các lĩnh vực hiện tại áp dụng kho dữ liệu:
-Thương mại điện tử.
-Kế hoạch hóa nguồn lực doanh nghiệp (ERP – Enterprise Resource Planning).
-Quản lý quan hệ khách hàng (CRM – Customer Relationship Management).

-Thiết kế.
-Xây dựng.
-Triển khai.
-Mở rộng và duy trì.
2.2.Phân tích trực tuyến (OLAP)
2.2.1. OLAP
OLAP là một kỹ thuật sử dụng các thể hiện dữ liệu đa chiều gọi là các khối
(cube) nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu. Tạo khối
(cube) cho dữ liệu trong các bảng chiều (dimension table) và bảng sự kiện (fact table)
trong kho dữ liệu và cung cấp khả năng thực hiện các truy vấn tinh vi và phân tích cho
các ứng dụng client.
Trong khi kho dữ liệu và data mart lưu trữ dữ liệu cho phân tích, thì OLAP là kỹ
thuật cho phép các ứng dụng client truy xuất hiệu quả dữ liệu này. OLAP cung cấp nhiều
lợi ích cho người phân tích, cho ví dụ như:
Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định
hướng và khám phá dữ liệu.
Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các
mối quan hệ trong dữ liệu kinh doanh phức tạp.
Dữ liệu được tính toán trước đối với các truy vấn thường xuyên nhằm làm cho
thời gian trả lời rất nhanh đối với các truy vấn đặc biệt.
Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn mới của dữ
liệu dựa trên một tập các hàm tính toán đặc biệt.
OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mà
nếu cho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc sẽ
mất rất nhiều thời gian.
2.2.2.Mô hình dữ liệu đa chiều
Các nhà quản lý kinh doanh có khuynh hướng suy nghĩ theo “nhiều chiều”
(multidimensionally). Suy nghĩ một cách trực giác, việc kinh doanh như một khối (cube)
dữ liệu, với các nhãn trên mỗi cạnh của khối (xem hình bên dưới). Các điểm bên trong
khối là các giao điểm của các cạnh. Các cạnh của khối là Sản phẩm, Thị trường, và Thời

giá trị trong không gian đa chiều. Ví dụ như một kết hợp của Sản phẩm, Thời gian, Thị
trường vào 1 thời điểm là một độ đo duy nhất so với các kết hợp khác.
Các chiều được phân cấp theo loại. Ví dụ như chiều Thời gian có thể được mô tả
bởi các thuộc tính như Năm, Quý, Tháng và Ngày. Mặt khác, các thuộc tính của một
chiều có thể được tổ chức vào một lưới mà chỉ ra một phần trật tự của chiều. Vì thế, cũng
với chiều Thời gian có thể được tổ chức thành Năm, Quý, Tháng, Tuần và Ngày. Với sự
sắp xếp này, chiều Thời gian không còn phân cấp vì có những tuần trong năm có thể
thuộc về nhiều tháng khác nhau.

19

Vì vậy, nếu mỗi chiều chứa nhiều mức trừu tượng, dữ liệu có thể được xem từ
nhiều khung nhìn linh động khác nhau. Một số thao tác điển hình của khối dữ liệu như
roll-up (tăng mức độ trừu tượng), drill-down (giảm mức độ trừu tượng hoặc tăng mức chi
tiết), slice and dice (chọn và chiếu), và pivot (định hướng lại khung nhìn đa chiều của dữ
liệu), cho phép tương tác truy vấn và phân tích dữ liệu rất tiện lợi. Những thao tác đó
được biết như Xử lý phân tích trực tuyến (On-Line Analytical Processing – OLAP).
Những nhà ra quyết định thường có những câu hỏi có dạng như “tính toán và
xếp hạng tổng số lượng hàng hoá bán được theo mỗi quốc gia (hoặc theo mỗi năm)”. Họ
cũng muốn so sánh hai độ đo số học như số lượng hàng bán và ngân sách được tổng hợp
bởi cùng các chiều. Như vậy, một đặc tính để phân biệt của mô hình dữ liệu đa chiều là nó
nhấn mạnh sự tổng hợp của các độ đo bởi một hoặc nhiều chiều, mà đó là một trong
những thao tác chính yếu để tăng tốc độ xử lý truy vấn.
2.2.4.Giới thiệu dịch vụ OLAP (OLAP Services) của Microsoft SQL Server:
Dịch vụ OLAP là một server tầng giữa (midle-tier server) phục vụ cho phân tích
xử lý trực tuyến (OLAP). Hệ thống dịch vụ OLAP là một công cụ mạnh trong việc xây
dựng các khối đa chiều của dữ liệu cho phân tích và cung cấp khả năng truy xuất nhanh
đến thông tin khối cho các client.
Kiến trúc dịch vụ OLAP được chia thành 2 phần: Phần server (được đại diện bởi
OLAP server) và phần client (là dịch vụ PivotTable). Cả dịch vụ OLAP và dịch vụ PivotTable

hình dữ liệu và phát hiện các mẫu, luật
Khai phá dữ liệu có nhiều ứng dụng trong thực tế, ví dụ như:
- Bảo hiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài chính
và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán. Danh mục vốn và giá,
lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận,
- Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định.
- Điều trị y học và chăm sóc y tế: một số thông tin về chuẩn đoán bệnh lưu
trong các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa các triệu chứng bệnh,
chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc, )
- Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sự cố.
- Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm tắt
văn bản,

21

- Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm
kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một số bệnh di
truyền,
- Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi,
sự cố, chất lượng dịch vụ,
2.3.3.Nhiệm vụ chính trong khai phá dữ liệu
Phân lớp (phân loại - classification): Là việc xác định một hàm ánh xạ từ một
mẫu dữ liệu vào một trong số các lớp đã được biết trước đó. Mục tiêu của thuật toán phân
lớp là tìm ra mối quan hệ nào đó giữa thuộc tính dự báo và thuộc tính phân lớp. Như thế
quá trình phân lớp có thể sử dụng mối quan hệ này để dự báo cho các mục mới. Các kiến
thức được phát hiện biểu diễn dưới dạng các luật theo cách sau: “Nếu các thuộc tính dự
báo của một mục thoả mãn điều kiện của các tiền đề thì mục nằm trong lớp chỉ ra trong
kết luận”.
Hồi qui (regression): Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành
một biến dự đoán có giá trị thực. Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác

BI là một tập hợp các hoạt động để hiểu biết một cách sâu sắc về doanh nghiệp
bằng việc thực hiện các loại phân tích khác nhau trên dữ liệu của công ty cũng như trên
dữ liệu để đề ra chiến lược, sách lược và điều hành các quyết định kinh doanh, thực hiện
các hành động cần thiết để cải thiện tình hình kinh doanh. Một vài ví dụ phổ biến nhất của
việc triển khai BI là phân tích khả năng sinh lợi, nghiên cứu sở thích của sinh viên, năng
lực của sinh viên, nghiên cứu sản phẩm lợi nhuận, đánh giá con số bán hàng trên các sản
phẩm khác nhau và các khu vực,…
Tóm lại: BI là qui trình và công nghệ mà các doanh nghiệp dùng để kiểm soát
khối lượng dữ liệu khổng lồ, khai phá tri thức giúp cho các doanh nghiệp có thể đưa các
các quyết định hiệu quả hơn trong hoạt động kinh doanh của mình. Công nghệ BI (BI
technology) cung cấp một cách nhìn toàn cảnh hoạt động của doanh nghiệp từ quá khứ,
hiện tại và các dự đoán tương lai. Mục đích của BI là hỗ trợ cho doanh nghiệp ra quyết
định tốt hơn. Vì vậy một hệ thống BI (BI system) còn được gọi là hệ thống hỗ trợ quyết
đinh (Decision Support System -DSS)
2.4.2.Các thành phần chính của hệ thống BI
Các thành phần chính của hệ thống BI được mô tả như hình dưới đây:

23 Hình 2.5. Các thành phần chính của hệ thống Business Intelligence
Vấn đề cốt lõi trong hệ thống BI là kho dữ liệu (Data Warehouse) và khai phá
dữ liệu (Data Mining) vì dữ liệu dùng trong BI là dữ liệu tổng hợp (Nhiều nguồn, nhiều
định dạng, phân tán và có tính lịch sử) đó là đặc trung của kho dữ liệu. Đồng thời việc
phân tích dữ liệu trong BI không phải là những phân tích đơn giản (query, Filtering) mà là
những kỹ thuật trong khai phá dữ liệu (Data Mining) dùng để phân loại (classification)
phân cụm (clustering), hay dự đoán (Prediction). Vì vậy BI có mối quan hệ rất chặt chẽ
với Data Warehouse và Data mining.

Hệ thống BI đơn giản có thể được xem là sự kết hợp của 3 thành phần chính


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status