ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN ĐĂNG NHƯỢNG
KHAI PHÁ DỮ LIỆU VỀ KẾT QUẢ HỌC TẬP
CỦA HỌC SINH TRƯỜNG CAO ĐẲNG NGHỀ
VĂN LANG HÀ NỘI
LUẬN VĂN THẠC SĨ
Hà Nội - 2012
-2-
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN ĐĂNG NHƯỢNG
KHAI PHÁ DỮ LIỆU VỀ KẾT QUẢ HỌC TẬP
CỦA HỌC SINH TRƯỜNG CAO ĐẲNG NGHỀ
VĂN LANG HÀ NỘI
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
CHƯƠNG 2. KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU ........................................... 23
2. 1. Một số khái niệm thống kê ........................................................................................................ 23
2. 1. 1. Định nghĩa .................................................................................................................................. 23
2. 1. 2. Chức năng của thống kê ............................................................................................................. 23
2. 1. 3. Phương pháp thống kê ................................................................................................................ 23
2. 2. Khái niệm phân cụm .................................................................................................................. 25
2. 3. Các kiểu dữ liệu trong phép phân cụm ..................................................................................... 29
2. 3. 1. Đo chất lượng phân cụm ............................................................................................................ 30
2. 3. 2. Các biến tỷ lệ khoảng cách......................................................................................................... 31
2. 3. 3. Các biến nhị phân ....................................................................................................................... 33
2. 3. 4. Các biến tên, có thứ tự và dựa trên tỷ lệ .................................................................................... 35
2. 3. 5. Các biến có sự pha trộn của các kiểu ......................................................................................... 38
2. 4. Phân loại các phương pháp phân cụm chính ............................................................................ 39
2. 4. 1. Các phương pháp phân chia ....................................................................................................... 39
2. 4. 2. Các phương pháp phân cấp ........................................................................................................ 40
2. 4. 3. Các phương pháp dựa trên mật độ ............................................................................................. 40
-4-
2. 4. 4. Các phương pháp dựa trên lưới .................................................................................................. 41
2. 5. Các phương pháp phân chia ...................................................................................................... 41
2. 5. 1. Phương pháp phân chia K-means và k-medoids ....................................................................... 42
2. 5. 2. Phương pháp phân chia với cơ sở dữ liệu lớn ........................................................................... 47
2. 6. Các phương pháp phân cấp ....................................................................................................... 48
2. 6. 1. Phân cụm phân cấp tích đống và phân ly .................................................................................. 49
2. 6. 2. Phương pháp BIRCH ................................................................................................................. 51
2. 6. 3. Phương pháp CURE ................................................................................................................... 53
2. 7. Các phương pháp phân cụm dựa trên mật độ ........................................................................... 56
2. 7. 1. Phương pháp DBSCAN ............................................................................................................. 57
Từ
Tiếng Anh
Tiếng Việt
Clustering
Phân cụm
AGNES
AGglomerative NESting
Tích đống lồng
ATM
Automated teller machine
Máy rút tiền tự động
BIRCH
CLARA
CLARANS
CLIQUE
Balanced Iterative Reducing and
Clustering Using Hierarchies
Density-Based Spatial Clustering
of Applications with Noise
DENCLUE DENsity-based CLUstEring
Phân cụm dựa trên các trọng điểm
Phân cụm dựa trên mật độ
Phân cụm dựa trên hàm phân bố
mật độ
DIANA
DIvisive ANAlysis
Phép phân tích phân ly
DM
Data mining
Khai phá dữ liệu
EM
Expectation Maximization
Kỳ vọng tối đa
HC-TC
HIV
Clustering Structure
trúc các cụm dữ liệu
PAM
Partition around medoids
Phân chia xung quanh các đại diện
SAS
Statistical Analysis System
Hệ thống phân tích thống kê
Statistical Package for the Social
Chương trình thống kê dành cho
Sciences
các môn khoa học xã hội
STING
STatistical INformation Grid
Phân cụm dựa trên lưới
Hình 2. 12. Các cụm được định nghĩa trung tâm và các cụm có hình dạng tuỳ ý .............................. 62
Hình 2. 13. Một cấu trúc phân cấp đối với phân cụm STING ............................................................. 63
Hình 2. 14. Một mẫu khơng gian đặc trưng 2 chiều .............................................................................. 66
Hình 2. 15. Đa phân giải của không gian đặc trưng a) tỷ lệ 1; b) tỷ lệ 2; c) tỷ lệ 3 ............................. 66
Hình 3. 1. Website của trường ................................................................................................................ 69
Hình 3. 2. Sơ đồ tổ chức ........................................................................................................................... 70
Hình 3. 3. Màn hình quản lý dữ liệu của SPSS ...................................................................................... 74
Hình 3. 4. Màn hình khai báo tên trường sử dụng trong SPSS ........................................................... 75
Hình 3. 5. Màn hình hiển thị kết quả ..................................................................................................... 75
Hình 3. 6. Màn hình tính tốn dữ liệu dựa trên các biến...................................................................... 76
Hình 3. 7. Thao tác phân cụm k-means.................................................................................................. 77
Hình 3. 8. Chọn tên trường và số cụm cần phân chia ........................................................................... 77
Hình 3. 9. Thống kê theo số lượng phân cụm cụ thể ............................................................................. 78
Hình 3. 10. Kết quả học tập của học sinh khi tham gia phân cụm ...................................................... 80
Hình 3. 11. Kết quả phân cụm theo vùng miền ..................................................................................... 82
Hình 3. 12. Kết quả phân cụm theo dân tộc........................................................................................... 84
Hình 3. 13. Kết quả số lượng của cụm 1 ................................................................................................ 85
Hình 3. 14. Kết quả số lượng học sinh cụm 3 và 5 ................................................................................ 87
Hình 3. 15. Kết quả đạo đức học sinh cụm 3 và 5 ................................................................................. 88
Hình 3. 16. Kết quả học tập của học sinh cụm 4. .................................................................................. 89
Hình 3. 17. Kết quả ảnh hưởng của mơn tốn đến mơn văn ................................................................ 92
Hình 3. 18. Kết quả phân cụm theo vùng miền ..................................................................................... 93
-8-
DANH MỤC CÁC BẢNG
Bảng 2. 1. Bảng ngẫu nhiên cho các biến nhị phân ............................................................................... 34
Bảng 2. 2 Bảng quan hệ chứa hầu hết các thuộc tính nhị phân ........................................................... 35
Bảng 3. 1 Các chiều phân tích theo chủ đề ............................................................................................ 71
-10-
LỜI CẢM ƠN
Trước tiên em xin bày tỏ lòng biết ơn tới các thầy cô giáo trong ngành Hệ
thống thông tin khoa Công nghệ thông tin của trường Đại học công nghệ-Đại học
quốc gia Hà Nội đã truyền đạt, hướng dẫn và cung cấp những kiến thức quý báu
cho em trong suốt quá trình học tập và nghiên cứu tại trường.
Xin chân thành cảm ơn thầy giáo PGS. TS Đỗ Trung Tuấn đã tận tình
hướng dẫn, chỉ bảo em trong thời gian qua.
Em cũng xin gửi lời cảm ơn tới gia đình, người thân đã tạo điều kiện để
hồn thành khóa học sau đại học. Nhân đây, có lời cám ơn đến bạn bè, những
người luôn cổ vũ, quan tâm và giúp đỡ em trong suốt thời gian học tập cũng như
làm luận văn.
Xin cám ơn đồng nghiệp tại trường Trung học phổ thông Quế Võ số 1,
huyện Quế Võ, tỉnh Bắc Ninh đã trợ giúp rất nhiều trong thời gian qua. Chân
thành biết ơn đồng nghiệp tại trường Cao đẳng nghề Văn Lang Hà Nội đã tạo
điều kiện về dữ liệu cho thử nghiệm luận văn.
Do thời gian và kiến thức có hạn nên luận văn chắc khơng tránh khỏi những
thiếu sót nhất định. Em rất mong nhận được những sự góp ý q báu của thầy cơ
và các bạn.
Hà Nội, tháng 05 năm 2012
-11-
MỞ ĐẦU
Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin
trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng
nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một tích
luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá
Phần này giới thiệu một cách tổng qt về q trình phát hiện tri thức nói
chung và khai phá dữ liệu nói riêng. Đặc biệt nhấn mạnh về kỹ thuật chính được
nghiên cứu trong luận văn đó là Kỹ thuật phân cụm.
Phần II. Kỹ thuật phân cụm
Kỹ thuật phân cụm cũng được chia làm nhiều kiểu: phân cụm phân chia,
phân cụm phân cấp, phân cụm dựa trên mật độ và phân cụm dựa trên lưới.
Phần III. Kết quả phân cụm học tập của sinh viên.
Phần này trình bày một số kết quả đã đạt được khi tiến hành áp dụng các
giải thuật khai phá dữ liệu để khai thác thông tin từ điểm học sinh của trường
Cao đẳng nghề Văn Lang Hà Nội. Sự ảnh hưởng của vùng miền, của hồn cảnh
gia đình, dân tộc, đạo đức… đến kết quả học tập của học sinh, phân loại kết quả
học tập để đánh giá một cách nhanh chóng nhận thức của người học. Từ đó có
những điều chỉnh giảng dạy của giáo viên phù hợp với năng lực người học.
Công tác trong ngành giáo dục, nơi công nghệ thông tin được áp dụng vào
công tác quản lý từ những năm rất sớm. CSDL thông tin liên quan đến lĩnh vực
quản lý học sinh là một CSDL lớn chứa nhiều thông tin quý báu. Với mong
muốn bước đầu áp dụng kỹ thuật khai phá dữ liệu trên CSDL của học sinh trường
cao đẳng nghề Văn Lang Hà Nội, luận văn đã tập trung nghiên cứu về các kỹ
thuật phân cụm dữ liệu trên CSDL học sinh.
Khai phá dữ liệu là sự tìm kiếm thơng tin mới, có giá trị và khơng tầm
thường trong khối lượng dữ liệu lớn. Nó là sự phối hợp nỗ lực của con người và
máy tính, các kết quả tốt nhất nhận được bằng việc cân bằng giữa tri thức của các
chuyên gia con người trong việc mơ tả các vấn đề và mục đích với khả năng tìm
kiếm của máy tính.
-13-
CHƯƠNG 1. TỔNG QUAN VỀ PHÁT HIỆN
TRI THỨC VÀ KHAI PHÁ DỮ LIỆU
kế từ CSDL, học máy, trí tuệ nhân tạo, lý thuyết thơng tin, lý thuyết thống kê và
-14-
tính tốn hiệu năng cao. Do sự phát triển nhanh của khai phá dữ liệu về phạm vi
ứng dụng và phương pháp tìm kiếm tri thức đã có nhiều quan điểm khác nhau về
khai phá dữ liệu. Ông Tom Mitchell [18] đã đưa ra định nghĩa khai phá dữ liệu
như sau: "Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những
quy tắc và cải thiện những quyết định trong tương lai". Với một cách tiếp cận
ứng dụng hơn, ông Fayyad [15] đã phát biểu: "Khai phá dữ liệu, thường được
xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một q trình trích xuất
những thơng tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các
quy luật, ràng buộc, quy tắc trong cơ sở dữ liệu". Tuy nhiên ở mức độ trừu tượng
nhất định, chúng ta định nghĩa khai phá dữ liệu : Khai phá dữ liệu là một quá
trình tìm kiếm, phát hiện những tri thức mới, tiềm ẩn hữu dụng từ những dữ liệu
đã thu thập được.
Khai phá tri thức trong CSDL là mục tiêu chính của khai phá dữ liệu, do
vậy hai khái niệm khai phá dữ liệu và phát hiện tri thức được các nhà khoa học
trên hai lĩnh vực xem là tương đương nhau. Thế nhưng nếu phân chia một cách
chi tiết thì khai phá dữ liệu là một bước chính trong quá trình phát hiện tri thức
trong dữ liệu.
1. 2. Quá trình khai phá tri thức trong cơ sở dữ liệu
Quá trình khai phá tri thức được tiến hành theo các bước. Bắt đầu của quá
trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra [2] . Về lý
thuyết thì có vẻ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn gặp
phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại toàn bộ
quá trình...
1.
ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó, tức là dữ liệu
sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện
các thao tác nhóm hoặc tập hợp…
Hình 1. 1. Quá trình phát hiện tri thức
5.
Khai phá dữ liệu: Đây là bước mang tính tư duy trong khai phá dữ liệu. Ở
giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các
mẫu từ dữ liệu. Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc
kết hợp ...
6.
Đánh giá các luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ liệu
được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu
dữ liệu nào cũng đều hữu ích, đơi khi nó cịn bị sai lệch. Vì vậy, cần phải
ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức cần chiết
xuất ra. Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa trên một số
phép đo. Sau đó sử dụng các kỹ thuật trình diễn và trực quan hố dữ liệu để
biểu diễn tri thức khai phá được cho người sử dụng.
-16-
Trên đây là 6 giai đoạn của quá trình phát hiện tri thức, trong đó giai đoạn "
khai phá dữ liệu" là giai đoạn được quan tâm nhiều nhất.
1. 3. Các kỹ thuật khai phá dữ liệu
dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai. Nói cách
khác, phân loại là học một hàm ánh xạ một mục dữ liệu vào một trong số các
lớp cho trước. Hình 1. 3 cho thấy sự phân loại của các dữ liệu vay nợ vào
trong hai miền lớp. Ngân hàng có thể sử dụng các miền phân loại để tự động
quyết định liệu những người vay nợ trong tương lai có nên cho vay hay khơng.
Nợ
Thu nhập
Hình 1. 3. Phân loại được học bằng mạng nơron cho tập dữ liệu cho vay
1. 3. 1. 2. Hồi quy
Phương pháp hồi quy khác với phân loại dữ liệu ở chỗ, hồi quy dùng để dự
đoán về các giá trị liên tục còn phân loại dữ liệu thì chỉ dùng để dự đốn về các
giá trị rời rạc.
Hồi quy là học một hàm ánh xạ một mục dữ liệu vào một biến dự báo giá trị
thực. Các ứng dụng hồi quy có nhiều, ví dụ như đánh giá xác suất một bệnh nhân
sẽ chết dựa trên tập kết quả xét nghiệm chẩn đoán, dự báo nhu cầu của người tiêu
dùng đối với một sản phẩm mới dựa trên hoạt động quảng cáo tiêu dùng.
1. 3. 2. Khai phá dữ liệu mơ tả
Kỹ thuật này có nhiệm vụ mơ tả về các tính chất hoặc các đặc tính chung
của dữ liệu trong CSDL hiện có. Bao gồm các kỹ thuật: phân cụm, phân tích luật
kết hợp...
-18-
1. 3. 2. 1. Phân cụm
Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng
hỗ trợ cực tiểu và độ tin cậy cực tiểu.
Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như
marketing có chủ đích, phân tích quyết định, quản lí kinh doanh…
1. 4. Lợi thế của khai phá dữ liệu so với các phương pháp
khác
Khai phá dữ liệu là một lĩnh vực liên quan tới rất nhiều ngành học khác
như: hệ CSDL, thống kê... Hơn nữa, tuỳ vào cách tiếp cận được sử dụng, khai
phá dữ liệu cịn có thể áp dụng một số kĩ thuật như mạng nơ ron, lý thuyết tập thô
hoặc tập mờ, biểu diễn tri thức… Như vậy, khai phá dữ liệu thực ra là dựa trên
các phương pháp cơ bản đã biết. Tuy nhiên, sự khác biệt của khai phá dữ liệu so
với các phương pháp trên và tại sao khai phá dữ liệu lại có ưu thế hơn hẳn các
phương pháp đó, ta sẽ lần lượt xem xét và giải quyết các câu hỏi này.
1. 4. 1. Học máy
So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai
phá dữ liệu có thể sử dụng với các cơ sở dữ liệu thường động, không đầy đủ, bị
nhiễu và lớn hơn nhiều so với các tập dữ liệu học máy điển hình. Trong khi đó
phương pháp học máy chủ yếu được áp dụng trong các CSDL đầy đủ, ít biến
động và tập dữ liệu không quá lớn.
Thật vậy, trong học máy, thuật ngữ cơ sở dữ liệu chủ yếu đề cập tới một tập
các mẫu được lưu trong tệp. Các mẫu thường là các vectơ với độ dài cố định,
thông tin về đặc điểm, dãy các giá trị của chúng đôi khi cũng được lưu lại như
trong từ điển dữ liệu. Một giải thuật học máy sử dụng tập dữ liệu và các thơng tin
kèm theo tập dữ liệu đó làm đầu vào và đầu ra biểu thị kết quả của việc học. Học
máy có khả năng áp dụng cho cơ sở dữ liệu, lúc này học máy sẽ không phải là
học trên tập các mẫu nữa mà học trên tập các bản ghi của cơ sở dữ liệu. Tuy
nhiên trong thực tế, cơ sở dữ liệu thường động, không đầy đủ và bị nhiễu, lớn
hơn nhiều so với các tập dữ liệu học máy điển hình. Các yếu tố này làm cho hầu
hết các giải thuật học máy trở nên không hiệu quả. Khai phá dữ liệu lúc này sẽ xử
Phương pháp thống kê là một trong những nền tảng lí thuyết của khai phá
dữ liệu. Sự khác nhau cơ bản giữa khai phá dữ liệu và thống kê ở chỗ khai phá dữ
liệu là một phương tiện được dùng bởi người sử dụng đầu cuối chứ không phải là
các nhà thống kê. Khai phá dữ liệu đã khắc phục được các yếu điểm trên của
thống kê, tự động quá trình thống kê một cách hiệu quả vì thế giảm bớt cơng việc
của người dùng đầu cuối, tạo ra một công cụ dễ sử dụng hơn.
-21-
1. 5. Các ứng dụng của phát hiện tri thức và những thách
thức đối với phát hiện tri thức
1. 5. 1. Các ứng dụng của phát hiện tri thức
Các kỹ thuật KDD có thể được áp dụng vào trong nhiều lĩnh vực:
Thơng tin thương mại: Phân tích dữ liệu tiếp thị và bán hàng, phân
tích vốn đầu tư, chấp thuận cho vay, phát hiện gian lận...
Thông tin sản xuất: Điều khiển và lập lịch, quản lý mạng, phân tích
kết quả thí nghiệm...
Thơng tin khoa học: Địa lý: Phát hiện động đất...
Giáo dục đào tạo: Phân luồng học sinh, áp dụng các phương pháp
dạy học tích cực để nâng cao chất lượng giáo dục
1. 5. 2. Những thách thức đối với phát hiện tri thức
Một số thách thức :
1. Các cơ sở dữ liệu lớn hơn rất nhiều: cơ sở dữ liệu với hàng trăm trường và
bảng, hàng triệu bản ghi và kích thước lên tới nhiều Gigabyte là vấn đề hồn
tồn bình thường và cơ sở dữ liệu Terabyte cũng đã bắt đầu xuất hiện.
2. Số chiều cao: Khơng chỉ thường có một số lượng rất lớn các bản ghi trong cơ
sở dữ liệu mà còn có một số lượng rất lớn các trường (các thuộc tính, các
biến) làm cho số chiều của bài tốn trở nên cao. Thêm vào đó, nó tăng thêm
cấu trúc luật với các đồ thị có hướng, biểu diễn bằng ngơn ngữ tự nhiên và
các kỹ thuật hình dung ra dữ liệu và tri thức.
8. Người dùng tương tác và tri thức sẵn có: Nhiều phương pháp KDD hiện hành
và các công cụ không tương tác thực sự với người dùng và không thể dễ dàng
kết hợp chặt chẽ với tri thức có sẵn về một bài tốn loại trừ theo các cách đơn
giản. Việc sử dụng của miền tri thức là quan trọng trong toàn bộ các bước của
xử lý KDD.
9. Tích hợp với các hệ thống khác: Một hệ thống phát hiện đứng một mình có
thể khơng hữu ích lắm. Các vấn đề tích hợp điển hình gồm có việc tích hợp
với một giao diện truy vấn, tích hợp với các bảng tính và các cơng cụ trực
quan và điều tiết các dự đoán cảm biến thời gian thực.
1. 6. Kết luận
Khai phá dữ liệu là lĩnh vực đã và đang trở thành một trong những hướng
nghiên cứu thu hút được sự quan tâm của nhiều chuyên gia về CNTT trên thế
giới. Trong những năm gần đây, rất nhiều các phương pháp và thuật toán mới
liên tục được công bố. Điều này chứng tỏ những ưu thế, lợi ích và khả năng ứng
dụng thực tế to lớn của khai phá dữ liệu. Phần này đã trình bày một số kiến thức
tổng quan về khai phá dữ liệu, những kiến thức cơ bản nhất về các phương pháp
phân cụm dữ liệu, phân loại dữ liệu và khai phá luật kết hợp.
-23-
CHƯƠNG 2. KỸ THUẬT PHÂN CỤM
TRONG KHAI PHÁ DỮ LIỆU
2. 1. Một số khái niệm thống kê
2. 1. 1. Định nghĩa
Thống kê là một hệ thống các phương pháp bao gồm thu thập, tổng hợp,
trình bày số liệu, tính tốn các đặc trưng của đối tượng nghiên cứu nhằm phục vụ
Chính điều này đã đặt ra cho thống kê xây dựng các phương pháp chỉ cần
nghiên cứu một bộ phận của tổng thể mà có thể suy luận cho hiện tượng
tổng quát mà vẫn đảm bảo độ tin cậy cho phép, đó là phương pháp điều
tra chọn mẫu.
Nghiên cứu mối liên hệ giữa các hiện tượng: Giữa các hiện tượng
nghiên cứu thường có mối liên hệ với nhau. Ví dụ như mối liên hệ giữa
chi tiêu và thu nhập; mối liên hệ giữa lượng vốn vay và các yếu tố tác
động đến lượng vốn vay như chi tiêu, thu nhập, trình độ học vấn; mối
liên hệ giữa tốc độ phát triển với tốc độ phát triển của các ngành, lạm
phát, tốc độ phát triển dân số… Sự hiểu biết về mối liên hệ giữa các hiện
tượng rất có ý nghĩa, phục vụ cho q trình dự đốn.
Dự đốn: Dự đốn là một cơng việc cần thiết trong tất cả các lĩnh vực
hoạt động. Trong hoạt động dự đốn người ta có thể chia ra thành nhiều
loại:
1. Dự đoán dựa vào định lượng và dựa vào định tính. Tuy nhiên, trong
thống kê chúng ta chủ yếu xem xét về mặt định lượng với mục đích
cung cấp cho những nhà quản lý có cái nhìn mang tính khoa học hơn
và cụ thể hơn trước khi ra quyết định phù hợp.
2. Dự đoán dựa vào nội suy và dựa vào ngoại suy. Dự đoán nội suy là
chúng ta dựa vào bản chất của hiện tượng để suy luận, ví dụ như
chúng ta xem xét một liên hệ giữa lượng sản phẩm sản xuất ra phụ
thuộc các yếu tố đầu vào như vốn, lao động và trình độ khoa học kỹ
thuật. Dự đoán dựa vào ngoại suy là chúng ta chỉ quan sát sự biến
động của hiện tượng trong thực tế, tổng hợp lại thành qui luật và sử
dụng qui luật này để suy luận, dự đoán sự phát triển của hiện tượng.
Ví dụ như để đánh giá kết quả hoạt động của một công ty người ta
xem xét kết quả hoạt động kinh doanh của họ qua nhiều năm.
Ngồi ra, người ta cịn có thể phân chia dự báo thống kê ra thành nhiều loại
khác.