Ứng dụng khai phá dữ liệu để xây dựng hệ thống tư vấn học tập tại trường đại học công nghiệp hà nội - Pdf 34

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ THANH HƢƠNG

ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG TƢ VẤN HỌC TẬP
TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ THANH HƢƠNG

ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG TƢ VẤN HỌC TẬP
TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM

Hà Nội - 2015

Hà Nội, tháng 1 năm 2016
Họ và tên

Nguyễn Thị Thanh Hƣơng

2

MỤC LỤC
LỜI CẢM ƠN ...................................................................................................................... 1
LỜI CAM ĐOAN ................................................................................................................ 2
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ......................................................... 5
DANH MỤC CÁC BẢNG .................................................................................................. 6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ............................................................................. 6
Chƣơng 1. Giới thiệu tổng quan ........................................................................................ 9
1.1.Bài toán ứng dụng KPDL để xây dựng hệ thống tƣ vấn tại trƣờng ĐHCNHN ......... 9
1.2. Một số hƣớng nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục hiện nay... 10
1.3. Hƣớng tiếp cận của luận văn ................................................................................... 11
1.4. Kết luận chƣơng 1 ................................................................................................... 11
Chƣơng 2. Các kiến thức cơ sở liên quan ....................................................................... 12
2.1. Khai phá dữ liệu ...................................................................................................... 12
2.1.1. Khái niệm KPDL .............................................................................................. 12
2.1.2. Những nhóm bài toán của KPDL ..................................................................... 13
2.1.3. Các bƣớc xây dựng một giải pháp về KPDL .................................................... 14
2.1.4. Ứng dụng KPDL trong giáo dục ....................................................................... 15
2.2. Một số kỹ thuật KPDL trong phân lớp, dự báo....................................................... 16
2.2.1 Cây quyết định ................................................................................................... 16
2.2.2 Phân lớp Naïve Bayes ........................................................................................ 18
2.2.3 Mạng nơ ron nhân tạo ........................................................................................ 19
2.2.4 Luật kết hợp ....................................................................................................... 21

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Chữ viết tắt

Ý nghĩa

BIDS

Bussiness Intelligence Development Studio

CSDL

Cơ sở dữ liệu

DMX

Data Mining Extensions

DMM

Data Mining Model

KPDL

Khai phá dữ liệu

SOM

Self-Organizing Map

Hình 3. 10: Kết quả của ma trận Classification Matrix của 04 mô hình ........................... 40
Hình 3. 11: Thiết kế một truy vấn DMX với mô hình đƣợc chọn..................................... 41
Hình 3. 12: Kết quả truy vấn với mô hình đƣợc chọn ....................................................... 42
Hình 3. 13: Sự phụ thuộc của thuộc tính dự đoán vào các thuộc tính khác ...................... 44
Hình 3. 14: Lựa chọn Lift Chart với Predict Value=”K” .................................................. 45
Hình 3. 15: Kết quả Lift Chart không xác định giá trị thuộc tính dự đoán ....................... 47
Hình 3. 16: Classification Matrix của 04 mô hình ............................................................ 49
Hình 3. 17: Biểu đồ so sánh mức độ chính xác các mô hình ............................................ 50
Hình 4. 1: Sơ đồ hoạt động của hệ thống .......................................................................... 52
Hình 4. 2: Kết quả tƣ vấn học tập với mô hình Naïve Bayes ............................................ 53
Hình 4. 3: Kết quả tƣ vấn học tập với mô hình Cây quyết định ........................................ 54
Hình 4. 4: Kết quả tƣ vấn học tập với mô hình Luật kết hợp ............................................ 54
Hình 4. 5: Kết quả tƣ vấn học tập với mô hình Neural Network ...................................... 55
Hình 4. 6: Kết quả tƣ vấn học tập với sinh viên nam ........................................................ 56
Hình 4. 7: Kết quả tƣ vấn học tập với sinh viên nữ ........................................................... 57
Hình 4. 8: Xem chi tiết một lộ trình học............................................................................ 57
6

7

LỜI MỞ ĐẦU
Trƣờng ĐHCNHN là một trƣờng nằm trong hệ thống các trƣờng chuyên nghiệp
trực thuộc Bộ công thƣơng. Một vấn đề cấp thiết đặt ra trong công tác quản lý và đào tạo
của nhà trƣờng là xây dựng các mục tiêu, chiến lƣợc nhằm mở rộng quy mô đào tạo, thu
hút đƣợc nhiều sinh viên, bên cạnh đó là việc nâng cao chất lƣợng giảng dạy, đảm bảo
đào tạo những sinh viên ra trƣờng đáp ứng đƣợc yêu cầu công việc. Công nghệ thông tin
đã đƣợc ứng dụng trong công tác quản lý của nhà trƣờng, song việc khai thác vẫn còn
nhiều hạn chế.

Trƣờng Đại học Công nghiệp Hà Nội cung cấp dịch vụ giáo dục - đào tạo nhiều
ngành, nhiều trình độ, chất lƣợng cao, đáp ứng nguồn nhân lực cho công nghiệp hóa, hiện
đại hóa đất nƣớc và xuất khẩu lao động, tạo cơ hội học tập thuận lợi cho mọi đối tƣợng.
Về ngành, nghề đào tạo: Trong những năm qua nhà trƣờng đã xây dựng đƣợc chƣơng
trình và triển khai đào tạo 21 chuyên ngành đại học chính quy, 18 chuyên ngành đào tạo
cao đẳng chính quy, 14 chuyên ngành Trung cấp chuyên nghiệp và nhiều chƣơng trình
đào tạo trình độ khác nhau.
Về qui mô đào tạo: Trên 50.000 học sinh, sinh viên.
Các lĩnh vực đào tạo: Công nghệ, kỹ thuật, Kinh tế, May, Thời trang, Sƣ phạm, Du lịch
Các loại hình đào tạo: Chính qui, Vừa làm vừa học, Liên thông, Liên kết nƣớc ngoài,
Nâng bậc thợ, Đào tạo lao động xuất khẩu, Bồi dƣỡng ngắn hạn và dài hạn theo nhu cầu
xã hội quan tâm.
Một thực tế đặt ra đối với trƣờng ĐHCNHN là làm sao thu hút đƣợc nhiều sinh
viên dựa trên “thƣơng hiệu” của nhà trƣờng, để đáp ứng chỉ tiêu đào tạo. Tuy nhiên, yêu
cầu đặt ra về số lƣợng cũng phải kèm theo yêu cầu về chất lƣợng đào tạo. Vấn đề nâng
cao chất lƣợng đào tạo là một vấn đề luôn đƣợc nhà trƣờng quan tâm.
Nhằm đổi mới giáo dục đại học ở Việt Nam, Bộ Giáo dục và Đào tạo đã yêu cầu
chuyển đổi từ việc thực hiện chƣơng trình đào tạo theo hệ thống niên chế thành đào tạo
theo hệ thống tín chỉ kiểu Hoa Kỳ, bắt đầu từ năm học 2008-2009 và đòi hỏi phải hoàn tất
việc chuyển đổi này trƣớc năm 2012.
Trƣờng Đại học Công nghiệp Hà Nội đã triển khai đào tạo theo học chế tín chỉ bắt
đầu từ năm học 2008 – 2009. Đào tạo tín chỉ có ƣu điểm giúp sinh viên có thể tự quản lý
quỹ thời gian và tùy theo khả năng của mình để tự quyết định các môn học theo từng kỳ.
Vì vậy, việc tƣ vấn học tập, chủ yếu liên quan đến lựa chọn lộ trình học phù hợp nhằm
đạt đƣợc kết quả học tập cao nhất cho mỗi sinh viên đƣợc đặc biệt quan tâm. Đó cũng là
khó khăn chung không chỉ của sinh viên, mà còn của các cố vấn học tập, giáo viên chủ
nhiệm và các tổ chức quản lý trong trƣờng. Các giảng viên chuyên trách, cố vấn học tập
không thể tiếp cận toàn bộ dữ liệu về điểm của sinh viên.
Đối với mỗi sinh viên, việc lựa chọn cho mình một lộ trình học phù hợp theo đúng
quy trình đào tạo là một việc hết sức khó khăn, đặc biệt là với các sinh viên mới vào

A¨ımeur.
Các nhà nghiên cứu về việc KPDL trong giáo dục tập trung vào nhiều vấn đề bao
gồm việc học của cá nhân từ phần mềm giáo dục, học cộng tác với sự giúp đỡ của máy
tính, kiểm nghiệm khả năng thích ứng với máy tính, và nhiều nhân tố đƣợc kết hợp với
các sinh viên không có khả năng hoặc thiếu định hƣớng trong quá trình học tập. Mỗi lĩnh
vực chính của việc ứng dụng khai phá dữ liệu vào giáo dục là phát triển các mô hình
hƣớng đối tƣợng sinh viên. Các mô hình sinh viên thể hiện thông tin về một nét đặc trƣng
hay tình trạng của sinh viên, nhƣ kiến thức hiện tại của sinh viên, động cơ thúc đẩy học
tập, quan điểm nguyện vọng của sinh viên… Một số bài toán ứng dụng KPDL nhƣ: Tƣ
vấn chọn ngành học, Tƣ vấn lựa chọn môn học, Tƣ vấn lựa chọn lộ trình học...
Ở Việt Nam, KPDL cũng đã đƣợc nghiên cứu và ứng dụng trong nhiều tổ chức,
doanh nghiệp và đem lại hiệu quả cao trong các lĩnh vực nhƣ giáo dục, y tế, thƣơng mại,
10

tài chính. Nhiều công trình khoa học đã và đang đƣợc nghiên cứu để áp dụng vào thực tế.
Song bên cạnh đó, việc khai thác các thông tin có giá trị ở một số đơn vị chƣa thực sự
hiệu quả, việc áp dụng trong thực tế còn hạn chế.
1.3. Hƣớng tiếp cận của luận văn
Luận văn tập trung nghiên cứu lý thuyết KPDL, sử dụng công cụ khai phá dữ liệu
BIDS của Microsoft, KPDL điểm thực tế của sinh viên trƣờng ĐHCNHN.
Bên cạnh đó, luận văn sử dụng một số thuật toán điển hình trong khai phá dữ liệu
đƣợc hỗ trợ sẵn trong SQL Server nhằm giải quyết bài toán dự báo, dự đoán kết quả học
tập của sinh viên.
Sau khi đánh giá mô hình dự đoán tốt nhất, tác giả xây dựng chƣơng trình thực
nghiệm để hỗ trợ tƣ vấn học tập cho sinh viên năm đầu.
1.4. Kết luận chƣơng 1
Chƣơng này giới thiệu về bài toán, những yêu cầu đặt ra cần giải quyết đối với bài
toán đồng thời trình bày một số hƣớng nghiên cứu về KPDL trong giáo dục hiện nay,
hƣớng tiếp cận của luận văn.

- Sử dụng tri thức khai phá đƣợc.
2.1.2. Những nhóm bài toán của KPDL
KPDL có thể đƣợc dùng để giải quyết hàng trăm bài toán với những mục đích và
nhiệm vụ khác nhau. Dựa trên bản chất tự nhiên của các bài toán đó, ngƣời ta có thể
nhóm các bài toán đó thành những nhóm sau:
Phân loại
Bài toán phân loại là một trong những bài toán phổ biến nhất của KPDL, ví dụ
nhƣ: phân tích xem loại khách hàng nào có khả năng cao nhất sẽ chuyển sang dùng sản
phẩm dịch vụ của đối thủ cạnh tranh của công ty (churn analysis), quản lý rủi ro hay lựa
chọn ảnh quảng cáo nào sẽ xuất hiện đối với mỗi loại khách hàng…
Phân loại là tổ chức dữ liệu trong các lớp cho trƣớc, còn đƣợc gọi là học có quan
sát. Phân loại sử dụng các nhãn lớp cho trƣớc để sắp xếp các đối tƣợng. Trong đó, có một
tập huấn luyện gồm các đối tƣợng đã đƣợc kết hợp với các nhãn đã biết. Những thuật
toán học có quan sát sẽ đƣợc áp dụng cho tập các đối tƣợng cần phân loại để từ đó mô
hình phân loại chúng.
Một số thuật toán dùng trong bài toán phân loại nhƣ: cây quyết định, mạng nơ ron,
mạng Naïve Bayes.
Phân cụm
Bài toán phân cụm hay còn gọi là phân đoạn. Điểm khác với bài toán phân loại là
ở đây các nhãn lớp chƣa biết và không có huấn luyện. Các đối tƣợng đƣợc phân loại dựa
trên các thuộc tính tƣơng đồng giữa chúng. Bài toán phân lớp hay còn gọi là học không
có giám sát.
Bài toán phân tích luật kết hợp
Bài toán này đôi khi còn gọi là bài toán phân tích giỏ hàng bởi vì nó đƣợc sử dụng
rộng rãi trong phân tích các giao dịch dữ liệu, các bài toán lựa chọn hàng hóa đi kèm…
Phân tích luật kết hợp khám phá ra các luật kết hợp thể hiện mối liên hệ giữa các
thuộc tính dữ liệu thƣờng xuất hiện cùng nhau trong các tập dữ liệu.
13

- Bƣớc 4: Xây dựng mô hình.
- Bƣớc 5: Đánh giá mô hình hay đánh giá mẫu.
14

- Bƣớc 6: Báo cáo.
- Bƣớc 7: Dự đoán.
- Bƣớc 8: Tích hợp vào ứng dụng
- Bƣớc 9: Quản lý mô hình
2.1.4. Ứng dụng KPDL trong giáo dục
2.1.4.1 Các ứng dụng hƣớng đến học sinh, sinh viên
Tƣ vấn lựa chọn ngành học: Cho một kho dữ liệu lƣu giữ các thông tin về kết
quả học tập của sinh viên đã tốt nghiệp. Hãy tìm ra những quy luật lựa chọn các chuyên
ngành một cách hợp lý sao cho đạt đƣợc kết quả tốt nhất. Nhằm mục đích này ngƣời ta
mong muốn nhận đƣợc từ dữ liệu những phát biểu nhƣ: “80% sinh viên học tốt môn Kinh
tế chính trị và Tiếng Anh khá thì tốt nghiệp chuyên ngành Kế toán ngân hàng loại giỏi”,
… Để đạt đƣợc những phát biểu nhƣ trên, chúng ta sử dụng các thuật toán Khai phá luật
kết hợp từ cơ sở dữ liệu.
Tƣ vấn lựa chọn môn học: Cho một kho dữ liệu các thông tin về kết quả học tập
của sinh viên. Hãy tƣ vấn cho sinh viên lựa chọn các môn học cho học kỳ sau dựa trên
kết quả của các học kỳ trƣớc sao cho kết quả học tập của kỳ sao là cao nhất. Để thực hiện
việc này, chúng ta cần sử dụng các thuật toán KPDL ở dạng phân lớp và dự đoán nhƣ
Cây quyết định, mạng Naive Bayes, Neural Network hay luật kết hợp.
Tƣ vấn lựa chọn lộ trình học: Cho một kho dữ liệu đào tạo (theo hình thức tín
chỉ) bao gồm các môn học (học phần) tƣơng ứng với các ngành học và các học kỳ (gọi là
chƣơng trình đào tạo), cùng với các thông tin về kết quả học tập của các sinh viên đã tốt
nghiệp. Hãy tƣ vấn cho các sinh viên mới vào trƣờng cách lựa chọn một lộ trình học phù
hợp nhất cho ngành học mà sinh viên đã đăng ký sao cho kết quả tốt nghiệp ra trƣờng của
sinh viên là cao nhất. Đây chính là bài toán mà luận văn hƣớng đến. Để thực hiện việc
này, chúng ta cần sử dụng các thuật toán KPDL ở dạng phân lớp và dự đoán nhƣ Cây

phù hợp hơn theo từng giai đoạn.
- Tỷ lệ nghỉ học, bỏ học và khả năng xuống khóa, bị đuổi học có chiều hƣớng gia
tăng: nhà quản lý sẽ có những biện pháp để cảnh báo và chấn chỉnh lại hoạt động đào tạo
một cách kịp thời.
- Kết quả học tập của các khóa có xu hƣớng giảm xuống hoặc tốt lên: nếu kết quả
giảm thì nhà quản lý cần xem lại các chính sách và chƣơng trình đào tạo để xem đã thực
sự phù hợp với sinh viên hay chƣa và điều chỉnh kịp thời nếu cần, còn kết quả tốt thì sẽ
tiếp tục duy trì vì chính sách đào tạo đang đi đúng hƣớng...
2.2. Một số kỹ thuật KPDL trong phân lớp, dự báo
2.2.1 Cây quyết định
Cây quyết định là một cấu trúc biễu diễn dƣới dạng cây. Trong đó, mỗi nút trong
(internal node) biễu diễn một thuộc tính, mỗi nhánh (branch) biễu diễn giá trị có thể có
của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây
gọi là gốc (root).

16

Hình 2. 1: Biểu diễn cây quyết định cơ bản
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive
model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tƣợng tới các kết luận về
giá trị mục tiêu của sự vật/hiện tƣợng. Mỗi nút trong (internal node) tƣơng ứng với một
biến, đƣờng nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó. Mỗi nút lá
đại diện cho giá trị dự đoán của biến mục tiêu, cho trƣớc các giá trị dự đoán của các biến
đƣợc biểu diễn bởi đƣờng đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây
quyết định đƣợc gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây
quyết định.
Ví dụ 2.1: Một ngƣời có chơi tennis hay không?

Hình 2. 2: Cây quyết định cho việc chơi Tennis

 Xác suất xảy ra B của riêng nó, không quan tâm đến A, kí hiệu là P(B) và đọc là
"xác suất của B". Đại lƣợng này còn gọi là hằng số chuẩn hóa (normalising
constant), vì nó luôn giống nhau, không phụ thuộc vào sự kiện A đang muốn biết.
 Xác suất xảy ra B khi biết A xảy ra, kí hiệu là P(B|A) và đọc là "xác suất của B
nếu có A". Đại lƣợng này gọi là khả năng (likelihood) xảy ra B khi biết A đã xảy
ra. Chú ý không nhầm lẫn giữa khả năng xảy ra A khi biết B và xác suất xảy ra A
khi biết B.
Khi biết ba đại lƣợng trên, xác suất của A khi biết B cho bởi công thức:

18

Từ đó dẫn tới:
(2)
Khi có n giả thuyết thì:

(3)
Phƣơng pháp Naive Bayes phù hợp các bài toán có yêu cầu về chi phí xuất hiện của các
giá trị thuộc tính.
- Thiết kế hệ thống phân lớp thƣờng dễ dàng hơn so với các phƣơng pháp khác.
- Các thuộc tính trong tập mẫu học phải độc lập với điều kiện.
- Độ chính xác thuật toán phân lớp phụ thuộc nhiều vào tập dữ liệu học ban đầu.
2.2.3 Mạng nơ ron nhân tạo
Neural nhân tạo là sự mô phỏng đơn giản của neural sinh học. Mỗi neural nhân tạo
thực hiện hai chức năng: chức năng tổng hợp đầu vào và chức năng tạo đầu ra. Mỗi
neural có một giá trị ngƣỡng, chức năng đầu vào chính là tổng có trọng số các tín hiệu
vào kết hợp với ngƣỡng để tạo ra tín hiều đầu vào. Chức năng tạo đầu ra đƣợc thực hiện
bằng hàm truyền đạt. Hàm này sẽ nhận tín hiệu đầu vào và tạo tín hiệu đầu ra của neural.
Mạng neural là một hệ thống gồm nhiều phần tử xử lý hoạt động song song. Chức
năng của nó đƣợc xác định bởi cấu trúc mạng, độ lớn của các liên kết và quá trình xử lý

Hình 2. 4: Tiến trình học
Trong quá trình học, giá trị đầu vào đƣợc đƣa vào mạng và theo dòng chảy trong
mạng tạo thành giá trị ở đầu ra.
Tiếp đến là quá trình so sánh giá trị tạo ra bởi mạng Neural với giá trị ra mong
muốn. Nếu hai giá trị này giống nhau thì không thay đổi gì cả. Tuy nhiên, nếu có một sai
lệch giữa hai giá trị này vƣợt quá giá trị sai số mong muốn thì đi ngƣợc mạng từ đầu ra về
đầu vào để thay đổi một số kết nối.
20

Đây là một quá trình lặp liên tục và có thể không dừng khi không tìm các giá trị w
sao cho đầu ra tạo bởi mạng Neural bằng đúng đầu ra mong muốn. Do đó trong thực tế
ngƣời ta phải thiết lập tiêu chuẩn dựa trên một giá trị sai số nào đó của hai giá trị này, hay
dựa trên một số lần lặp xác định.
2.2.4 Luật kết hợp
Khai phá luật kết hợp: Là tìm các mẫu phổ biến, sự kết hợp, sự tƣơng quan, hay
các cấu trúc nhân quả giữa các tập đối tƣợng trong các cơ sở dữ liệu giao tác, cơ sở dữ
liệu quan hệ, và những kho thông tin khác.
Các ứng dụng: Luật kết hợp có ứng dụng trong nhiều lĩnh vực khác nhau của đời
sống nhƣ: khoa học, hoạt động kinh doanh, tiếp thị, thƣơng mại, phân tích thị trƣờng
chứng khoán, tài chính và đầu tƣ,...
Ví dụ về luật kết hợp:
Bia => Lạc [0,5% ; 60%]
Luật này có nghĩa: Nếu mua bia thì mua lạc trong 60% trƣờng hợp. Bia và lạc
đƣợc mua chung trong 0.5% tổng giao dịch.
Thu nhập= 60.000.000_max => Tài khoản tiết kiệm= yes [20% ; 100%]
Luật này có nghĩa: Nếu thu nhập lớn hơn hoặc bằng 60 triệu một năm thì khách
hàng có tài khoản tiết kiệm với độ tin cậy là 100%.
Từ các luật kết hợp đƣợc trích rút từ chính các cơ sở dữ liệu giao dịch, cơ sở dữ

FX(T, I, R, minsup) = { X  I | support(X) ≥ minsup}
Luật kết hợp X => Y
Cho D = ( T, I, R) là dữ liệu để khai thác. X , Y  I là các tập mục thỏa mãn điều
kiện X Y   .
Luật kết hợp của X và Y, ký hiệu X=>Y , đây là luật chỉ khả năng xuất hiện Y khi X xuất
hiện. Luật kết hợp có hai độ đo gắn với nó là: độ hỗ trợ và độ tin cậy (confidence) của
luật.
Độ hỗ trợ của luật kết hợp X => Y
Độ hỗ trợ của luật kết hợp X => Y, ký hiệu support( X => Y) là tỷ số của số các
giao tác trong D có chứa X  Y trên số tất cả giao tác trong D.
Hay
Support( X => Y) = card (T(X  Y))/card(T) =

T(X Y)
T

; (5)

Trong đó T(X) là tập giao tác chứa tập mục X.
Độ tin cậy của luật kết hợp X => Y
Độ tin cậy (confidence) của luật X => Y, ký hiệu: confidence(X => Y) là tỷ số các giao
tác trong D có chứa X  Y trên số các giao tác chứa X. Hay
22

Confidence(X => Y) = card(T(X  Y))/card(T(X)) =

T(X Y)
T(X )

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Ứng dụng khai phá dữ liệu để xây dựng hệ thống tư vấn học tập tại trường đại học công nghiệp hà nội - Pdf 34

Tài liệu, ebook tham khảo khác

Học thêm