Bài tiểu luận môn Công nghệ tri thức CƠ SỞ KHAI THÁC DỮ LIỆU - Pdf 26

CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
GIỚI THIỆU
Khai khoáng dữ liệu (data mining), hiện nay đang được rất nhiều người chú ý. Nó
thực sự đã đem lại những lợi ích đáng kể trong việc cung cấp những thông tin tiềm ẩn trong
các cơ sở dữ liệu lớn. Ngày nay đang trong tình trạng bùng nổ thông tin, lượng thông tin
càng trở nên phong phú, đa dạng và khổng lồ. Thế nhưng để có được những thông tin quí
giá, đáng quan tâm, chúng ta lại phải tốn rất nhiều công sức để tìm kiếm nó trong một khối
lượng thông tin khổng lồ ấy. Xét về lĩnh vực này thì khối lượng thông tin càng lớn công việc
càng trở nên khó khăn hơn. Những phương pháp thống kê truyền thống, phần lớn đều đã
được định trước mục đích của công việc, và sau đó chỉ việc sử dụng những phương pháp
thích hợp để có được những thông tin mà chúng ta cần. Đối với khai khoáng dữ liệu đúng
nghĩa như tên gọi của nó, chúng ta đi tìm “mỏ”, không biết “có mỏ hay không?”. nếu có thì
“mỏ đó là vàng hay bạc, hay chì ?”. Khai khoáng dữ liệu như là một công cụ, giúp chúng
ta tìm ra “mỏ” trong những “dãy núi khổng lồ”, núi càng lớn, càng dài thì hy vọng tìm ra
mỏ càng cao nhưng cũng hết sức khó khăn phức tạp.
Tất nhiên khi tìm ra được những thông tin cuối cùng thì việc ứng dụng những thông
tin đó vào trong thực tế lại đòi hỏi cả một quá trình vận dụng từ lý thuyết vào thực tiễn.
Những luật kết hợp, những mẫu thông tin chưa từng gặp sẽ là tiền đề cho những dự đoán,
để từ đó có được những hoạch định đúng cho hướng phát triển trong tương lai, đây chính là
những yếu tố mà cơ quan đơn vị nào cũng cần tới nó, dù ở mức qui mô lớn hay nhỏ.
Khai khoáng dữ liệu trong Giáo dục và Đào tạo thật sự là một việc làm có ý nghĩa,
nó sẽ cung cấp những thông tin dựa trên những cơ sở khoa học đáng tin cậy, và đây cũng
chính là những thông tin quí giá hỗ trợ rất nhiều trong công tác quản lý giáo dục.
Hiện nay khai khoáng dữ liệu đã được ứng dụng rất nhiều trong thực tế, nhất là trong
lĩnh vực kinh doanh, công nghệ sinh học Tuy nhiên trong lĩnh vực Giáo dục và Đào tạo,
quả thật còn rất ít.
Dữ liệu trong giáo dục có những đặc điểm riêng của nó, đòi hỏi chúng ta phải có
những phương pháp khám phá phù hợp thì mới phát huy được tốc độ, cũng như không gian
bộ nhớ. Mặt khác để có được những thông tin mang tính xã hội và thực tế cao thì việc đưa
khái niệm tập mờ để đánh giá phân loại học sinh sẽ có tính thuyết phục hơn.

[GVHD: GS.TSKH HOÀNG KIẾM]
CHƯƠNG 2: CƠ SỞ KHAI THÁC DỮ LIỆU
1. Kỹ thuật khai thác dữ liệu
Kỹ thuật khai thác dữ liệu là kết quả của một quá trình lâu dài nghiên cứu và phát
triển sản phẩm. Sự tiến hóa này bắt đầu khi dữ liệu kinh doanh lần đầu tiên được lưu
trữ trên máy tính, tiếp tục với những cải tiến trong truy cập dữ liệu, và gần đây hơn, tạo
ra công nghệ cho phép người dùng điều hướng thông qua các dữ liệu của họ trong thời
gian thực. Khai thác dữ liệu có quá trình tiến hóa vượt ra ngoài truy cập dữ liệu hồi cứu
và chuyển hướng cung cấp thông tin và chủ động tương lai. Khai thác dữ liệu đã sẵn sàng
cho ứng dụng trong cộng đồng doanh nghiệp bởi vì nó được hỗ trợ bởi ba công nghệ
hiện nay đủ trưởng thành:
• Thu thập dữ liệu
• Máy tính đa xử lý
• Thuật tóan khai thác dữ liệu
2. Khảo sát dữ lịêu
Cơ sở dữ liệu thương mại đang phát triển với tốc độ chưa từng thấy. META
Nhóm khảo sát gần đây của dự án kho dữ liệu cho thấy rằng 19% số người trả lời là
vượt quá mức 50 GB, trong khi 59% mong đợi để có quý thứ hai của 1.996,1 Trong một
số ngành công nghiệp, chẳng hạn như bán lẻ, những con số này có thể lớn hơn nhiều. Sự
cần thiết phải đi kèm cho các công cụ cải thiện tính toán có thể được đáp ứng một cách
hiệu quả với công nghệ máy tính song song. Các thuật toán khai thác dữ liệu thể hiện các
kỹ thuật đã tồn tại ít nhất 10 năm, nhưng chỉ gần đây mới được thực hiện như trưởng
thành, đáng tin cậy, các công cụ dễ hiểu mà luôn tốt hơn phương pháp thống kê cũ.
Trong quá trình tiến hóa từ các dữ liệu kinh doanh thông tin kinh doanh, từng bước tiến
mới đã được xây dựng trên trước đó. Ví dụ, truy cập dữ liệu động là rất quan trọng cho
khoan thông qua ứng dụng điều hướng dữ liệu, và khả năng lưu trữ cơ sở dữ liệu lớn là
rất quan trọng để khai thác dữ liệu. Từ quan điểm của người sử dụng xem, bốn bước
được liệt kê trong Bảng 1 là cách mạng bởi vì họ cho phép các câu hỏi doanh nghiệp mới
được trả lời chính xác và nhanh chóng.
Bước tiến hóa Câu hỏi kinh doanh Kích họat công

IBM,
Microsoft
mức kỷ lục
Kho dữ liệu &
hỗ trợ quyết
định
Bán hàng đơn vị ở
New England tháng Ba
năm ngoái khoan để
Boston.? "
Phân tích xử lý trực
tuyến (OLAP), cơ
sở dữ liệu đa chiều,
kho dữ liệu
Pilot,
Comshare,
Arbor,
Cognos,
Microstrategy
Truy, năng
động, dữ
liệu giao
hàng ở
nhiều cấp độ
Khai thác dữ
liệu
"Có gì có thể xảy ra
với doanh số bán hàng
đơn vị Boston vào
tháng tới?"

4. Ứng dụng chức năng:
Với cơ sở dữ liệu kích thước đầy đủ và chất lượng, công nghệ khai thác dữ liệu có thể tạo
ra các cơ hội kinh doanh mới bằng cách cung cấp những khả năng:
a. Tự động dự báo xu hướng và thực hịên . Khai thác dữ liệu tự động hóa quá trình tìm
kiếm thông tin dự đoán trong cơ sở dữ liệu lớn. Câu hỏi truyền thống yêu cầu tay-on
mở rộng phân tích có thể được trả lời trực tiếp từ các dữ liệu một cách nhanh chóng.
Một ví dụ điển hình của một vấn đề tiên đoán được nhắm mục tiêu tiếp thị. Khai thác
dữ liệu sử dụng dữ liệu trên các thư quảng cáo trong quá khứ để xác định các mục tiêu
có thể để tối đa hóa lợi nhuận trên đầu tư vào các thư trong tương lai. Các vấn đề khác
tiên đoán bao gồm phá sản dự báo và các hình thức mặc định, và các phân đoạn xác
định của một dân số có khả năng đáp ứng tương tự như sự kiện được đưa ra.
b. Công cụ khai thác dữ liệu : quét qua cơ sở dữ liệu và xác định các mẫu trước đó ẩn
trong một bước. Một ví dụ về mô hình phát hiện ra là việc phân tích các dữ liệu doanh
số bán lẻ để xác định các sản phẩm dường như không liên quan với nhau. Các mô
hình phát hiện ra vấn đề khác bao gồm phát hiện các giao dịch thẻ tín dụng gian lận
và xác định các dữ liệu bất thường có thể do lỗi nhập từ bàn phím.
c. Kỹ thuật khai thác dữ liệu : mang lại lợi ích của tự động hóa phần mềm và là nền tảng
cho sự phát triển của phần cứng, và có thể được thực hiện trên hệ thống mới hiện tại
được nâng cấp. Khi các công cụ khai thác dữ liệu được thực hiện trên các hệ thống xử
lý song song hiệu năng cao, họ có thể phân tích cơ sở dữ liệu lớn trong vài phút. Xử
lý nhanh hơn có nghĩa rằng người dùng có thể tự động thử nghiệm với các mô hình để
hiểu các dữ liệu phức tạp. Tốc độ cao làm cho nó thực tế cho người sử dụng để phân
tích một lượng lớn dữ liệu. Cơ sở dữ liệu lớn hơn, lần lượt, sản lượng dự đoán được
cải thiện.
5. Các kỹ thuật phổ biến nhất được sử dụng trong khai thác dữ liệu
a. Các thuật toán di truyền : Tối ưu hóa kỹ thuật sử dụng các quá trình như sự kết hợp
di truyền, đột biến và chọn lọc tự nhiên trong một thiết kế dựa trên khái niệm của sự
tiến hóa.
b. Phương pháp hàng xóm gần nhất : Một kỹ thuật phân loại mỗi bản ghi trong một
tập dữ liệu dựa trên sự kết hợp của các lớp học của các kỷ lục k (s) tương tự như

người xây dựng mô hình khác nhau. Máy tính được nạp với nhiều thông tin về một loạt các
tình huống mà một câu trả lời được biết đến và sau đó phần mềm khai thác dữ liệu trên máy
tính phải chạy thông qua các dữ liệu đó và chưng cất các đặc tính của dữ liệu có nên đi vào
mô hình. Một khi mô hình được xây dựng sau đó có thể được sử dụng trong các tình huống
tương tự mà bạn không biết câu trả lời. Ví dụ, nói rằng bạn là giám đốc tiếp thị cho một
công ty viễn thông và bạn muốn để có được một số điện thoại đường dài khách hàng mới.
Bạn có thể chỉ là ngẫu nhiên đi ra ngoài và gửi phiếu giảm giá cho dân số nói chung cũng
giống như bạn ngẫu nhiên có thể đi thuyền biển tìm kiếm kho báu. Trong trường hợp không
phải, bạn sẽ đạt được kết quả bạn mong muốn và tất nhiên bạn có cơ hội để làm tốt hơn
nhiều hơn ngẫu nhiên - bạn có thể sử dụng kinh nghiệm kinh doanh của bạn được lưu trữ
trong cơ sở dữ liệu của bạn để xây dựng một mô hình.
Là giám đốc tiếp thị, bạn có thể truy cập đến rất nhiều thông tin về tất cả các khách hàng
của bạn: tuổi tác, giới tính, lịch sử tín dụng và gọi điện thoại đường dài sử dụng. Các tin tốt
là bạn cũng có rất nhiều thông tin về khách hàng tiềm năng của bạn: tuổi, giới tính, họ, lịch
sử tín dụng, vv Vấn đề của bạn là bạn không biết cách sử dụng gọi điện thoại đường dài của
những khách hàng tiềm năng (kể từ khi họ có khả năng nhất hiện nay khách hàng của đối
thủ cạnh tranh của bạn). Bạn muốn tập trung vào những triển vọng những người có số lượng
lớn của việc sử dụng khoảng cách dài. Bạn có thể thực hiện điều này bằng cách xây dựng
một mô hình. Bảng 2 minh họa các dữ liệu được sử dụng để xây dựng một mô hình mới cho
khách hàng khảo sát trong một nhà kho dữ liệu.
Trang 6 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]

Khách hàng Triển vọng
Thông tin chung
Được biết Được biết
Thông tin độc quyền
Được biết Mục tiêu
Bảng 2 - Khai thác dữ liệu cho khảo sát

CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
Điểm khởi đầu lý tưởng là một kho dữ liệu có chứa một sự kết hợp dữ liệu nội bộ theo dõi
tất cả liên lạc của khách hàng cùng với các dữ liệu thị trường bên ngoài về hoạt động của
đối thủ cạnh tranh. Bối cảnh thông tin về khách hàng tiềm năng cũng cung cấp một cơ sở
tuyệt vời cho các khảo sát. Kho này có thể được thực hiện trong một loạt các hệ thống cơ sở
dữ liệu quan hệ: Sybase, Oracle, Redbrick, và như vậy, và cần được tối ưu hóa cho việc truy
cập dữ liệu linh hoạt và nhanh chóng.
Một máy chủ OLAP (On-Line Analytical Processing) cho phép người dùng cuối một mô
hình kinh doanh phức tạp hơn để được áp dụng khi điều hướng các kho dữ liệu. Các cấu
trúc đa chiều cho phép người sử dụng để phân tích các dữ liệu như họ muốn xem kinh
doanh của họ - tóm tắt bởi dòng sản phẩm, khu vực, và quan điểm quan trọng khác của kinh
doanh của họ. Server Khai thác dữ liệu phải được tích hợp với các kho dữ liệu và máy chủ
OLAP để nhúng ROI tập trung vào phân tích kinh doanh trực tiếp vào cơ sở hạ tầng này.
Một tiên tiến, trung tâm siêu dữ liệu mẫu quá trình xác định mục tiêu khai thác dữ liệu cho
các vấn đề kinh doanh cụ thể như quản lý chiến dịch, khảo sát, và tối ưu hóa khuyến mại.
Tích hợp với các kho dữ liệu cho phép quyết định hoạt động được trực tiếp thực hiện và
theo dõi. Khi các kho hàng phát triển với các quyết định và kết quả mới, tổ chức có thể tiếp
tục khai thác tốt nhất và áp dụng chúng để quyết định tương lai.
Thiết kế này đại diện cho một sự thay đổi cơ bản từ các hệ thống hỗ trợ quyết định thông
thường. Thay vì chỉ đơn giản là cung cấp dữ liệu cho người dùng cuối thông qua các truy
vấn và báo cáo phần mềm, Server Phân tích chi tiết áp dụng mô hình kinh doanh của người
sử dụng trực tiếp với nhà kho và trả về một phân tích chủ động của các thông tin có liên
quan nhất. Những kết quả này tăng cường các siêu dữ liệu trong các máy chủ OLAP cung
cấp một lớp siêu dữ liệu năng động đại diện cho một cái nhìn cất dữ liệu. Với các công cụ
phân tích khác sau đó có thể được áp dụng để lập kế hoạch hành động trong tương lai và xác
nhận tác động của những kế hoạch đó.
Trang 8 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]

chung như những người được cung cấp bởi Dun & Bradstreet có thể mang lại một
danh sách ưu tiên của triển vọng của khu vực.
d. Một người tiêu dùng lớn công ty gói hàng hóa có thể áp dụng khai thác dữ liệu để cải
thiện quá trình bán hàng của mình cho các nhà bán lẻ. Dữ liệu từ các tấm tiêu dùng,
vận chuyển, và hoạt động của đối thủ cạnh tranh có thể được áp dụng để hiểu lý do
chuyển đổi thương hiệu và cửa hàng. Thông qua phân tích này, các nhà sản xuất có
thể lựa chọn chiến lược quảng cáo tốt nhất đạt được các phân khúc khách hàng mục
tiêu của họ
2. Kết luận :
Trang 9 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
- Kho dữ liệu toàn diện tích hợp dữ liệu hoạt động với khách hàng, nhà cung cấp, và
thông tin thị trường đã dẫn đến một sự bùng nổ thông tin.
- Cạnh tranh đòi hỏi phải phân tích kịp thời và tinh tế trên một cái nhìn tích hợp của dữ
liệu. Tuy nhiên, có một khoảng cách ngày càng tăng giữa lưu trữ và hệ thống thu hồi
và khả năng của người sử dụng có hiệu quả phân tích và hành động trên những thông
tin chúng chứa. Cả hai công nghệ quan hệ và OLAP có khả năng to lớn để điều
hướng các kho dữ liệu khổng lồ.
- Một bước nhảy vọt công nghệ mới là cần thiết để cấu trúc và ưu tiên thông tin cho
các vấn đề cụ thể của người dùng cuối.
3. Thuật ngữ của Điều khoản khai thác dữ liệu :
phân tích mô hình Cấu trúc và quá trình phân tích một tập dữ liệu. Ví dụ, một cây
quyết định là một mô hình để phân loại của một tập dữ liệu.
dữ liệu bất thường Dữ liệu có lỗi (ví dụ, nhập dữ liệu lỗi keying) hoặc đại diện cho các
sự kiện bất thường. Dữ liệu bất thường nên được kiểm tra cẩn thận
vì nó có thể mang thông tin quan trọng.
Hệ thống mạng Mô hình học thông qua đào tạo và tương tự như mạng lưới thần
kinh sinh học trong cơ cấu.
CART Cây phân loại và hồi quy. Kỹ thuật cây quyết định được sử dụng

Kích thước Trong một cơ sở dữ liệu hoặc quan hệ, mỗi lĩnh vực trong một bản
ghi đại diện cho một kích thước. Trong một cơ sở dữ liệu đa chiều,
kích thước là một tập hợp của các thực thể tương tự.
Thăm dò phân tích
dữ liệu
Việc sử dụng đồ họa và mô tả kỹ thuật thống kê để tìm hiểu về cấu
trúc của một tập dữ liệu.
Thuật toán di
truyền
Kỹ thuật tối ưu hóa sử dụng các quá trình như sự kết hợp di truyền,
đột biến và chọn lọc tự nhiên trong một thiết kế dựa trên khái niệm
của sự tiến hóa tự nhiên.
Mô hình tuyến tính Mô hình phân tích mối quan hệ tuyến tính trong các hệ số của các
biến được nghiên cứu.
Hồi quy tuyến tính Một kỹ thuật thống kê được sử dụng để tìm các mối quan hệ tốt
nhất phù hợp tuyến tính giữa một mục tiêu (phụ thuộc) biến và
những dự báo của nó (các biến độc lập).
Hồi quy Hồi quy tuyến tính dự đoán tỷ lệ của một biến mục tiêu phân loại,
chẳng hạn như loại của khách hàng, trong dân số.
Cơ sở dữ liệu đa
chiều
Một cơ sở dữ liệu được thiết kế để xử lý phân tích trực tuyến. Cấu
trúc như một hypercube đa chiều với một trục trung bình kích
thước.
Máy tính đa xử lý Một máy tính bao gồm nhiều bộ xử lý kết nối mạng. Xem như xử
Trang 11 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
lý song song.
Lân cận gần nhất Kỹ thuật phân loại mỗi bản ghi trong một tập dữ liệu dựa trên sự

lý.
Phân tích chuỗi
thời gian
Các phân tích của một chuỗi các phép đo thực hiện tại các khoảng
thời gian quy định. Thời gian thường là kích thước thống trị của dữ
liệu.
Trang 12 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
Trang 13 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
PHẦN II: ỨNG DỤNG KHAI KHOÁNG DỮ LIỆU VÀ TẬP MỜ
TRONG VIỆC PHÂN LOẠI HỌC SINH
CHƯƠNG 1: LUẬT KẾT HỢP MỜ
Khai khoáng những luật kết hợp là một trong những vấn đề nghiên cứu quan trọng trong
khai khoáng dữ liệu. Một ví dụ của một luật kết hợp xét trên các thuộc tính tuyệt đối như
sau:
(1)_Nếu Sử 7 thì Kết_quả Đậu , sup: 1126 (16.9%), conf: 80.8 %
(2)_Nếu Sử 9 thì Kết_quả Đậu , sup: 1240 (18.6%), conf: 94.1 %
(3)_Nếu Sử 8 thì Kết_quả Đậu , sup: 1532 (23.0%), conf: 88.4 %
Với thuộc tính định lượng thông thường giá trị của nó thay đổi một cách liện tục, và
có rất nhiều giá trị khác nhau. Vì vậy chúng ta phải dùng các kỷ thuật để phân chia miền
thuộc tính.
Sử dụng tập mờ để phân chia miền thuộc tính, theo các hàm thành viên sẽ có dạng
như sau:
Vối hàm thành viên có dạng như sau:
Thì luật kết hợp mờ có dạng:
(1)_Nếu Sử Khá thì Kết_quả Đậu , sup: 4632 (69.5%), conf: 85.0 %
vớiự: Sử Khá (0.7) [5451 = 81.8%] trong đó 0.7 là giá trị mờ được xác định bởi hàm

Cách mã hoá này sẽ giúp chúng ta không cần phải biến đổi hình thức thể hiện của dữ
liệu. Chúng ta vẫn giữ nguyên hình thức thể hiện theo chiều ngang giống như hình thức
chuẩn thường có của nó. Điều này cũng sẽ tiết kiệm được khá nhiều thời gian chuyển đổi và
xử lý.
Ví dụ
TOAN LY
5 5
1 10

Một số chương trình đã thực hiện chuyển sang dạng sau:
T0 T1 T5 T10 L0 L1 L5 L10
No No No Yes No No No No No Yes No No
No Yes No No No No No No No No No Yes
Trang 16 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
Việc chuyển dữ liệu theo cách thức này sẽ tiêu tốn một thời gian đáng kể nhất là đối
với dữ liệu khổng lồ, với cách mã hoá trên chúng ta sẽ tránh được công việc này.
CHƯƠNG 3: TÌM CÁC ITEMSETS THƯỜNG XUYÊN
1. Cấu trúc lưu giữ các items, itemsets
Như trên chúng ta đã trình bày, tuỳ vào điều kiện thực tế của cơ sở dữ liệu mà chúng
ta tìm chọn một phương pháp phù hợp. Cụ thể trong cơ sở dữ liệu thi tốt nghiệp của ngành
Giáo Dục Đào Tạo tại một tỉnh, chúng ta có thể có ước định như sau:
Giới
tính

trường
Học
lực
Hạnh

0100
(TOAN – 4)
Chỉ số mảng 0 1 2 3 4
Giá trị 1 0 1 1 1
000000
000000
0101
(TOAN – 5)
Chỉ số mảng 0 1 2 3 4
Giá trị 0 1 0 0 0
0000
0001
0000
0101
(LY – 5)
Chỉ
số
mản
g
0 1 2 3 4
Giá
trị
1 0 0 0 0
0000
0001
0000
0110
(LY – 6)
Chỉ
số

g
0 1 2 3 4
Giá
trị
0 0 0 1 0
Trang 19 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
Một vài itemsets:
{00000
001000
00110,0
000001
000001
000}
(LY – 6, HOA – 8)
Chỉ số
mảng
0 1 2 3 4
Giá trị 0 0 0 1 0
{00000
000000
00100,
000000
010000
0110}
(TOAN – 4, LY – 6)
Chỉ số
mảng
0 1 2 3 4

được trong lúc chạy chương trình (trong giới hạn cho phép). Hàm thành viên được sử dụng
có dạng hình thang “Hình 2.1”.
Sau đây là một vài dạng cụ thể cho bởi “Hình vẽ 2.1”
Hình 2.1: Dạng cụ thể của hàm hình thang
Như vậy chúng ta sẽ có ba tập mờ cho một cột điểm. Sau khi một item được đưa vào
tập mờ thì giá trị của tập mờ nó sẽ bị thay đổi, đó là giá trị mờ, và mảng vị trí. Với giá trị
mờ sẽ được tính theo công thức
( )

=
p
1i
i
fuzzy.item
p
1
, (itemi.fuzzy sẽ được xác định bằng hàm
thành viên), còn mảng vị trí của tập mờ sẽ được đánh dấu tại vị trí của chính vị trí của item.
Một item có thể được đưa vào hai tập mờ khác nhau với hai giá trị mờ có thể khác nhau như
“Hình vẽ 2.2” (tuỳ thuộc vào hàm thành viên).
Hình 2.2: Minh hoạ về tập mờ
Đối với mốt kết hợp mờ được hình hoá bằng “Hình vẽ 2.3” như sau:
Giả sử cơ sở dữ liệu là:
TOAN LY
2 4
4 5
Trang 21 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
5 6

trị mờ này lại cung cấp cho ta thêm những thông tin về chính nó.
Tìm các itemset thường xuyên. Sau lần duyệt duy mhất đầu tiên chúng ta có được
danh sách các items trong cơ sở dữ liệu, đếm support và chỉ giữ lại những items thường
xuyên (support ≥ minsup). Với cách lưu lại các vị trí của item vào mảng ghi vị trí như đã nói
ở trên, chúng ta có thể tìm được tất cả các itemsets thường xuyên trên danh sách này (không
cần duyệt thêm một lần nào nữa trên cơ sở dữ liệu). Chúng ta sẽ thực hiện phép giao (tuyển)
các itemset với những items đã có lúc ban đầu thì chúng ta sẽ có được một itemset mới có
số items tăng lên một, sau đó đếm support nếu itemset mới này là thường xuyên thì lưu lại.
Trang 23 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
CHƯƠNG 4: TÌM LUẬT KẾT HỢP
Công việc đòi hỏi nhiều công sức là tìm ra được các itemsets thường xuyên. Sau đó
từ những itemsets này chúng ta sẽ đưa những luật kết hợp có độ tin cậy cao. Thông thường
giai đoạn này có ít người chú tâm tới, bởi vì nó không phải là một vấn đề khó. Tuy nhiên
như chúng ta đã đề cập ở trên, việc đưa ra quá nhiều luật mà trong đó có nhiều luật không
cần phải quan tâm là một công việc không đưa lại hiệu quả cao. Riêng trong trường hợp dữ
liệu của ngành Giáo Dục, hiện nay còn nhiều điều mới mẻ, các qui luật chưa được thể hiện
rõ do có quá nhiều sự thay đổi về chủ trương chính sách cũng như chương trình, sách giáo
khoa… trong thời gian qua. Vì vậy chúng ta chưa thể đưa ra những bộ luật mà không cần
quan tâm. Với lý do đó, trong báo cáo chưa đề cập đến vấn đề này.
Với đặc tính của cơ sở dữ liệu để có được luật có độ tin cậy 100% là vô cùng ít và
hầu như đa phần là luật có độ tin cậy nhỏ hơn 100%. Với những luật có độ tin cậy nhỏ hơn
100%, vấn đề luật thừa cũng cần phải được xem lại. Lấy ví dụ, chúng ta đã có luật A

B
như vậy luật (A,C)

B là luật thừa. Nhưng trong thực tế thì (A,C)


Từ những luật kết hợp có được chúng ta sẽ có thêm một phương pháp phân loại học
sinh mới dựa trên các luật này. Chẳng hạn như có 82% học sinh thi khá môn Sử và học lực
TB thì đậu tốt nghiệp THPT với độ tin cậy 91%.
Trang 25 | Học viên: Bùi Thị Mai Châu


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status