Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI CÔNG NGHỆ THÔNG TIN
BÀI THU HOẠCH
CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG
Đề tài:
TÌM HIỂU MẠNG BAYES VÀ THUẬT TOÁN BAYES VÀ ỨNG DỤNG BAYES THEOREM TRONG
PHÂN LỚP DỮ LIỆU (NAÏVE BAYES CLASSIFIER)
Giảng viên hướng dẫn : GS.TSKHHOÀNG KIẾM
Học viên thực hiện :TRỊNH NAM VIỆT
Lớp : CH08
MSHV :CH1301115
CH1301115 – Trịnh Nam Việt Page 1
Tháng 10/2014
Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm
MỤC LỤC
Lời mở đầu 2
Chương I: Tổng quan 3
1. Công nghệ tri thức 3
2. Khoa học tri thức 3
3. Vai trò của công nghệ tri thức 3
4. Hướng nghiên cứu, phát triển công nghệ tri thức 3
5. Quản lí tri thức 4
6. Tổng quan hệ cơ sở tri thức 5
7. Máy học và khám phá tri thức 8
8. Nhà kho dữ liêu và khai mỏ dữ liệu 11
Chương II: Giới thiệu mạng Bayes và thuật toán Bayes 13
1. Mạng Bayes 13
2. Thuật toán 17
Chương III: Ứng dụng Bayes Theorem trong phân lớp dữ liệu (Naïve Bayes Classifier) 19
1. Mục đích chương trình 19
Công nghệ tri thức đóng vai trò hết sức quan trọng trong việc phát triển Công
nghệ thông tin, nâng cao sự hữu dụng của máy tính, giúp con người gần gũi với
máy tính hơn.
Công nghệ tri thức còn góp phần thúc đẩy nhiều ngành khoa học khác phát triển,
khả năng phát triển khoa học dựa trên tri thức liên ngành
4. Hướng nghiên cứu, phát triển công nghệ tri thức
CH1301115 – Trịnh Nam Việt Page 4
Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm
Quản lý tri thức (knowledge management): bao gồm tiếp nhận, biểu diễn và tối ưu hóa cơ
sở tri thức…
Các hệ cơ sở tri thức (knowledge-based systems): tìm hiểu cấu trúc bên trong của một hệ
cơ sở tri thức, phân loại các hệ cơ sở tri thức, và một số hệ cơ sở tri thức điển hình.
Khai mỏ dữ liệu, khám phá tri thức (Data mining, knowledge discovery): nghiên cứu về
phương pháp, kỹ thuật để khai mỏ dữ liệu và khám phá tri thức.
5. Quản lí tri thức
a. Tiếp nhận tri thức
Có thể chia thành 2 cách để tiếp nhận tri thức như sau:
+ Thụ động:
- Gián tiếp: những tri thức kinh điển. Trực tiếp: những tri thức kinh nghiệm (không
kinh điển) do “chuyên gia lĩnh vực” đưa ra.
+ Chủ động:
- Đối với những tri thức tiềm ẩn, không rõ ràng hệ thống phải tự phân tích, suy diễn,
khám phá để có thêm tri thức mới.
CH1301115 – Trịnh Nam Việt Page 5
Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm
+ Giao tiếp người máy:
- Thông qua bàn phím, chuột, cảm biến, cảm ứng, thiết bị ghi âm, mà hình, âm thanh,
văn bản…
b. Biểu diễn tri thức:
+Phương pháp biểu diễn tri thức:
ban đầu là những tiên đề và một số định lý, tri thức bổ sung là những định lý mới,
những tri thức heurictis, …); những hệ cơ sở tri thức chẩn đoán, dự báo chẳng hạn: hệ
chẩn đoán y khoa MYCIN và EMYCIN, những hệ dự báo thời tiết, khí hậu, động đất,
…
c. Hệ cơ sở tri thức kết hợp:
Bao gồm sự kết hợp giữa hệ đóng và hệ mở, hệ kết hợp giữa CSTT và CSDL, hệ kết
hợp giữa hệ CSTT này với một hệ CSTT khác, … Những hệ cơ sở tri thức kết hợp
thường phát triển mạnh dựa trên tri thức liên ngành.
Ví dụ: những hệ hỗ trợ ra quyết định trong đời sống, kinh tếvà khoa học; (kinh dịch,
tử vi áp dụng với đời sống; kinh dịch, tử vi áp dụng với y học; …); những hệ chẩn
đoán, dự báo đòi hỏi tri thức liên ngành; …
d. Phân loại
+ Phân loại theo phương pháp biểu diễn tri thức:
Tùy thuộc vào phương pháp biểu diễn tri thức mà chúng ta có thể phân loại các hệ cơ
sở tri thức:
Hệ cơ sở tri thức dựa trên logic mệnh đề và logic vị từ
Hệ cơ sở tri thức dựa trên luật dẫn
Hệ cơ sở tri thức dựa trên đối tượng
Hệ cơ sở tri thức dựa trên Frame
Hệ cơ sở tri thức dựa trên mạng ngữ nghĩa
Hệ CSTT kết hợp một số phương pháp biểu diễn đã nêu trên…
CH1301115 – Trịnh Nam Việt Page 8
Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm
+ Phân loại theo ứng dụng:
Hệ giải quyết vấn đề: thường là hệ có tính chất đóng, nhưng đôi khi cũng có hệ mang
tính mở.
Ví dụ: Những hệ giải toán, thuật giải Vương Hạo, thuật giải Robinson, …
Hệ hỗ trợ quyết định: thường là các hệ mang tính kết hợp (CSDL + tri thức ngành +
hàm toán học + ), đối tượng sử dụng là các nhà lãnh đạo.
Ví dụ: những hệ thống đánh giá doanh nghiệp (tình hình tài chính, kết quả kinh
Máy tính hay chương trình máy tính có khả năng tự hoàn thiện từ “kinh nghiệm”.
Máy học còn có nghĩa là việc mô hình hóa môi trường xung quanh hay khả năng
một chương trình máy tính sinh ra một cấu trúc dữ liệu mới khác với cấu trúc hiện
có. Chẳng hạn việc tìm ra những luật If…then… từ tập dữ liệu đầu vào.
c. Phân loại các phương pháp máy học
Có nhiều quan điểm phân loại khác nhau.
Phân loại thô:
-Học giám sát (supervised learning)
-Học không giám sát (unsupervised learning)
Phân loại theo 2 tiêu chuẩn cùng lúc: “cấp độ học” & “cách tiếp cận”
Cấp độ học:
-Học vẹt (Rote learning)
-Học theo giải thích (by explanation)
-Học theo ví dụ, trường hợp (by examples, cases)
-Học khám phá (by discovering)
CH1301115 – Trịnh Nam Việt Page 11
Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm
d. Cách tiếp cận
Tiếp cận thống kê
Tiếp cận toán tử logic
Tiếp cận hình học (phân hoạch không gian, xây dựng cây định danh, …)
Tiếp cận mạng Neural
Tiếp cận khai mỏ dữ liệu
…
8. Nhà kho dữ liệu và khai mỏ dữ liệu
DATA WAREHOUSE = Biến đổi dữ liệu thành tri thức yễm trợ tiến trình ra
quyết định.
CH1301115 – Trịnh Nam Việt Page 12
Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm
DatawareHouse = Business Information + Decision Making(IBM BPEC’96
i
không có cha, ta nói rằng phân phối xác suất địa phương của nó là không có
điều kiện, ngược lại thì gọi là có điều kiện. Nếu biến được biểu diễn bởi một nút được
quan sát, thì ta nói rằng nút đó là một chứng cứ (evidence node).
Các câu hỏi về sự phụ thuộc không tương đẳng giữa các biến có thể được trả lời bằng
cách nghiên cứu đồ thị. Có thể chứng minh rằng trong đồ thị, tính độc lập có điều
kiện được biểu diễn bởi tính chất đồ thị d-khả ly: cho trước một số nút hiển nhiên cụ
thể, các nút X và Y là d-khả ly trong đồ thị khi và chỉ khi các biến X và Y là độc lập,
CH1301115 – Trịnh Nam Việt Page 14
Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm
với giá trị đã biết các chứng cứ tương ứng. Tập hợp gồm tất cả các nút khác mà X có
thể phụ thuộc trực tiếp được cho bởi bao Markov của X.
Một ưu điểm của mạng Bayes là, về mặt trực quan, ta có thể hiểu các quan hệ phụ
thuộc một cách trực tiếp và các phân phối địa phương dễ dàng hơn là phân phối có
điều kiện phụ thuộc hoàn chỉnh.
b. Mạng Bayes nhân quả
Mạng Bayes nhân quả là một mạng Bayes mà trong đó các cạnh có hướng của đồ thị
được hiểu là các quan hệ nhân quả trong một miền xác định có thực nào đó. Các cạnh
có hướng, một cách tổng quát, không nhất thiết phải được hiểu là các quan hệ nhân
quả; tuy nhiên, trong thực tiễn, tri thức về các quan hệ nhân quả rất hay được dùng để
hướng dẫn vẽ các đồ thị mạng Bayes, kết quả là có được các mạng Bayes nhân quả.
c. Học cấu trúc
Trong trường hợp đơn giản nhất, một mạng Bayes được xây dựng bởi một chuyên gia
và rồi được dùng để thực hiện việc suy luận. Trong các ứng dụng khác, công việc xây
dựng mạng quá phức tạp đối với con người. Trong trường hợp này, cấu trúc và các
tham số mạng của các phân bố địa phương phải được học từ dữ liệu.
Học cấu trúc của một mạng Bayes (nghĩa là học đồ thị) là một phần rất quan trọng
của ngành nhận thức máy. Giả thiết rằng dữ liệu được sinh từ một mạng Bayes và
rằng tất cả các biến là quan sát được (chứng cứ) trong mọi lần lặp, việc tối ưu hóa dựa
trên phương pháp tìm kiếm có thể được dùng để tìm cấu trúc mạng. Việc này đòi hỏi
năng cực đại (hay xác suất hậu nghiệm cực đại) của các tham số. Một cách tiếp cận
Bayes đầy đủ hơn đối với việc học tham số là coi các tham số như là các biến không
quan sát được khác và tính một phân bố hậu nghiệm đầy đủ trên toàn bộ các nút theo
dữ liệu quan sát được, sau đó tách các tham số ra. Cách tiếp cận này có thể có chi phí
tính toán cao và dẫn đến các mô hình có số chiều lớn, do đó trong thực tế, các cách
tiếp cận truyền thống thường được sử dụng hơn.
CH1301115 – Trịnh Nam Việt Page 16
Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm
e. Suy luận
Do mạng Bayes là một mô hình hoàn chỉnh cho các biến và các quan hệ giữa chúng,
có thể dùng mạng Bayes để trả lời các truy vấn xác suất về các biến này. Ví dụ, mạng
Bayes có thể được dùng để tìm tri thức mới nhất về trạng thái của một tập con gồm
các biến khi các biến khác (các biến hiển nhiên) được quan sát. Quá trình tính phân
bố hậu nghiệm này của các biến khi cho trước các biến hiển nhiên được gọi là suy
luận xác suất. Quá trình hậu nghiệm cho ra một thống kê đủ phổ quát (universal
sufficient statistic) cho các ứng dụng phát hiện, khi người ta muốn chọn các giá trị
cho một tập con các biến nhằm mục đích cực tiểu hóa một hàm phí tổn nào đó, chẳng
hạn xác suất của lỗi quyết định. Do đó, có thể coi mạng Bayes là một cơ chế cho việc
xây dựng tự động các mở rộng của định lý Bayes cho các bài toán phức tạp hơn.
f. Ứng dụng
Mạng Bayes được dùng cho việc mô hình hóa tri thức trong các mạng điều hòa
gene (gene regulatory network), trong các hệ thống y học, phân tích văn bản, xử lý
ảnh dung hợp dữ liệu, và các hệ hỗ trợ quyết định (decision support system)
2. Thuật toán Bayes
Trong lĩnh vực Machine Learning, Bayes Theorem (hay Bayes’ Rule) là kỹ thuật phân
lớp dựa vào việc tính xác suất có điều kiện. Bayes’ Rule được ứng dụng rất rộng rãi bởi
tính dễ hiểu và dễ triển khai.
Bayes' Rule (CT1):
Trong đó:
CH1301115 – Trịnh Nam Việt Page 17
2. Túm tt quỏ trỡnh hot ng:
Cú training data v vic l t phỳ nh sau:
CH1301115 Trnh Nam Vit Page 20
Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm
Sử dụng Naïve Bayes Classifier để xác định khả năng là tỉ phú với các yếu tố của người
được dự đoán như sau:
CH1301115 – Trịnh Nam Việt Page 21
Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm
Từ Training data ta có dữ liệu như sau:
Vì thuộc tính phân lớp Tỉ phú chỉ có 2 giá trị là “check” (nghĩa là tỉ phú) và “uncheck” (không
là tỉ phú) nên ta phải tính Pr(check|E) và Pr(uncheck|E) như sau. Trong đó E là dữ liệu cần phân
lớp (dự đoán)
CH1301115 – Trịnh Nam Việt Page 22
Công nghệ tri thức & Ứng dụng GS.TSKHHoàng KiếmTỉ lệ dự đoán là tỉ phú
Tỉ lệ dự đoán không là tỉ phú
Khả năng của 2 lớp là:
Check = 5/15 * 6/15 * 5/15 * 9/15 = 0.0267
Uncheck = 1/15 * 1/15 * 6/15 * 6/15 = 0.0007
CH1301115 – Trịnh Nam Việt Page 23
Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm
Chuyển đổi thành xác suất bằng cách chuẩn hóa
P(“check”) = 0.0267 / ( 0.0267 + 0.0007) = 0.974
P(“uncheck”) = 0.0007 / / ( 0.0267 + 0.0007) = 0.026
Vì P(“check”) > P(“uncheck”) nên kết quả dự đoán Tỉ phú =“check” ( TRUE )
CH1301115 – Trịnh Nam Việt Page 24
Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm