BỘ GIÁO DỤC & ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
TIỂU LUẬN MÔN HỌC
Đề tài:
TÌM HIỂU KHAI PHÁ TRI THỨC VÀ
XÂY DỰNG HỆ CHUYÊN GIA CHẨN ĐOÁN VÀ
ĐIỀU TRỊ BỆNH BẰNG THUỐC ĐÔNG Y
Giáo viên hướng dẫn: PGS.TS. Phan Huy Khánh
Nhóm HVTH (Nhóm 1):
Lê Trọng Hiền
Huỳnh Xuân Tuy
Lê Tự Quốc
Lớp: Khoa học máy tính K11 (2009 – 2011)
Đà Nẵng, tháng 04 năm 2010
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
LỜI MỞ ĐẦU
Ngày nay, khoa học kỹ thuật phát triển trên mọi lĩnh vực, đặc biệt là lĩnh vực
công nghệ thông tin. Chúng ta đã hoà nhập vào thị trường toàn cầu. Do vậy, lĩnh vực
công nghệ thông tin sẽ là một lĩnh vực quan trọng thúc đẩy các lĩnh vực khác cùng
phát triển.
Công nghệ Thông tin (CNTT) được ứng dụng trong nhiều lĩnh vực của đời sống
như kinh tế, chính trị, xã hội, văn hóa cũng như trong những lĩnh vực nghiên cứu
khoa học khác. Do vậy, dung lượng dữ liệu đã được các cơ quan thu thập và lưu trữ
ngày một tích luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa
những giá trị nhất định nào đó.
Kỹ thuật Khai phá tri thức và Khai phá dữ liệu đã và đang được nghiên cứu, ứng
dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật
này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng
dụng.
Ngày nay, Công nghệ Thông tin (CNTT) được ứng dụng trong nhiều lĩnh vực
của đời sống như kinh tế, chính trị, xã hội, văn hóa cũng như trong những lĩnh vực
nghiên cứu khoa học khác. Do vậy, dung lượng dữ liệu đã được các cơ quan thu thập
và lưu trữ ngày một tích luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng trong nó
ẩn chứa những giá trị nhất định nào đó.
Tuy nhiên, chỉ có từ 5 – 10% dung lượng dữ liệu này thường được phân tích, số
còn lại họ không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp
tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua
sau này có lúc cần đến nó. Mặt khác, trong môi trường cạnh tranh, người ta ngày càng
cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có
nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu
đã có. Với những lý do như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu
truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh
hướng kỹ thuật mới đó là Kỹ thuật khai phá tri thức và khai phá dữ liệu (KDD -
Knowledge Discovery and Data Mining).
Kỹ thuật Khai phá tri thức và Khai phá dữ liệu đã và đang được nghiên cứu, ứng
dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật
này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng
Nhóm 1 Trang 3/31
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
dụng.
.1.1.1. Khai phá tri thức là gì?
Thông thường chúng ta coi dữ liệu như một dãy các bit, hoặc các số, các ký hiệu,
hoặc các “đối tượng” với một ý nghĩa nào đó khi được gửi cho một chương trình dưới
một dạng nhất định. Chúng ta sử dụng các bit để đo lường các thông tin và xem nó như
là các dữ liệu đã được lọc bỏ các dư thừa, được rút gọn tới mức tối thiểu để đặc trưng
một cách cơ bản cho dữ liệu. Chúng ta có thể xem tri thức như là các thông tin tích
hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng. Các mối quan hệ này có thể
được hiểu ra, có thể được phát hiện, hoặc có thể được học. Nói cách khác, tri thức có
thể được coi là dữ liệu có độ trừu tượng và tổ chức cao.
Với hai đích chính của khai phá dữ liệu là dự đoán (Prediction) và Mô tả
(Description), người ta thường sử dụng các phương pháp sau cho khai phá dữ liệu:
- Phân loại (Classification)
- Hồi qui (Regression)
- Phân nhóm (Clustering)
- Tổng hợp (Summarization)
- Mô hình ràng buộc (Dependency modeling)
- Dò tìm biến đổi và độ lệch (Change and Deviation Dectection)
- Biểu diễn mô hình (Model Representation)
- Kiểm định mô hình (Model Evaluation)
- Phương pháp tìm kiếm (Search Method)
Một quá trình KPDL bao gồm năm giai đoạn chính sau
(1) Tìm hiểu nghiệp vụ và dữ liệu
(2) Chuẩn bị dữ liệu
(3) Mô hình hóa dữ liệu
(4) Hậu xử lý và đánh giá mô hình
(5) Triển khai tri thức
Nhóm 1 Trang 6/31
Data
Data
mining
mining
Data
Data
mining
mining
Input data
Input data
Input data
Input data
t
i
o
n
S
e
l
e
c
t
i
o
n
S
e
l
e
c
t
i
o
n
Utilization
Utilization
Utilization
Utilization
Eval. of
interes-
tingness
Raw
o Khai phá gian lận
Nhóm 1 Trang 7/31
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
o Thông tin kỹ thuật:
o Điều khiển và lập lịch trình
o Quản trị mạng
o Phân tích các kết quả thí nghiệm
- Thông tin khoa học
- Thông tin cá nhân
.1.1.6. Các thách thức với Khai phá tri thức và khai phá dữ liệu
- Các cơ sở dữ liệu lớn
- Số chiều lớn
- Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã khai phá không còn
phù hợp.
- Dữ liệu bị thiếu hoặc nhiễu
- Quan hệ giữa các trường phức tạp
- Giao tiếp với người sử dụng và kết hợp với các tri thức đã có.
- Tích hợp với các hệ thống khác
.1.2.
.1.2.Các ứng dụng cụ thể áp dụng kỹ thuật khai phá tri thức
Các ứng dụng cụ thể áp dụng kỹ thuật khai phá tri thức
.1.2.1. Ứng dụng trong bài toán dự báo từ thông tin kinh tế - xã hội
Trong ứng dụng, nhóm sẽ lấy một bài toán dự báo về dân số thế giới đến năm
2015 dựa trên những số liệu thống kê dân số thế giới từ năm 1950 - 2002 bằng phương
pháp hồi quy (Regression). Mặc dù số lượng các dữ liệu không lớn như trong các dữ
liệu kinh tế - xã hội khác, nhưng bài toán này cũng cho ta thấy các mô hình phân tích
khác nhau và các kết quả khác nhau khi khai phá những dữ liệu đó.
được quan tâm. Mới đây, trong hội thảo khách hàng của hãng General Electric
vào tháng 08 năm 2008, Stephen Kwan đã giới thiệu phần mềm Kn3, phần mềm
chuyên dụng trong tối ưu nhà máy năng lượng và các ứng dụng khác nhằm làm
tăng hiệu suất, giảm khí thải ô nhiễm
môi trường.
Với bộ quản trị dữ liệu giúp khai phá dữ liệu, mạng noron mô hình hóa đối
tượng, bảng tập luật và các thuật toán di truyền xác định luật điều khiển, tạo tri
thức, bộ điều khiển đa biến thực hiện tối ưu…
Nhóm 1 Trang 11/31
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
Nhóm 1 Trang 12/31
Chưa tốt
Dữ liệu vận hành của lò hơi
GIAI ĐOẠN HỌC
Mô hình hoá lò hơi bằng hàm đa biến y=f(x1,x2,x3…) bằng mạng noron.
Xây dựng cơ sở tri thức chứa các mẫu dấu hiệu điều khiển bằng thuật toán khai
phá dữ liệu
GIAI ĐOẠN KIỂM THỬ
Các thông số tối ưu hệ thống được đưa vào hàm điều khiển để
thực nghiệm kiểm tra tính chính xác cũng như tính toán hiệu
quả.
Tốt
GIAI ĐOẠN HIỆN THỰC
Hệ thống sẽ đưa ra thông số hiệu chỉnh cho nhân viên vận hành đặt lại vào hệ thống
DCS, những thay đổi thông số này nằm trong khoảng rất nhỏ cho phép nhằm bảo đảm
không gây thay đổi đột ngột cũng như luôn luôn kiểm soát được công nghệ.
KIỂM TRA KẾT QUẢ
Các thay đổi sau một khoảng thời gian nhất định, được
kiểm tra bằng cách đánh giá lại hiệu suất và so sánh với
tình trạng trước đó
.1.1.1. Khái niệm
Hệ chuyên gia, còn gọi là hệ thống dựa tri thức, là một chương trình máy tính
chứa một số tri thức đặc thù của một hoặc nhiều chuyên gia con người về một chủ đề
cụ thể nào đó. Các chương trình thuộc loại này đã được phát triển từ các thập kỷ 1960
và 1970, và trở thành ứng dụng thương mại từ thập kỷ 1980. Dạng phổ biến nhất của
hệ chuyên gia là một chương trình gồm một tập luật phân tích thông tin (thường được
cung cấp bởi người sử dụng hệ thống) về một lớp vấn đề cụ thể, cũng như đưa ra các
phân tích về các vấn đề đó, và tùy theo thiết kế chương trình mà đưa lời khuyên về
trình tự các hành động cần thực hiện để giải quyết vấn đề. Đây là một hệ thống sử
dụng các khả năng lập luận để đạt tới các kết luận.
Theo E. Feigenbaum : “Hệ chuyên gia (Expert System) là một chương trình máy
tính thông minh sử dụng tri thức (knowledge) và các thủ tục suy luận (inference
procedues) để giải những bài toán tương đối khó khăn đòi hỏi những chuyên gia mới
giải được”.
.1.1.2. Hoạt động của một hệ chuyên gia
Một hệ chuyên gia bao gồm ba thành phần chính là cơ sở tri thức (knowledge
base), máy suy diễn hay mô tơ suy diễn (inference engine), và hệ thống giao tiếp với
người sử dụng (user interface). Cơ sở tri thức chứa các tri thức để từ đó, máy suy diễn
tạo ra câu trả lời cho người sử dụng thông qua hệ thống giao tiếp.
Người sử dụng cung cấp sự kiện (fact) là những gì đã biết, đã có thật hay những
thông tin có ích cho hệ chuyên gia, và nhận được những câu trả lời là những lời
khuyên hay những gợi ý đúng đắn (expertise).
Hoạt động của hệ chuyên gia dựa trên tri thức được minh họa như sau:
Nhóm 1 Trang 14/31
Người sử dụng
(User)
Hệ thống
giao tiếp
(User
Interface)
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
- Máy suy diễn (Inference Egine). Công cụ (chương trình, hay bộ xử lý) tạo ra
sự suy lụân bằng cách sẽ quyết định xem những luật nào sẽ làm thỏa mãn các
sự kiện, các đối tượng, chọn ưu tiên các luật có tính ưu tiên cao nhất.
- Lịch công việc (agenda). Danh sách các luật ưu tiên do máy suy diễn tạo ra
thỏa mãn các sự kiện, các đối tượng có mặt trong bộ nhớ làm việc.
- Bộ nhớ làm việc (working memory). Cơ sở dữ liệu toàn cục chứa các sự kiện
phục vụ cho các luậh.
- Khả năng giải thích (explaination facility). Giải nghĩa cách lập luận của hệ
thống cho người sử dụng.
- Khả năng thu nhận tri thức (explaination facility). Cho phép người sử dụng
bổ sung các tri thức vào hệ thống một cách tự động thay vì tiếp nhận tri thức
vào hệ thống một cách tự động thay vì tiếp nhận tri thức vào hệ thống bằng
cách mã hóa tri thức một cách tường minh. Khả năng thu nhận tri thức là yếu
tố mặc nhiên của nhiều hệ chuyên gia.
- Giao diện người sử dụng (User interface). Là nơi người sử dụng và hệ chuyên
gia trao đổi với nhau.
Cơ sở tri thức còn được gọi là bộ nhớ sản xuất (production memory) trong hệ
chuyên gia. Trong một cơ sở tri thức, người ta thường phân biệt hai loại tri thức là tri
thức phán đoán (assertion knowledge) và tri thức thực hành (operating knowledge).
Các tri thức phán đoán mô tả các tình huống đã được thiết lập hoặc sẽ được thiết
lập. Các tri thức thực hành thể hiện những hậu quả rút ra hay những thao tác cần phải
hoàn thiện khi một tình huống đã được thiết lập hoặc sẽ được thiết lập trong lĩnh vực
đang xét. Các tri thức thực hành thường được thể hiện bởi các biểu thức để dễ hiểu và
dễ triển khai thao tác đối với người sử dụng.
Hình 12: Quan hệ giữa máy suy diễn và cơ sở tri thức
Nhóm 1 Trang 16/31
Máy
suy diễn
Cơ sở tri thức
Else
Tìm cách tiếp cận khác thích hợp hơn
Endif
Kết thúc
End
Nhóm 1 Trang 17/31
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
.1.2.
.1.2.Các loại Hệ chuyên gia
Các loại Hệ chuyên gia
Có 2 dạng hệ chuyên gia thường dùng đó là hệ chuyên gia dựa trên luật và lập
luận trên tình huống.
.1.2.1. Hệ chuyên gia dựa trên luật
ES dựa trên luật biểu diễn tri thức dưới dạng các luật if… then. Cách tiếp cận
này thích hợp với kiến trúc ở hình 13, và là một trong những kỹ thuật cổ điển và được
sử dụng rộng rãi nhất dùng cho biểu diễn tri thức về một lĩnh vực trong ES.
Hình 13: Kiến trúc của một hệ chuyên gia tiêu biểu.
Nếu chúng ta xem kiến trúc ES ở hình 13 như một hệ sinh thì cơ sở tri thức là
tập hợp các luật sinh (if… then). Dữ liệu cho trường hợp cụ thể được giữ trong bộ nhớ
làm việc. Động cơ suy diễn thực hiện chu trình nhận dạng – hành động (recognize-act)
của hệ sinh. Cơ chế điều khiển này có thể là hướng từ dữ liệu hay hướng từ mục tiêu.
Đối với một ES, thì tiếp cận hướng từ mục tiêu sẽ tạo điều kiện cho quá trình
giải thích hơn. Vì trong một hệ hướng từ mục tiêu, việc suy luận theo đuổi một mục
tiêu cụ thể nào đó, mục tiêu đó bị chia thành nhiều mục tiêu con và cứ như thế. Kết
quả là việc tìm kiếm luôn luôn được hướng dẫn thông qua sự phân cấp mục tiêu và
mục tiêu con này. Trong khi ở tìm kiếm hướng từ dữ liệu không tồn tại điều này, kết
quả là quá trình tìm kiếm thường có vẻ dài dòng và không tập trung.
sẽ truy vấn trực tiếp người dùng về những mục tiêu mới này. Nếu người dùng xác
nhận cả ba mục tiêu này đều đúng, thì ES sẽ xác định một cách thành công rằng trục
trặc xe là do bugi. Trong quá trình tìm ra lời giải này, hệ thống đã kiểm tra nhánh trái
nhất của đồ thị Và/Hoặc trong hình 17.
Hình 17. Đồ thị Và/Hoặc được tìm kiếm trong ví dụ chẩn đoán xe ôtô.
Ưu điểm của ES dựa trên luật:
- Khả năng sử dụng trực tiếp các tri thức thực nghiệm của các chuyên gia.
- Tính module của luật làm cho việc xây dựng và bảo trì luật dễ dàng.
- Có thể thực hiện tốt trong các lĩnh vực hạn hẹp.
- Có tiện ích giải thích tốt.
Nhóm 1 Trang 20/31
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
- Các luật ánh xạ một cách tự nhiên vào không gian tìm kiếm trạng thái.
- Dễ dàng theo dõi một chuỗi các luật và sửa lỗi.
- Sự tách biệt giữa tri thức và điều khiển giúp đơn giản hóa quá trình phát
triển ES.
Hạn chế của ES dựa trên luật:
- Các luật đạt được từ các chuyên gia mang tính heuristic rất cao. Chẳng hạn
như trong lĩnh vực y học, luật “If sốt-cao Then bị-nhiễm-trùng” là sự kết
hợp trực tiếp các triệu chứng quan sát được và các chẩn đoán, mà không thể
hiện sự hiểu biết lý thuyết sâu hơn về lĩnh vực chuyên ngành (như cơ chế
phản ứng của cơ thể để chống lại vi trùng chẳng hạn), hoặc luật “If sốt-cao
Then cho-uống-Aspirin” cũng không thể hiện tri thức về giải quyết vấn đề
tức là quá trình chữa bệnh như thế nào.
- Các luật heuristic “dễ vỡ”, không thể xử lý các trường hợp ngoài dự kiến. Vì
các luật được tạo ra từ kinh nghiệm của các chuyên gia trên những tình
huống đã biết, nên khi gặp phải một tình huống mới không đúng với các
kinh nghiệm đó, thì các luật này không giải quyết được.
- Có khả năng giải thích chứ không chứng minh. ES dựa trên luật chỉ có thể
giải thích rằng kết luận này là do suy luận từ các luật như thế nào, chứ
sự tương tự của một số đặc điểm nổi bật.
- Sửa đổi tình huống đó để có thể áp dụng trong tính huống hiện tại.
- Áp dụng tình huống đã chuyển đổi vào bài toán mới.
- Lưu lại lời giải và kết quả của nó (thành công hay thất bại).
Ưu điểm: CBR đưa ra hàng loạt ưu điểm cho việc xây dựng các chuyên gia:
- Đơn giản hóa việc tích lũy tri thức từ các chuyên gia với việc lưu trữ một
cách trực tiếp các tri thức có được, đó là những lời giải của chuyên gia cho
hàng loạt các bài toán.
- Bằng cách tìm giải pháp của một tình huống tương tự đã có để đưa ra lời
giải cho phép rút ngắn thời gian suy luận của hệ thống. Tuy nhiên, điều này
cần phải xem xét lại nếu hệ thống có một CSDL tình huống rất lớn.
- Thao tác lưu lại lời giải và kết quả của nó tạo khả năng tự học cho hệ thống:
giúp hệ thống tránh lỗi cũ và tận dụng những thành công trong quá khứ
- Việc phân tích tri thức của lĩnh vực chỉ diễn ra một lần, đó là khi tìm kiếm
một sự biểu diễn hợp lý cho các tình huống, hay quá trình chọn các đặc
điểm nổi bật (salient features) của các tình huống để có thể so sánh và đưa
ra kết luận về tính tương đương của hai tình huống nào đó. Đây cũng là khó
khăn lớn nhất của tiếp cận này. Vì nếu ta chọn các đặc điểm nổi bật dùng để
so sánh hai tình huống không phù hợp, thì kết luận của ta về tính tương
đương của hai tình huống có thể sẽ không chính xác, và khi tình huống chọn
ra không đúng sẽ không cho ra một lời giải thích hợp.
- Việc tích lũy tri thức và lập trình là tương đối đơn giản.
Nhóm 1 Trang 22/31
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
- Các chiến lược sắp xếp (index) thích hợp làm tăng sức mạnh của phương
pháp này.
Hạn chế: Tiếp cận này cũng có các hạn chế sau:
- Các tình huống không thể hiện tri thức sâu về lĩnh vực bài toán, do đó khó
giải thích tại sao đưa ra lời giải như vậy, hoặc có thể đưa ra lời giải sai hoặc
không tốt.
IF bệnh nhân bị vàng da AND bệnh nhân sút cân THEN
Bệnh nhân mắc bệnh viêm gan.
.2.1.5. Biểu diễn tri thức nhờ mạng ngữ nghĩa
Trong phương pháp này, ta sử dụng một đồ thị gồm các nút (node) và các cung
(arc) nối các nút để biễu diễn tri thức. Nút dùng để thể hiện các đối tượng, thuộc tính
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
của đối tượng và giá trị của thuộc tính. Còn cung dùng để thể hiện quan hệ giữa các
đối tượng. Các nút và các cung đều được gắn nhãn.
Ví dụ để thể hiện “viêm họng là loại bệnh có các triệu chứng ho và giảm cân ”
Hình 13 . Biểu diễn tri thức nhờ mạng ngữ nghĩa
.2.1.6. Kết quả
Chương trình hoàn thành sẽ thực hiện được các yêu cầu đã đặt ra
Nhóm 1 Trang 25/31
Giả
m
cân
Lao
phổi Bệnh
Ho
là
bị
Có triệu chứng