Đồ Án Nghiên Cứu Kỹ Thuật Khai Phá Dữ Liệu Và Ứng Dụng Trong Hệ Thống Chẩn Đoán Bệnh - Pdf 42

ĐỒ ÁN CHUYÊN NGÀNH
ĐỀ TÀI
NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆUVÀ ỨNG DỤNG TRONG
HỆ THỐNG CHẨN ĐOÁN BỆNH

GVHD: NCS. Lê Thanh Long
SV : Nguyễn Huy Mạnh
Lớp : K14 TPM1
Khoa : Công nghệ thông tin


NỘI DUNG
I) LÝ THUYẾT KHAI PHÁ DỮ LIỆU
1) Định nghĩa
2) Tiền xử lý dữ liệu
II ) PHÂN LỚP VÀ DỰ ĐOÁN
1) Phân lớp
2) Dự đoán
3) Cây quyết định
4) Thuật toán ID3
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
1) Phân tích hệ thống
2) Demo
IV) TÀI LIỆU THAM KHẢO


I) Lý thuyết khai phá dữ liệu
1) Định nghĩa
Định nghĩa khai phá dữ liệu : khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng
để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ
liệu khổng lồ và phức tạp.

trình

tự

nhiên… Tất nhiên các dữ liệu
lưu trữ hoàn toàn là dưới
dạng thô, chưa sẵn sàng cho
việc phát hiện, khám phá
thông tin ẩn chứa trong đó


I) Lý thuyết khai phá dữ liệu
1 ) Làm sạch dữ liệu
a.) Thiếu giá trị
 Điền vào các giá trị thiếu bằng tay
 Sử dụng các giá trị quy ước để điền vào cho giá trị thiếu
 Sử dụng các thuộc tính có nghĩa là để điền vào cho giá trị thiếu
 Sử dụng các giá trị của bộ cùng thể loại để thay thế cho giá trị thiếu
 Sử dụng giá trị có tỉ lệ xuất hiện cao để điền vào cho các giá trị thiếu
b) Dữ liệu nhiễu
Nhiễu dữ liệu là một lỗi ngẫu nhiên hay do biến động của các biến trong quá trình thực hiện,
hoặc sự ghi chép nhầm lẫn ko được kiểm soát…
b.1 Phương pháp làm mịn Binning
Cho Mảng lưu giá sau : 2,5,7,8,8,20,90,92,100
Phân thành các bin

phương pháp trung vị

làm mịn biên


21.2
21.2
22.8

cholesterol
3.5
1.9
4
2.6
4.5
3
2.9
3.8
2.1
3.8
4.1
3
2.5
4.6
3.2
4.2
2.3
4

Màu đen : giá trị tiên đoán trung bình
Màu đỏ : giá trị tiên đoán với khoảng tin cậy 95%
Màu xanh : giá trị tiên đoán độ cholesterol mới trong quần thể


2) Tích hợp dữ liệu

4.000.000


4) Rút gọn dữ liệu
Lựa chọn tăng dần

Loại bớt

Tập thuộc tính ban đầu

Tập thuộc tính ban đầu

Tập thuộc tính ban đầu

{A1, A2, A3, A4, A5, A6}

{A1, A2, A3, A4, A5, A6}

{A1, A2, A3, A4, A5, A6}

Tập rút gọn ban đầu

=> {A1, A3, A4, A5, A6}

=> Kết quả {A1, A4, A6}

{}

=> {A1, A4, A5, A6}


II) Phân lớp và dự đoán
3. Cây quyết định
Cây quyết định là một phương pháp rất mạnh và phổ biến cho cả hai nhiệm
vụ của khai phá dữ liệu là phân loại và dự báo. Mặt khác, cây quyết định còn
có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các
luật nếu - thì (If-Then).
Cây quyết định là cấu trúc biễu diễn dưới dạng cây.
•Mỗi nút trong biễu diễn một thuộc tính,
•nhánh biễu diễn giá trị có thể có của thuộc tính,
•Mỗi lá biểu diễn các lớp quyết định
•Gốc là đỉnh trên cùng của cây
Cây quyết định có thể được dùng để phân lớp bằng cách xuất phát từ gốc
của cây và di chuyển theo các nhánh cho đến khi gặp nút lá. Trên cơ sở
phân lớp này chúng ta có thể chuyển đổi về các luật quyết định.


II) Phân lớp và dự đoán
4. Thuật toán ID3 : Giải thuật quy nạp cây ID3 (gọi tắt là ID3)
ID3 biểu diễn các khái niệm ở dạng các cây quyết định .Biểu diễn này cho
phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm tra các
giá trị của nó trên một số thuộc tính nào đó.
giải thuật có:
Đầu vào: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc tính mô tả một
tình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó.
Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập dữ
liệu rèn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chưa gặp trong
tương lai.


4. Thuật toán ID3(tt)



III) HỆ THỐNG CHẨN ĐOÁN BỆNH
1) Phân tích hệ thống
Cho một bảng dữ liệu da rám nắng sau :
TT

Màu tóc

Chiều cao

Cân nặng

Dùng thuốc?

Kết quả

1

Đen

Tầm thước

Nhẹ

Không

Bị rám

2


Không

Bị rám

5

Bạc

Tầm thước

Nặng

Không

Bị rám

6

Râm

Cao

Nặng

Không

Không

7

Chiều cao:
Vchiều cao = (T(tầm thước,rám), T(tầm thước,không rám))= (2/8, 1/8)
Vchiều cao = (T(cao, rám), T(cao,không rám)) = (0/8, 2/8)
Vchiều cao =(T(thấp,rám), T(thấp,không rám))= (1/8, 2/8)
Cân nặng:
Vcân nặng= (T(nhẹ,rám), T(nhẹ,không rám)) = (1/8, 1/8)
Vcân nặng = (T(vừa phải,rám), T(vừa phải, không rám)) = (1/8, 2/8)
Vcân nặng = (T (nặng, rám), T(nặng, không rám)) = (1/8, 2/8)
Dùng thuốc:
Vdùng thuốc= (T(không, rám), T(không, không rám)) = (3/8, 2/8)
Vdùng thuốc = (T(có,rám), T(có, không rám)) = (0/8, 3/8)
Thuộc tính Màu tóc có nhiều vector đơn vị nhất nên ta chọn thuốc tính màu tóc để phân hoạch


Màu tóc

Đen(1,2,4,8)

Bạc(5)
(Rám)

Râm(3,6,7)
(Không

rám)
Tiếp theo cần phân hoạch tập P1=(1,2,4,8)
TT

Chiều cao


Vừa phải

Không

Bị rám

8

Thấp

Nhẹ



Không


III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Tính các vector đặc trưng:

Dùng thuốc

Chiều cao:
Vchiềucao =(T(tầm thước,rám), T(tầm thước, không rám)) = (1/4,
0/4)
Vchiềucao= (T(thấp, rám), T(thấp, không rám)) = (1/4 , 1/4)
Vchiềucao= (T(cao, rám), T(cao, không rám)) = (0/4, 1/4)
Cân nặng:
Vcân nặng= (T(nhẹ, rám), T(nhẹ, không rám)) = (1/4,1/4)
Vcân nặng= (T(vừa phải, rám), T(vừa phải, không rám)) =(1/4,1/4)


Không(1,4)


III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Từ cây định danh trên, ta suy ra các luật:

IF Tóc bạc THEN Rám
IF Tóc râm

THEN không bị rám

IF (Tóc đen, có dùng thuốc) THEN không rám
IF (Tóc đen, không dùng thuốc) THEN Rám


III) HỆ THỐNG CHẨN ĐOÁN BỆNH
USE CASE HỆ THỐNG


III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Đặc tả chức năng
Chức năng tra cứu thuốc : người dùng sẽ nhập vào tên của loại thuốc cần biết thông tin chi tiết .
Hệ thống sẽ hiên thị thông tin về loại thuốc đó gồm tên thuốc, quy cách, hàm lượng,cách dùng, chỉ
định , chống chỉ định …
Chức năng tra cứu bênh : Người dùng sẽ nhập vào tên bệnh (không viết dấu)
Hệ thống sẽ hiển thị thông tin về bệnh mà người dùng gõ vào gồm các thông tin bệnh đó thuộc
nhóm bệnh nào, tên tiếng anh của loại bệnh đó, chi tiết hội chứng bệnh .
Tùy thuộc vào nhà thiết kế mà có thể liệt kê thêm các thông tin theo yêu cầu.
Chức năng sổ tay chẩn đoán bệnh : người dùng sẽ trả lời một số cầu hỏi mà phần mềm đưa


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status