Đồ Án Nghiên Cứu Kỹ Thuật Khai Phá Dữ Liệu Và Ứng Dụng Trong Hệ Thống Chẩn Đoán Bệnh - Pdf 42

ĐỒ ÁN CHUYÊN NGÀNH
ĐỀ TÀI
NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆUVÀ ỨNG DỤNG TRONG
HỆ THỐNG CHẨN ĐOÁN BỆNH

GVHD: NCS. Lê Thanh Long
SV : Nguyễn Huy Mạnh
Lớp : K14 TPM1
Khoa : Công nghệ thông tin

NỘI DUNG
I) LÝ THUYẾT KHAI PHÁ DỮ LIỆU
1) Định nghĩa
2) Tiền xử lý dữ liệu
II ) PHÂN LỚP VÀ DỰ ĐOÁN
1) Phân lớp
2) Dự đoán
3) Cây quyết định
4) Thuật toán ID3
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
1) Phân tích hệ thống
2) Demo
IV) TÀI LIỆU THAM KHẢO

I) Lý thuyết khai phá dữ liệu
1) Định nghĩa
Định nghĩa khai phá dữ liệu : khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng
để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ
liệu khổng lồ và phức tạp.

trình

tự

nhiên… Tất nhiên các dữ liệu
lưu trữ hoàn toàn là dưới
dạng thô, chưa sẵn sàng cho
việc phát hiện, khám phá
thông tin ẩn chứa trong đó

I) Lý thuyết khai phá dữ liệu
1 ) Làm sạch dữ liệu
a.) Thiếu giá trị
 Điền vào các giá trị thiếu bằng tay
 Sử dụng các giá trị quy ước để điền vào cho giá trị thiếu
 Sử dụng các thuộc tính có nghĩa là để điền vào cho giá trị thiếu
 Sử dụng các giá trị của bộ cùng thể loại để thay thế cho giá trị thiếu
 Sử dụng giá trị có tỉ lệ xuất hiện cao để điền vào cho các giá trị thiếu
b) Dữ liệu nhiễu
Nhiễu dữ liệu là một lỗi ngẫu nhiên hay do biến động của các biến trong quá trình thực hiện,
hoặc sự ghi chép nhầm lẫn ko được kiểm soát…
b.1 Phương pháp làm mịn Binning
Cho Mảng lưu giá sau : 2,5,7,8,8,20,90,92,100
Phân thành các bin

phương pháp trung vị

làm mịn biên

21.2
21.2
22.8

cholesterol
3.5
1.9
4
2.6
4.5
3
2.9
3.8
2.1
3.8
4.1
3
2.5
4.6
3.2
4.2
2.3
4

Màu đen : giá trị tiên đoán trung bình
Màu đỏ : giá trị tiên đoán với khoảng tin cậy 95%
Màu xanh : giá trị tiên đoán độ cholesterol mới trong quần thể

2) Tích hợp dữ liệu

4.000.000

4) Rút gọn dữ liệu
Lựa chọn tăng dần

Loại bớt

Tập thuộc tính ban đầu

Tập thuộc tính ban đầu

Tập thuộc tính ban đầu

{A1, A2, A3, A4, A5, A6}

{A1, A2, A3, A4, A5, A6}

{A1, A2, A3, A4, A5, A6}

Tập rút gọn ban đầu

=> {A1, A3, A4, A5, A6}

=> Kết quả {A1, A4, A6}

{}

=> {A1, A4, A5, A6}

II) Phân lớp và dự đoán
3. Cây quyết định
Cây quyết định là một phương pháp rất mạnh và phổ biến cho cả hai nhiệm
vụ của khai phá dữ liệu là phân loại và dự báo. Mặt khác, cây quyết định còn
có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các
luật nếu - thì (If-Then).
Cây quyết định là cấu trúc biễu diễn dưới dạng cây.
•Mỗi nút trong biễu diễn một thuộc tính,
•nhánh biễu diễn giá trị có thể có của thuộc tính,
•Mỗi lá biểu diễn các lớp quyết định
•Gốc là đỉnh trên cùng của cây
Cây quyết định có thể được dùng để phân lớp bằng cách xuất phát từ gốc
của cây và di chuyển theo các nhánh cho đến khi gặp nút lá. Trên cơ sở
phân lớp này chúng ta có thể chuyển đổi về các luật quyết định.

II) Phân lớp và dự đoán
4. Thuật toán ID3 : Giải thuật quy nạp cây ID3 (gọi tắt là ID3)
ID3 biểu diễn các khái niệm ở dạng các cây quyết định .Biểu diễn này cho
phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm tra các
giá trị của nó trên một số thuộc tính nào đó.
giải thuật có:
Đầu vào: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc tính mô tả một
tình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó.
Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập dữ
liệu rèn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chưa gặp trong
tương lai.

4. Thuật toán ID3(tt)

III) HỆ THỐNG CHẨN ĐOÁN BỆNH
1) Phân tích hệ thống
Cho một bảng dữ liệu da rám nắng sau :
TT

Màu tóc

Chiều cao

Cân nặng

Dùng thuốc?

Kết quả

1

Đen

Tầm thước

Nhẹ

Không

Bị rám

2

Không

Bị rám

5

Bạc

Tầm thước

Nặng

Không

Bị rám

6

Râm

Cao

Nặng

Không

Không

7

Chiều cao:
Vchiều cao = (T(tầm thước,rám), T(tầm thước,không rám))= (2/8, 1/8)
Vchiều cao = (T(cao, rám), T(cao,không rám)) = (0/8, 2/8)
Vchiều cao =(T(thấp,rám), T(thấp,không rám))= (1/8, 2/8)
Cân nặng:
Vcân nặng= (T(nhẹ,rám), T(nhẹ,không rám)) = (1/8, 1/8)
Vcân nặng = (T(vừa phải,rám), T(vừa phải, không rám)) = (1/8, 2/8)
Vcân nặng = (T (nặng, rám), T(nặng, không rám)) = (1/8, 2/8)
Dùng thuốc:
Vdùng thuốc= (T(không, rám), T(không, không rám)) = (3/8, 2/8)
Vdùng thuốc = (T(có,rám), T(có, không rám)) = (0/8, 3/8)
Thuộc tính Màu tóc có nhiều vector đơn vị nhất nên ta chọn thuốc tính màu tóc để phân hoạch

Màu tóc

Đen(1,2,4,8)

Bạc(5)
(Rám)

Râm(3,6,7)
(Không

rám)
Tiếp theo cần phân hoạch tập P1=(1,2,4,8)
TT

Chiều cao

Vừa phải

Không

Bị rám

8

Thấp

Nhẹ

Có

Không

III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Tính các vector đặc trưng:

Dùng thuốc

Chiều cao:
Vchiềucao =(T(tầm thước,rám), T(tầm thước, không rám)) = (1/4,
0/4)
Vchiềucao= (T(thấp, rám), T(thấp, không rám)) = (1/4 , 1/4)
Vchiềucao= (T(cao, rám), T(cao, không rám)) = (0/4, 1/4)
Cân nặng:
Vcân nặng= (T(nhẹ, rám), T(nhẹ, không rám)) = (1/4,1/4)
Vcân nặng= (T(vừa phải, rám), T(vừa phải, không rám)) =(1/4,1/4)

Không(1,4)

III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Từ cây định danh trên, ta suy ra các luật:

IF Tóc bạc THEN Rám
IF Tóc râm

THEN không bị rám

IF (Tóc đen, có dùng thuốc) THEN không rám
IF (Tóc đen, không dùng thuốc) THEN Rám

III) HỆ THỐNG CHẨN ĐOÁN BỆNH
USE CASE HỆ THỐNG

III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Đặc tả chức năng
Chức năng tra cứu thuốc : người dùng sẽ nhập vào tên của loại thuốc cần biết thông tin chi tiết .
Hệ thống sẽ hiên thị thông tin về loại thuốc đó gồm tên thuốc, quy cách, hàm lượng,cách dùng, chỉ
định , chống chỉ định …
Chức năng tra cứu bênh : Người dùng sẽ nhập vào tên bệnh (không viết dấu)
Hệ thống sẽ hiển thị thông tin về bệnh mà người dùng gõ vào gồm các thông tin bệnh đó thuộc
nhóm bệnh nào, tên tiếng anh của loại bệnh đó, chi tiết hội chứng bệnh .
Tùy thuộc vào nhà thiết kế mà có thể liệt kê thêm các thông tin theo yêu cầu.
Chức năng sổ tay chẩn đoán bệnh : người dùng sẽ trả lời một số cầu hỏi mà phần mềm đưa

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Đồ Án Nghiên Cứu Kỹ Thuật Khai Phá Dữ Liệu Và Ứng Dụng Trong Hệ Thống Chẩn Đoán Bệnh - Pdf 42

Tài liệu, ebook tham khảo khác

Học thêm