ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
o0o
BÀI THU HOẠCH MÔN HỌC
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
ĐỀ TÀI:
TÌM HIỂU HỆ HỖ TRỢ RA QUYẾT ĐỊNH CHẨN ĐOÁN
CÁC BỆNH VỀ TIM SỬ DỤNG CÁC KĨ THUẬT
KHAI PHÁ DỮ LIỆU
GIÁO VIÊN HƯỚNG DẪN:
PGS.TS ĐỖ PHÚC
HỌC VIÊN: VƯƠNG ĐỨC HIỀN
MSHV: CH1301087
TP HỒ CHÍ MINH - THÁNG 6, NĂM 2014
Mục lục
Giới thiệu
Bài thu hoạch này trình bày các vấn đề việc xây dựng một hệ thống hỗ trợ ra quyết định
cho các bác sĩ trong việc chẩn đoán một bệnh nhân có phải bị bệnh về tim hay không.
Nội dung của bài thu hoạch này chủ yếu được dịch từ bài báo “Web-Based Heart Disease
Decision Support System using Data Mining Classification Modeling Techniques” của
các tác giả Sellappan Palaniappan và Rafiah Awang [1].
Ngành y tế thu thập một lượng lớn dữ liệu mà trong đó không phải dữ liệu nào cũng có
thể “khai thác được” để khám phá các thông tin ẩn cho việc ra quyết định hiệu quả của
người làm công tác chăm sóc sức khỏe. Phát hiện các mẫu ẩn và mối quan hệ thường
xuyên chưa được khai thác. Các mô hình kĩ thuật khai thác dữ liệu tiên tiến có thể giúp
khắc phục tình trạng này. Nghiên cứu này đã phát triển một hệ thống hỗ trợ ra quyết định
về bênh tim (HDDSS) dựa trên web sử dụng các kĩ thuật phân loại trong khai thác dữ
liệu, cụ thể là, các mô hình cây quyết định, Naïve Bayes và mạng nơron. Các kết quả cho
thấy mỗi kỹ thuật có các sức mạnh riêng của nó trong việc nhận ra các mục tiêu của các
mục tiêu khai phá đã được xác định.
HDDSS có thể trả lời các câu truy vấn “what if” phức tạp, điều mà các hệ thống hỗ trợ ra
ung thư, nên việc điều trị bao gồm chỉ hóa trị liệu, chỉ thực hiện phóng xạ, hoặc cả hai
hóa trị và xạ trị?”, “Với các hồ sơ bệnh nhân đã biết, dự đoán xác suất của các bệnh
nhân có thể có bệnh tim.”
Thông thường, các quyết định lâm sàng được thực hiện dựa trên trực giác của bác sĩ
chứ không phải là những kiến thức dữ liệu phong phú trong cơ sở dữ liệu. Việc thực
hiện điều này dẫn đến những ảnh hưởng xấu không mong muốn, các lỗi và chi phí y
tế quá mức có ảnh hưởng đến chất lượng dịch vụ cung cấp cho bệnh nhân. Wu và
cộng sự đã đề nghị việc tích hợp các hỗ trợ quyết định lâm sàng với hồ sơ bệnh nhân
dựa trên máy tính có thể làm giảm các sai sót y tế, nâng cao sự an toàn cho bệnh nhân,
giảm sự biến đổi thực tế không mong muốn, và cải thiện kết quả chuẩn đoán bệnh
nhân. Đây là sự hứa hẹn các công cụ mô hình hóa và phân tích dữ liệu có khả năng
tạo ra môi trường kiến thức phong phú môi trường mà có thể cải thiện đáng kể chất
lượng của các quyết định lâm sàng.
3. Mục tiêu nghiên cứu
Nghiên cứu này sẽ phát triển một nguyên mẫu của hệ thống hỗ trợ ra quyết định chẩn
đoán bệnh về tim dựa trên nền Web (Heart Disease Decision Support System -
HDDSS), sử dụng ba kĩ thuật phân lớp trong khai thác dữ liệu, cụ thể là, cây quyết
định, Naïve Bayes và mạng Nơron.
Nó có thể trích xuất các thông tin ẩn (các mẫu và các mối quan hệ) liên quan đến bệnh
tim từ một cơ sở dữ liệu lịch sử bệnh tim. Nó có thể trả lời các truy vấn phức tạp liên
quan đến chẩn đoán bệnh tim và do đó giúp các chuyên viên chăm sóc sức khỏe đưa
ra các quyết định lâm sàng thông minh mà các hệ thống hỗ trợ quyết định truyền
thống đã có không thể làm được. Nó sẽ giúp họ cung cấp các phương pháp điều trị
hiệu quả với chi phí thấp hơn. Để nâng cao sự trực quan và dễ giải thích, HDDSS sẽ
hiển thị kết quả cả bằng các bảng và các dạng đồ họa.
4. Tổng quan về khai phá dữ liệu
Mặc dù khai phá dữ liệu đã được khoảng hơn hai thập kỷ, tiềm năng của nó chỉ đang
được nhận ra ngay bây giờ. Khai phá dữ liệu kết hợp phân tích thống kê, máy học và
các kĩ thuật cơ sở dữ liệu để trích xuất các mẫu ẩn và mối quan hệ từ cơ sở dữ liệu
lớn. Fayyad định nghĩa khai phá dữ liệu như là: “một quá trình rút trích không tầm
5. Phương pháp
HDDSS sử dụng 6 giai đoạn của phương pháp CRISP-DM để xây dựng các mô hình
khai thác dữ liệu. DMX (Data Mining Extension), một ngôn ngữ truy vấn kiểu SQL
cho khai phá dữ liệu, được sử dụng để xây dựng và truy cập vào các nội dung của mô
hình. Các bảng và đồ họa trực quan được tích hợp để mở rộng khả năng phân tích và
giải thích kết quả.
5.1. Nguồn dữ liệu
Tổng cộng có 909 bản ghi với 15 thuộc tính y tế (yếu tố) được lấy từ cơ sở dữ liệu các
bệnh về tim Cleveland. Các bản ghi này đã được chia đều thành hai bộ dữ liệu: bộ dữ
liệu huấn luyện (455 bản ghi) và bộ dữ liệu thử nghiệm (454 bản ghi). Để tránh thiên
vị, các bản ghi cho mỗi bộ được chọn một cách ngẫu nhiên. Mô hình phân loại được
chọn là thuật toán Naïve Bayes chỉ hỗ trợ các thuộc tính phân loại . Cả các thuật toán
cây quyết định mạng Nơron hỗ trợ các thuộc tính phân loại và liên tục. Để thống nhất,
chỉ các thuộc tính phân loại được sử dụng cho tất cả ba mô hình. Tất cả các thuộc tính
y tế trong hình 1 được chuyển đổi từ số thành dữ liệu phân loại. Thuộc tính “chẩn
đoán” được xác định là thuộc tính có thể dự đoán có giá trị “1” cho bệnh nhân bị bệnh
tim và giá trị “0” cho các bệnh nhân không bị bệnh tim. Thuộc tính “PatientID" được
sử dụng như khóa; phần còn lại là các thuộc tính đầu vào. Giả sử rằng các dữ liệu
trùng lặp, thiếu hay không phù hợp đã được xử lí.
Hình1. Mô tả các thuộc tính
5.2. Các mô hình khai phá
Ngôn ngữ truy vấn dữ liệu DMX (Data Mining Extension) đã được sử dụng để tạo mô
hình, huấn luyện mô hình, dự báo mô hình và truy cập các nội dung của mô hình. Tất
cả các thông số được thiết lập giá trị mặc định trừ các thông số “Minimum Support =
1” cho cây quyết định và “Minimum Dependency Probability = 0.005” cho Naïve
Bayes. Các mô hình huấn luyện được đánh giá theo các bộ dữ liệu thử nghiệm về độ
chính xác và hiệu quả trước khi chúng được triển khai trong HDDSS. Các mô hình
được làm cho có hiệu lực sử dụng các biểu đồ Lift Chart và ma trận phân loại
(Classification Matrix).
5.3. Đánh giá hiệu quả của mô hình
thực hiện các mô hình trên tất cả các trạng thái có thể. Dòng lý tưởng (màu xanh) ở
góc 45 độ, cho thấy rằng nếu 50% của bộ dữ liệu thử nghiệm được xử lý, 50% kiểm
tra dữ liệu được dự đoán một cách chính xác.
Hình 3. Kết quả Lift Chart với giá trị không dự đoán
Biểu đồ cho thấy rằng nếu 50% tập hợp được xử lý, tỷ lệ phần trăm của các dự đoán
chính xác của mạng Nơron có mức cao nhất (49,34%), tiếp theo là Naïve Bayes
(47,58%) và cây quyết định (41,85%). Nếu toàn bộ tập hợp được xử lý, mô hình
Naïve Bayes dường như là tốt hơn so với hai mô hình còn lại vì nó có số lượng cao
nhất của dự đoán chính xác (86,12%), tiếp theo mạng Nơron (85,68%) và cây quyết
định (80,4%).
Nếu ít hơn 50% tập hợp được xử lý các dòng Lift cho mạng Nơron và Naïve Bayes sẽ
luôn luôn cao hơn so với cây quyết định. Điều này cho thấy mạng Nơron và Naïve
Bayes là tốt hơn trong việc tạo ra các dự đoán chính xác cho tỷ lệ cao hơn cây quyết
định. Dọc theo trục X dòng Lift cho mạng Nơron và Naïve Bayes chồng lên nhau.
Điều này cho thấy cả hai mô hình đều tốt cho việc dự đoán chính xác. Nếu có nhiều
hơn 50% tập hợp được xử lý, mạng Nơron và Naïve Bayes có vẻ tốt hơn khi chúng
cung cấp tỷ lệ phần trăm cao của các dự đoán chính xác hơn là cây quyết định. Điều
này có được bởi vì dòng Lift cho cây quyết định sẽ luôn luôn thấp hơn so với mạng
Nơron và Naïve Bayes. Đối với phạm vi tập hợp nhất định, mạng Nơron dường như
tốt hơn so với Naives Bayes và ngược lại.
Ma trận phân loại. Phân loại ma trận hiển thị tần số của các dự đoán chính xác và
không chính xác. Nó so sánh các giá trị thực tế trong bộ dữ liệu thử nghiệm với các
giá trị dự đoán trong mô hình huấn luyện. Trong ví dụ này, các dữ liệu thử nghiệm có
208 bệnh nhân bị bệnh tim và 246 bệnh nhân không có bệnh tim. Hình 4 cho thấy kết
quả của ma trận phân loại cho 3 mô hình. Các hàng biểu diễn cho các giá trị dự đoán
trong khi các cột biểu diễn cho các giá trị thực tế (1 cho các bệnh nhân bị bệnh tim, '0
'cho các bệnh nhân không có bệnh tim). Cột ngoài cùng bên trái hiển thị các giá trị dự
đoán của các mô hình. Các giá trị chẩn đoán cho thấy những dự đoán chính xác.
Hình 4. Kết quả của ma trận phân loại cho 3 mô hình
Hình 5 tóm tắt kết quả của tất cả ba mô hình. Naïve Bayes dường như là hiệu quả nhất
số 7 và 8 cho thấy trong cả hai mô hình, yếu tố quan trọng nhất ảnh hưởng đến bệnh
tim là “Chest Pain Type”. Các yếu tố quan trọng khác bao gồm Thal, CA và Exang.
Mô hình cây quyết định cho rằng “Trest Blood Pressure” là yếu tố yếu nhất trong khi
mô hình Naïve Bayes cho rằng đó là “Fasting Blood Sugar”. Mô hình Naïve Bayes
dường như là tốt hơn so với cây quyết định vì nó cho tầm quan trọng của tất cả các
thuộc tính đầu vào. Bác sĩ có thể sử dụng thông tin này để phân tích sâu hơn những
điểm mạnh và điểm yếu của các thuộc tính y tế liên quan đến bệnh tim.
Hình 7. Lưới phụ thuộc của cây quyết định
Hình 8. Lưới phụ thuộc của Naïve Bayes
Mục tiêu 3: Xác định các tác động và mối quan hệ giữa các thuộc tính y tế liên quan
đến trạng thái dự đoán bệnh tim. Xác định các tác động và mối quan hệ giữa các
thuộc tính y tế liên quan đến bệnh tim chỉ được tìm thấy tại cây quyết định viewer
(hình 9). Nó cung cấp cho xác suất cao nhất (99,61%) mà bệnh nhân có bệnh tim
được tìm thấy trong mối quan hệ giữa các thuộc tính (nút): “Chest Pain Type = 4 và
CA = 0 và Exang = 0 và Trest Blood Pressure > = 146,362 và <158,036”. Bằng cách
sử dụng các thông tin này, các bác sĩ có thể thực hiện kiểm tra sức khỏe trên bốn
thuộc tính thay vì trên tất cả các thuộc tính đối với những bệnh nhân có khả năng để
được chẩn đoán bị bệnh tim. Điều này sẽ làm giảm chi phí y tế, chi phí hành chính và
thời gian chẩn đoán. Thông tin về tác động ít nhất (5,88%) được tìm thấy trong mối
quan hệ giữa các thuộc tính: “Chest Pain Type != 4 và Sex = F”. Mối quan hệ giữa
các thuộc tính đối với bệnh nhân không có bệnh tim cũng được đưa ra. Các kết quả
cho thấy mối quan hệ giữa các thuộc tính: “Chest Pain Type != 4 và Sex = F” có tác
động cao nhất (92,58%). Ảnh hưởng ít nhất (0,2%) được tìm thấy trong các thuộc
tính: “Chest Pain Type = 4 và CA = 0 và Exang = 0 và Trest Blood Pressure > =
146,362 và <158,036”. Thông tin bổ sung như xác định bệnh nhân và hồ sơ y tế của
họ dựa trên các nút lựa chọn cũng có thể được truy cập bằng cách sử dụng khoan
thông qua chức năng. Các bác sĩ có thể sử dụng cây quyết định viewer để thực hiện
thêm các phân tích khác.
Hình 9. Viewer của cây quyết định
Mục tiêu 4: Xác định các đặc điểm của bệnh nhân bị bệnh tim. Chỉ mô hình Naïve
đã được phát triển bằng cách sử dụng ba kỹ thuật mô hình phân loại khai thác dữ liệu.
Nó trích xuất kiến thức ẩn từ một cơ sở dữ liệu lịch sử bệnh tim. Ngôn ngữ truy vấn
DMX và các hàm được sử dụng để xây dựng và truy cập các mô hình. Các mô hình
được huấn luyện và đánh giá dựa vào các bộ dữ liệu thử nghiệm. Các phương pháp
nâng Lift Chart và Classification Matrix đã được sử dụng để đánh giá sự hiệu quả của
các mô hình. Cả ba mô hình có thể trích xuất các mẫu để đáp ứng với tình trạng dự
đoán được. Các mô hình hiệu quả nhất để dự đoán bệnh nhân có thể bị bệnh tim là
Naïve Bayes tiếp theo là mạng Nơron và cây quyết định.
Năm mục tiêu khai phá dữ liệu được xác định dựa trên các thông tin nghiệp vụ và
khai thác dữ liệu. Các mục tiêu được đánh giá theo các mô hình huấn luyện. Cả ba mô
hình có thể trả lời các truy vấn phức tạp, mỗi mô hình có điểm mạnh riêng liên quan
đến giải thích mô hình dễ dàng, tiếp cận với thông tin chi tiết và chính xác. Naïve
Bayes có thể trả lời bốn trong năm mục tiêu; Cây quyết định: ba và mạng Nơron là
hai. Mặc dù không phải là mô hình hiệu quả nhất, các kết quả từ mô hình cây quyết
định thì dễ dàng hơn để đọc và giải thích. Mô hình Naïve Bayes thì tốt hơn so với cây
quyết định vì nó có thể xác định tất cả các dự đoán đáng kể. Mối quan hệ giữa các
thuộc tính được cung cấp bởi mô hình mạng Nơron thì khó hiểu hơn.
HDDSS có thể được mở rộng hơn nữa. Ví dụ, nó có thể kết hợp các kỹ thuật khác như
gom cụm (Clustering) và luật kết hợp (Association Rules). Nó cũng có thể sử dụng
Text Mining để khai thác số lượng lớn các dữ liệu phi cấu trúc có sẵn trong cơ sở dữ
liệu y tế, hoặc tích hợp Data Mining và Text Mining.
Tài liệu tham khảo:
[1] Sellappan Palaniappan, Rafiah Awang, “Web-Based Heart Disease Decision
Support System using Data Mining Classification Modeling Techniques” ,
Proceedings of iiWAS2007.