ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
BÁO CÁO THU HOẠCH MÔN HỆ HỖ TRỢ QUYẾT ĐỊNH
PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG
Y HỌC TRONG CHẨN ĐOÁN BỆNH
TIM Ở NGƯỜI
NHÓM HỌC VIÊN : HÀ THANH NHẤT (CH1301104)
TRẦN QUỐC CƯỜNG (CH1301082)
GVHD : PGS. TS ĐỖ PHÚC
TPHCM, THÁNG 6 NĂM 2014
Hệ hỗ trợ quyết định
GVHD: PGS. TS Đỗ Phúc
Mục lục
Trang
Hà Thanh Nhất – Trần Quốc Cường Trang 2
Hệ hỗ trợ quyết định
GVHD: PGS. TS Đỗ Phúc
1 Lời giới thiệu
- Ngày nay, công nghệ thông tin đã tạo ra một cuộc cách mạng khoa học kỹ thuật có ảnh
hưởng lớn trên toàn thế giới, đã và đang giúp thay đổi toàn diện và hiệu quả trong tất cả các
lĩnh vực như: khoa học, kinh tế, chính trị, xã hội, giáo dục, y tế …
- Chiến lược đưa công nghệ thông tin vào tất cả các lĩnh vực để phục vụ tốt cho việc quản lý,
điều hành đã đem những lợi ích to lớn và đạt được những thành công nhất định.
- Sức mạnh của công nghệ thông tin không chỉ nằm ở mức quản lý, điều hành mà nó còn nâng
lên một tầm cao mới: hỗ trợ giúp con người đưa ra những quyết định dựa trên việc phân tích
dữ liệu.
- Trong lĩnh vực kinh tế, việc hỗ trợ quyết định sẽ đưa ra cho các doanh nghiệp có các chiến
lược kinh doanh để thu về lợi nhuận cao, đạt được thế cạnh tranh nhất định …
- Trong lĩnh vực ngân hàng, hỗ trợ quyết định giúp ta phân loại các khách hàng sử dụng dịch
vụ thẻ, từ đó, ngân hàng sẽ có những gói sản phẩm dành cho mỗi khách hàng hoặc trong xử
- Một thách thức lớn phải đối mặt với các tổ chức chăm sóc sức khỏe(bệnh viện, trung tâm y
tế) là cung cấp các dịch vụ chất lượng với giá cả phải chăng. Chất lượng dịch vụ ở đây có
nghĩa là chuẩn đoán đúng bệnh và điều trị hiệu quả. Quyết định lâm sàng không chính xác có
thể sẽ dẫn đến những hậu quả nghiêm trọng. Ngoài ra, các bệnh viện cũng cần phải tìm cách
để giảm thiểu chi phí thử nghiệm lâm sàng. Để đạt được các kết quả này, chúng ta có thể sử
dụng thông tin bệnh án được lưu trữ trong máy tính hoặc cao hơn là sử dụng các hệ thống hỗ
trợ ra quyết định.
- Dữ liệu về chăm sóc y tế sức khỏe là rất lớn. Nó bao gồm các dữ liệu về bệnh nhân, trang
thiết bị, nguồn nhân lực, hồ sơ bệnh án, quá trình khám chữa bệnh … Vì thế, tổ chức chăm
sóc sức khỏe cần phải có công cụ để có khả năng phân tích được lượng dữ liệu cực lớn này.
- Hồ sơ về bệnh án của hàng triệu bệnh nhân có thể được lưu trữ, tính toán và khai thác để có
thể trả lời cho một số câu hỏi quan trọng liên quan đến chăm sóc sức khỏe.
- Với việc có sẵn một lượng lớn thông tin qua kho dữ liệu, đã làm nên sự thay đổi nhận thức
của các bác sĩ, bệnh nhân và người chi trả viện phí từ việc quan sát trực tiếp dữ liệu lâm sàng
đòi hỏi một cách đánh giá định lượng hơn là thông tin với sự hỗ trợ của tất cả các dữ liệu lâm
sàng và hình ảnh đi kèm. Chuẩn đoán y tế được coi là một nhiệm vụ phức tạp nhưng quan
trọng hơn hết vẫn là chính xác và hiệu quả. Vì thế, việc tự động hóa chuẩn đoán trong trường
hợp này sẽ rất có lợi.
- Các quyết định lâm sàng thường được thực hiện dựa trên trực giác và kinh nghiệm của bác sĩ
chứ không dựa trên các dữ liệu về bệnh án sẵn có. Điều này, có khi dẫn đến kết quả không
mong muốn (cùng một kết quả kết nghiệm nhưng chuẩn đoán của các bác sĩ có khi là khác
nhau), chi phí có lúc tăng lên (vì phải làm thêm một số xét nghiệm mà đôi khi không cần
thiết).
- Dựa vào các vấn đề đã nêu ở trên, việc đề xuất tích hợp hỗ trợ quyết định lâm sàng dựa trên
dữ liệu về bệnh án có thể làm giảm sai sót trong việc chuẩn đoán, tăng niềm tin của bệnh
nhân, giảm các chi phí xét nghiệm không cần thiết.
- Trong bài thu hoạch này, nhóm sẽ trình bày về kỹ thuật phân lớp trong data mining để dự
đoán bệnh tim sử dụng các thuật toán để chạy và so sánh.
Hà Thanh Nhất – Trần Quốc Cường Trang 4
Hệ hỗ trợ quyết định
Hệ hỗ trợ quyết định
GVHD: PGS. TS Đỗ Phúc
Hình 3.: KDD - Knowledge Discovery in Databases
3.2 Các kỹ thuật trong khai phá dữ liệu
- Hiện nay, có rất nhiều các kỹ thuật được áp dụng để khai thác dữ liệu như: phân lớp, gom
cụm, trí tuệ nhân tạo, mạng nơ-ron, luật kết hợp, mẫu tuần tự, cây quyết định, thuật giải di
truyền … Trong phạm vi bài thu hoạch này, nhóm xin chỉ trình bày lý thuyết về phân lớp dữ
liệu vì đây là kỹ thuật được áp dụng để chuẩn đoán bệnh tim trong bài báo cáo này.
Phân lớp dữ liệu
- Phân lớp là kỹ thuật khai thác dữ liệu phổ biến nhất thường được áp dụng, trong đó sử dụng
một tập các dữ liệu đã biết phân lớp trước để phát triển mô hình dự đoán. Khi việc học hoàn
tất, hệ thống có thể dự đoán được nhãn của mẫu tin chưa biết. Cách tiếp cận này thường sử
dụng cây quyết định hoặc mạng nơ-ron.
- Quá trình phân lớp dữ liệu liên quan đến việc học và phân loại. Dữ liệu huấn luyện được
phân tích bởi thuật toán phân lớp. Dữ liệu thử nghiệm thì được dùng để ước lượng độ chính
xác của mô hình. Nếu độ chính xác có thể chấp nhận được thì các luật sinh ra có thể áp dụng
cho bộ dữ liệu mới.
- Các mô hình phân lớp có thể áp dụng:
Phân lớp theo cây quyết định
Phân lớp theo Bayes
Phân lớp theo mạng nơ-ron
Phân lớp theo SVM
Phân lớp dựa trên luật
Hà Thanh Nhất – Trần Quốc Cường Trang 6
Hệ hỗ trợ quyết định
GVHD: PGS. TS Đỗ Phúc
4 Ứng dụng phân lớp dữ liệu trong y học về việc chẩn đoán
bệnh tim
- Bệnh tim , bệnh động mạch vành, bệnh tim mạch vành hay bệnh tim thiếu máu cục bộ là một
khái niệm rộng chỉ những chứng bệnh ảnh hưởng đến tim. Để phát triển hệ thống hỗ trợ
tuổi
sex {0 ; 1}
1: nam, 0: nữ
painloc {0 ; 1}
vị trí lồng ngực
1: dưới xương ức
0: ngược lại
painexer {0 ; 1}
1: rối loạn khi làm việc
quá sức
0: ngược lại
relrest {0 ; 1}
1: căng thẳng khi nghỉ
ngơi
0: ngược lại
pncaden {0 ; 1 ; 2 ; 3}
tổng các giá trị của
thuộc tính painloc,
painexer, relrest
Hà Thanh Nhất – Trần Quốc Cường Trang 7
Hệ hỗ trợ quyết định
GVHD: PGS. TS Đỗ Phúc
cp {1 ; 2 ; 3 ; 4}
các kiểu đau ngực
1: đau nhẹ
2: đau vừa
3: đau không thắt ngực
1: sóng ST-T bất
thường
2: phì đại tâm thất trái
ekgmo từ 1 đến 12 tháng đo điện tâm đồ
ekgday từ 1 đến 31 ngày đo điện tâm đồ
ekgyr giá trị liên tục năm đo điện tâm đồ
dig {0 ; 1}
prop {0 ; 1}
nitr {0 ; 1}
pro {0 ; 1}
diuretic {0 ; 1}
proto từ 1 đến 12
các bài tập thể dục
1: bruce
2: kottus
3: McHenry
4: fast Balke
5: Balke
6: Noughton
7: bike 150 kpa/min
8: bike 125 kpa/min
9: bike 100 kpa/min
10: bike 75 kpa/min
11: bike 75 kpa/min
12: arm ergometer
thaldur giá trị liên tục
thaltime giá trị liên tục
met giá trị liên tục
thalach giá trị liên tục
restckm giá trị liên tục
exerckm giá trị liên tục
restef giá trị liên tục
restwm {0 ; 1 ; 2 ; 3}
exeref
exerwm
thal {3 ; 6 ; 7}
thalsev
thalpul
cmo từ 1 đến 12
cday từ 1 đến 31
cyr giá trị liên tục
num {0 ; 1}
thuộc tính phân lớp
1: trên 50% mắc
bệnh tim
0: dưới 50% mắc
bệnh tim
lmt
ladprox
laddist
diag
cxmain
ramus
om1
om2
rcaprox
rcadist
Hà Thanh Nhất – Trần Quốc Cường Trang 10
Hệ hỗ trợ quyết định
GVHD: PGS. TS Đỗ Phúc
Hình 5.: Kết quả thử nghiệm phân lớp sử dụng thuật toán NaviesBayes
Mạng Nơ-ron (RBF Network)
Tổng số mẫu: 294
Số phân lớp dự đoán đúng: 244 (82.9932 %)
Số phân lớp dự đoán sai: 50 (17.0068 %)
Hà Thanh Nhất – Trần Quốc Cường Trang 11
Hệ hỗ trợ quyết định
GVHD: PGS. TS Đỗ Phúc
Hình 5.: Kết quả thử nghiệm phân lớp sử dụng thuật toán RBF Network
Cây quyết định (C4.5 – trongWeka gọi là J48)
Tổng số mẫu: 294
Số phân lớp dự đoán đúng: 233 (79.2517 %)
Số phân lớp dự đoán sai: 61 (20.7483 %)
Hà Thanh Nhất – Trần Quốc Cường Trang 12
Hệ hỗ trợ quyết định
GVHD: PGS. TS Đỗ Phúc
Hình 5.: Kết quả thử nghiệm phân lớp sử dụng thuật toán C4.5 (J48)
- Cây quyết định sau khi đã tỉa bớt nhánh
Hình 5.: Cây quyết định sinh ra khi dùng thuật toán C4.5 (J48)
Hà Thanh Nhất – Trần Quốc Cường Trang 13
Hệ hỗ trợ quyết định
GVHD: PGS. TS Đỗ Phúc
5.2 Đánh giá
Dựa vào kết quả thu được, ta tóm tắt lại thành bảng sau:
Tập dữ liệu sử dụng: Hungarian
Tổng số mẫu: 294
Tổng số thuộc tính: 14