ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
HOÀNG VĂN TIẾN
KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG
Y TẾ DỰ PHÒNG
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
GIÁO VIÊN HƯỚNG DẪN
Đặng Thanh Hải
Hà Nội - 2018
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
HOÀNG VĂN TIẾN
KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG
Y TẾ DỰ PHÒNG
Ngành: Công nghệ thông tin
Chuyên ngành: Quản lý Hệ thống thông tin
Mã số: 8480205.01
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
người đã hướng dẫn tôi trong suốt quá trình thực hiện luận văn này. Nhờ sự hướng dẫn
và chỉ bảo tận tình của Thầy, tôi đã có được những kiến thức và kinh nghiệm quý báu
về cách xác định vấn đề nghiên cứu, phương pháp nghiên cứu, trình bày kết quả và
hoàn thành luận văn của mình.
Cuối cùng, tôi xin gửi lời cám ơn tới toàn thể gia đình, bạn bè và đồng nghiệp
đã luôn quan tâm, ủng hộ và động viên, giúp tôi có nghị lực phấn đấu để hoàn thành
tốt luận văn.
Hà Nội, ngày 02 tháng 10 năm 2018
Học viên
Hoàng Văn Tiến
xii
TÓM TẮT NỘI DUNG
Phân tích và dự báo từ lâu đã được ứng dụng trong mọi lĩnh vực nhằm đưa ra
những định hướng, chiến lược phát triển trong tương lai. Ngành Y tế không đứng
ngoài xu thế đó, đặc biệt là dự báo dịch bệnh truyền nhiễm từ lâu đã được các nhà
khoa học quan tâm nghiên cứu và ngày càng phát triển. Phân tích và dự báo dịch bệnh
truyền nhiễm được quan tâm vì những lợi ích rất lớn nó mang lại trong công tác phòng
ngừa dịch bệnh. Phân tích và dự báo diễn biến của dịch bệnh giúp chúng ta chủ động
trong công tác phòng ngừa, nhằm giảm thiểu những tổn hại do dịch bệnh gây ra. Việc
xác định được chu kỳ diễn biến của dịch bệnh truyền nhiễm dựa trên các yếu tố thời
gian, khí hậu và vùng địa lý rất được quan tâm. Nắm bắt chu kỳ diễn biến của dịch
bệnh, đưa ra dự báo và lên phương án ứng phó, khoanh vùng, dập dịch nhanh, không
để lây lan là hết sức quan trọng góp phần hạn chế tối đa hậu quả của dịch bệnh gây ra
cho con người.
Đề tài nghiên cứu trước hết tìm hiểu kiến thức nền tảng về khai phá dữ liệu, sau
đó tìm hiểu sâu các kỹ thuật khai phá dữ liệu tiên tiến đang nhận được nhiều sự quan
được đẩy mạnh.
Chính từ sự cấp thiết đó, học viên đã chọn đề tài “Khai phá dữ liệu và ứng
dụng trong y tế dự phòng” làm luận văn thạc sĩ của mình, nhằm góp phần công sức
nhỏ bé cho lĩnh vực y tế dự phòng có thêm một số giải pháp phân tích, dự báo hiệu quả
dịch bệnh truyền nhiễm hiện nay, góp phần nâng cao ứng dụng công nghệ thông tin
trong lĩnh vực y tế đặc biệt là lĩnh vực y tế dự phòng. Nội dung luận văn tập trung vào
những phần sau:
Chương 1: Giới thiệu về lĩnh vực y tế dự phòng
Trong chương này giới thiệu tổng quan về lĩnh vực y tế dự phòng, lịch sử hình
thành và phát triển của y tế dự phòng. Nội dung Chương 1 cũng sẽ giới thiệu thực
trạng bùng phát và mô hình dịch bệnh truyền nhiễm hiện nay.
Chương 2: Các phương pháp và công cụ khai phá dữ liệu
Nội dung được trình bày tại chương này xoay quanh khái niệm, tính chất cơ bản
của các phương pháp khai phá dữ liệu phổ biến hiện nay. Đồng thời, qua đó đề xuất
một phương pháp và công cụ phù hợp khai phá tập dữ liệu dịch bệnh cúm được công
bố bởi Google Flu Trends.
Chương 3: Phương pháp phân tích và dự báo với chuỗi dữ liệu thời gian
Đi sâu vào kỹ thuật phân tích chuỗi dữ liệu chuỗi thời gian (time series data) và
áp dụng kỹ thuật này với tập dữ liệu dịch bệnh cúm do Google Flu Trends công bố trên
mô hình ARIMA.
Chương 4: Thực nghiệm và đánh giá
Phân tích và đưa ra kết quả dự báo dựa trên tập dữ liệu Google Flu Trends công
xiv
bố dịch bệnh cúm, sử dụng các phương pháp phân tích chuỗi dữ liệu thời gian và công
cụ khai phá dữ liệu.
Phần kết luận nêu ra những kết quả đã đạt được, những đóng góp của luận văn
và định hướng phát triển nghiên cứu trong tương lai để nâng cao tính ứng dụng thực tế
2.2.1. Hồi quy (Regression) ...........................................................................................11
2.2.2. Kết hợp (Association) ..........................................................................................12
2.2.3. Phân lớp (Classification) .....................................................................................13
2.2.4. Phân cụm (Clustering) .........................................................................................13
2.3. Dữ liệu chuỗi thời gian (time series data) .............................................................. 13
xvi
2.4. Các công cụ, phần mềm hỗ trợ khai phá dữ liệu .................................................... 14
2.4.1. Phân tích số liệu bằng phần mềm Weka ..............................................................14
2.4.2. Giới thiệu về SPSS (Statistical Product and Services Solutions) ........................16
2.4.3. Phân tích số liệu bằng R ......................................................................................16
Tóm tắt chương 2...........................................................................................................17
CHƯƠNG 3. PHƯƠNG PHÁP PHÂN TÍCH VÀ DỰ BÁO ....................................... 19
VỚI CHUỖI DỮ LIỆU THỜI GIAN ............................................................................ 19
3.1. Dữ liệu chuỗi thời gian ........................................................................................... 19
3.2. Tính dừng của dữ liệu chuỗi thời gian ................................................................... 21
3.2.1. Kiểm tra tính dừng chuỗi thời gian .....................................................................21
3.2.2. Biến đổi chuỗi không dừng thành chuỗi dừng ....................................................22
3.3. Mô hình ARIMA .................................................................................................... 22
3.3.1. Mô hình tự hồi quy AR (Autoregressive process) ..............................................23
3.3.2. Mô hình trung bình trượt MA (Moving Average) ...............................................23
3.3.3. Mô hình trung bình trượt và tự hồi quy ARMA (Autoregressive Moving
Average) ........................................................................................................................23
3.3.4. Mô hình trung bình trượt tự hồi quy ARIMA (Autoregressive Intergrated
Moving Average) ...........................................................................................................24
3.3.5. Dự báo dữ liệu chuỗi thời gian ............................................................................24
Tóm tắt chương 3...........................................................................................................26
CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ ......................................................... 27
Hình 2.5. Giao diện SPSS............................................................................................. 16
Hình 2.6. Giao diện phần mềm R ................................................................................. 17
Hình 3.1. Số liệu diễn biến cúm tại phía Nam Châu phi từ năm 2006 đến 2015 ......... 19
Hình 3.2. Biểu diễn xu hướng giảm của dữ liệu........................................................... 19
Hình 3.3. Biểu diễn thay đổi chuỗi thời gian theo từng khoảng thời gian ................... 20
Hình 3.4. Biểu diễn chu kỳ chuỗi thời gian .................................................................. 20
Hình 3.5. Sơ đồ chuỗi thời gian với định lượng Y(t) theo diễn biến thời gian t .......... 20
Hình 3.6. Các bước chính trong phương pháp Box‐Jenkins ........................................ 26
Hình 4.1. Biểu đồ so sánh dữ liệu dự báo của Google Flu Trends và Trung tâm kiểm
soát và phòng ngừa các chứng bệnh của Mỹ ................................................................ 28
Hình 4.2. Mẫu dữ liệu bệnh cúm của 25 nước trên thế giới được tổng hợp từ 2003 đến
2015 .............................................................................................................................. 29
Hình 4.3. Cài đặt gói thư viện ...................................................................................... 31
Hình 4.4. Nạp dữ liệu ................................................................................................... 32
Hình 4.5. Tập dữ liệu cúm của Argentina .................................................................... 32
Hình 4.6. Tập dữ liệu cúm của Argentina năm 2004 ................................................... 33
Hình 4.7. Diễn biến cúm năm 2004 của Argentina theo tháng .................................... 33
Hình 4.8. Dữ liệu cúm của năm 2004 Argentina được làm sạch ................................. 34
Hình 4.9. Diễn biến cúm Argentina năm 2014 được làm sạch .................................... 35
Hình 4.10. So sánh số liệu bệnh cúm của Argentina với dữ liệu được làm mịn .......... 36
Hình 4.11. Sơ đồ dữ liệu được phân tách theo thành phần tính thời vụ, xu hướng và
chu kỳ ........................................................................................................................... 36
Hình 4.12. Mô hình ACF .............................................................................................. 37
Hình 4.13. Mô hình PACF ........................................................................................... 38
Hình 4.14. Mô hình kiểm tra với d = 1 ....................................................................... 38
Hình 4.15. Mô hình ACF với d = 1 ............................................................................. 39
Hình 4.16. Mô hình PACF với d = 1 ........................................................................... 39
Hình 4.17. Mô hình ARIMA (1, 1, 1) ............................................................................ 40
xix
Autoregressive integrated moving Tự hồ i quy tích hơ ̣p trung
average
bin
̀ h trươ ̣t
2.
ACF
Autocorrelation function
Chức năng tự tương quan
3.
PACF
Partial autocorrelation plots
Sự tự tương quan thành phần
4.
BI
Business intelligence
Thông minh nghiệp vụ
Trung bình trượt
9.
ARMA
Autoregressive moving average
Trung bình trượt tự hồi quy
10. GDP
Gross domestic product
Tổng sản phẩm quốc nội
11. CDC
Centers for disease control and Trung tâm kiểm soát và phòng
prevention
ngừa dịch bệnh
xxii
DANH SÁCH CÁC THUẬT NGỮ
TT
Thuật ngữ tiếng Anh
Đơn vị lưu trữ trên máy tính
6.
HD
Độ phân giải cao hay độ nét cao
7.
CPU
Bộ vi xử lý trung tâm
8.
RAM
Bộ nhớ truy cập ngẫu nhiên
9.
OS
Hệ điều hành
xxiii
theo đó là phương pháp phòng bệnh [9]. Chủng ngừa bệnh lây nhiễm đã được phát
minh vào năm 1798 [9]. Điểm đáng chú ý vào những năm đầu của Thế kỷ 19 là đã
phát hiện được nguyên nhân lây truyền các bệnh như sốt, thương hàn, bệnh tả và uốn
ván [9]. Trong cùng thời kỳ, các nhà nghiên cứu dành nhiều sự quan tâm đến các vấn
đề vệ sinh dịch tễ và dinh dưỡng.
Kỷ nguyên hiện đại trong y học dự phòng được mở ra vào giữa Thế kỷ 19 với sự
khám phá của Louis Pasteur về vai trò của các vi khuẩn sống như là nguyên nhân gây
ra bệnh nhiễm trùng [9]. Cũng cuối Thế kỷ này, vai trò truyền bệnh do côn trùng đã
1
được xác định [9]. Xét nghiệm huyết thanh học đã được phát hiện bởi Widal, bằng
việc tìm ra phản ứng ngưng kết đối với huyết thanh người mắc bệnh thương hàn năm
1896 và thử nghiệm Wassermann cho bệnh giang mai năm 1906 [9]. Với việc khám
phá ra các nguyên tắc miễn dịch của cơ thể con người đã dẫn đến sự phát triển của việc
tiêm chủng chủ động để phòng ngừa các bệnh cụ thể [9]. Bên cạnh đó, những tiến bộ
trong điều trị đã mở ra những cách khác để dự phòng bệnh bạch hầu bằng thuốc kháng
sinh và bệnh giang mai bằng arsphenamine [9]. Năm 1932, các thuốc sulfonamide và
sau đó là kháng sinh bao gồm penicillin, streptomycin, chlortetracycline và
chloramphenicol tạo ra cơ hội mới để phòng ngừa và chữa trị các bệnh do các vi khuẩn
khác nhau gây ra [9].
Sau năm 1900, có thêm nhiều tiến bộ khác trong lĩnh vực y học dự phòng, việc sử
dụng tia X và các chất phóng xạ trong chẩn đoán và điều trị bệnh (ví dụ như bệnh lao
và ung thư) cũng như trong nghiên cứu sinh lý cơ bản đã mở ra những khả năng mới
[9]. Sự hiểu biết sâu hơn về các chức năng nội tiết, với việc sản xuất các chiết xuất
hoocmôn có sẵn như insulin, dẫn đến các biện pháp phòng ngừa các bệnh chuyển hóa
nhất định [9]. Vai trò của dinh dưỡng trong sức khoẻ và bệnh tật và của nhiều yếu tố
thực phẩm thiết yếu đối với sức khoẻ của chế độ ăn uống hợp lý [9]. Những tiến bộ
khác của Thế kỷ 20 trong lĩnh vực y tế dự phòng bao gồm sự thừa nhận rộng hơn các
yếu tố tâm lý liên quan đến tổng thể sức khoẻ con người, các kỹ thuật phẫu thuật,
1.2. Dịch bệnh
Bệnh là tình trạng bất thường, ảnh hưởng xấu đến cấu trúc hoặc chức năng của một
phần hoặc toàn bộ cơ thể con người, nhưng không do chấn thương nào từ bên ngoài
gây ra [5]. Một căn bệnh có thể do các yếu tố bên ngoài như tác nhân gây bệnh hoặc
rối loạn chức năng nội bộ gây ra [5]. Ví dụ, rối loạn chức năng nội bộ của hệ thống
miễn dịch có thể tạo ra nhiều bệnh khác nhau, bao gồm các dạng suy giảm miễn dịch,
mẫn cảm, dị ứng và rối loạn tự miễn dịch.
Trên cơ thể người, khái niệm bệnh được sử dụng để chỉ tình trạng gây đau đớn, rối
loạn chức năng, sang chấn tâm lý hoặc tử vong của người bị bệnh, hoặc các vấn đề
tương tự đối với những người tiếp xúc với người bệnh đó [5]. Theo nghĩa rộng hơn,
đôi khi nó bao gồm những thương tích, khuyết tật, rối loạn, hội chứng, nhiễm trùng,
triệu chứng bị cô lập, hành vi sai lệch (không làm chủ được hành vi) và các biến thể
không điển hình của cấu trúc và chức năng trên cơ thể. Có bốn loại bệnh chính: bệnh
truyền nhiễm, bệnh thiếu hụt vi chất, bệnh di truyền và bệnh sinh lý [5]. Bệnh cũng có
thể được phân loại theo những cách khác, chẳng hạn như các bệnh truyền nhiễm và
không lây nhiễm [5].
Dịch bệnh là bệnh được lan truyền nhanh chóng và ảnh hưởng đến số lượng lớn
người trong vòng một thời gian rất ngắn [5]. Khi có dịch bệnh xuất hiện các cơ quan
kiểm soát dịch bệnh thực hiện các biện pháp nghiệm vụ trong thẩm quyền quản lý để
khoang vùng, khống chế dịch. Ví dụ, với bệnh sởi khi số lượng mắc lớn hơn 15 trường
hợp trên 100.000 người trong thời gian hai tuần liên tiếp có thể đưa ra cảnh báo dịch
bệnh truyền nhiễm.
Trong những năm gần đây, chúng ta phải đối mặt với tình hình dịch bệnh hoành
hành, bùng phát nhanh chóng và diễn biến phức tạp, đặc biệt là các dịch bệnh nguy
hiểm, Ebola, MERS-CoV liên tục gia tăng, dịch bệnh cúm A(H5N1), A(H7N9)... chưa
khống chế được triệt để; bệnh do vi rút Zika lây truyền mạnh mẽ. Nhiều bệnh truyền
nhiễm trước đây đã bị khống chế, nhưng gần đây bùng phát và gia tăng trở lại như: tay
chân miệng, sốt xuất huyết, bại liệt, sởi... Chỉ tính riêng năm 2017, trên thế giới tình
hình dịch bệnh diễn biến phức tạp, xuất hiện nhiều dịch bệnh mới; số ca mắc cúm
3
chủng loại mới, đặc biệt tại các vùng có điều kiện khí hậu khắc nghiệt. Bên cạnh việc
nghiên cứu để tìm ra nguyên nhân và yếu tố gây nên sự bùng phát của dịch bệnh, cần
phải ứng dụng các kỹ thuật dự báo khác nhau để xây dựng mô hình dự báo dịch bệnh,
dựa trên tác động của các yếu tố điều kiện tự nhiên, khí hậu, môi trường..., nhằm đưa
ra cảnh báo sớm diễn biến dịch bệnh trong tương lại, chủ động triển khai các công tác
nghiệp vụ, qua đó giúp giảm thiểu nguy cơ và thiệt hại của dịch bệnh đến con người.
Trong những năm gần đây, cùng với sự phát triển bùng nổ của Internet làm gia tăng
các nguồn dữ liệu, trong đó có dữ liệu dịch bệnh, khí hậu, thời tiết,… được thu thập
thường xuyên từ khắp nơi trên thế giới, đó là một điều kiện lý tưởng cho công tác dự
báo, bên cạnh đó sự phát triển của các phương pháp và kỹ thuật dự báo đem lại cơ hội
mới cho sự bùng nổ hoạt động phân tích và dự báo dịch bệnh trong lĩnh vực y tế.
4
1.4. Thực trạng nghiên cứu dự báo trong y tế dự phòng
Đến nay, có nhiều mô hình dự báo dịch bệnh được xây dựng và ứng dụng trong
lĩnh vực y tế. Ví dụ, mô hình toán học của bệnh sốt rét được bắt đầu nghiên cứu năm
1911 với mô hình của Ross và được cải tiến bởi Macdonald năm 1957. Gần đây, có rất
nhiều mô hình nghiên cứu bệnh sốt rét như: mô hình dịch tễ toán học SIR (Susceptible
– Infected – Recovered) và SIS (Susceptible – Infected - Susceptible) với tư tưởng
chính là xây dựng mô hình dự báo sự lan truyền của bệnh thông qua số người và số
muỗi bị nhiễm bệnh. Qua tham khảo, nhận thấy các phương pháp dự báo dịch bệnh
ban đầu đều dựa trên mô hình lan truyền dịch bệnh, điển hình cho tư tưởng này là mô
hình SIR. Ý tưởng của mô hình này là phân tách tổng số người trong một khu vực bị
nhiễm bệnh thành 3 lớp, trong đó:
- Lớp dễ bị bệnh S: Những người trong lớp này chưa hề mắc bệnh và có nguy cơ
bị nhiễm bệnh.
- Lớp nhiễm bệnh I: Những người trong lớp này đã mắc bệnh và có khả năng
truyền bệnh sang người khác.
- Lớp hết bệnh R: Những người trong lớp này đã được trị khỏi bệnh hoặc đã chết vì
thời gian tương lai. Mô hình dịch tễ học toán học có thể áp dụng thành công và cho kết
5
quả lý tưởng trên những hệ thống không quá phức tạp.
Trong thời gian gần đây, kỹ thuật và mô hình phân tích chuỗi thời gian (timeseries) được sử dụng rộng rãi, nghiên cứu dự báo trong các lĩnh vực khác nhau và dự
báo diễn biến dịch bệnh trong tương lai. Việc sử dụng mô hình phân tích chuỗi thời
gian, khắc phục được các nhược điểm của mô hình hồi quy luận lý (logistic), hồi quy
đa biến, do không thể xem xét tính tự tương quan của những dữ liệu mang tính chuỗi
thời gian, làm hạn chế khả năng dự đoán. Nhằm cải thiện độ chính xác trong thiết lập
mô hình cảnh báo dịch bệnh, một số nhà nghiên cứu đã tiến hành kết hợp kỹ thuật
phân tích chuỗi thời gian và các mô hình dự báo, nhằm xác định ảnh hưởng của điều
kiện địa lý, thời gian,… tới số ca mắc một bệnh nào đó. Từ các phân tích nêu trên, luận
văn thực hiện nghiên cứu kết hợp mô hình ARIMA và với các kỹ thuật phân tích chuỗi
thời gian để thiết lập mô hình dự báo thống nhất. Các kỹ thuật khai phá dữ liệu được
đề cập chi tiết tại Chương 2, nhằm đưa ra phân tích và lựa chọn kỹ thuật khai phá dữ
liệu phù hợp với chuỗi dữ liệu thời gian.
1.5. Mục tiêu nghiên cứu
Từ các phân tích ở trên luận văn này tập trung nghiên cứu hệ thống hóa các kỹ
thuật khai phá dữ liệu, lựa chọn các phương pháp phù hợp nhằm xây dựng mô hình
giải quyết bài toán phân tích và dự báo dự báo dịch bệnh truyền nhiễm. Mô hình nhận
đầu vào là tập dữ liệu về tình hình dịch bệnh trong quá khứ, và có đầu ra là mô hình dự
báo diễn biến dịch bệnh trong tương lai, qua đó giúp nhận định chu kỳ, xu hướng diễn
biến của dịch bệnh.
Từ mục tiêu trên, luận văn tập trung nghiên cứu các vấn đề sau:
- Nghiên cứu tổng quan các phương pháp và kỹ thuật khai phá dữ liệu, lựa chọn
phương pháp thích hợp với tập dữ liệu dịch bệnh truyền nhiễm;
- Tiến hành thực nghiệm phân tích, dự báo dịch cúm với các phương pháp khai phá
dữ liệu được lựa chọn trên tập dữ liệu dịch cúm được công bố;
- Xây dựng mô hình dự báo phù hợp và hiệu quả trong công tác dự báo dịch cúm
2.1. Khai phá dữ liệu
2.1.1. Khái niệm
Khai phá dữ liệu là quá trình trích xuất thông tin bên trong bộ dữ liệu lớn để xác
định các mẫu và thiết lập các mối quan hệ để giải quyết các vấn đề thông qua phân tích
dữ liệu [6]. Công cụ khai thác dữ liệu cho phép chúng ta dự đoán xu hướng trong
tương lai dựa trên bộ dữ liệu đang có.
Bên cạnh cái tên khai phá dữ liệu người ta còn dùng một số tên gọi khác như: khai
phá tri thức từ cơ sở dữ liệu, phân tích dữ liệu, trích lọc dữ liệu,…. Khai phá dữ liệu
bao gồm 5 bước sau:
Hình 2.1. Các bước khai phá dữ liệu
Bước 1) Lựa chọn: tại bước này, những dữ liệu trực tiếp liên quan đến yêu cầu sẽ
được thu thập từ các tập dữ liệu gốc ban đầu.
Bước 2) Tiền xử lý: dữ liệu tại bước này được làm sạch (xử lý tập dữ liệu không
đầy đủ, dữ liệu có nhiễu, dữ liệu không nhất quán,…), kết quả của bước này ta sẽ có
một tập dữ liệu nhất quán, đầy đủ, được rút gọn.
Bước 3) Đổi dạng: chuyển dữ liệu về dạng phù hợp cho việc khai phá, dữ liệu sau
khi làm sạch tại bước tiền xử lý thậm chí không phải là đã sẵn sàng cho khai thác, khi
8
đó chúng ta cần phải biến đổi chúng thành các hình thức thích hợp.
Bước 4) Khai phá dữ liệu: đây là giai đoạn chính, trong đó các phương pháp phân
tích dữ liệu phù hợp sẽ được áp dụng để trích xuất ra các mẫu dữ liệu dựa vào các tập
dữ liệu ban đầu.
Bước 5) Trình diễn: sử dụng các kỹ thuật, công cụ để biểu diễn trực quan hoá dữ
liệu được khai phá cho người sử dụng.
2.1.2. Ưu điểm của khai phá dữ liệu với các phương pháp khác
2.1.2.1. Học máy (machine learning)
Phương pháp học máy đã có nhiều cải tiến để phù hợp hơn với khai phá dữ liệu,
xây dựng các tập luật. Các ví dụ chuyên gia đưa ra có giá trị cao hơn nhiều so với dữ
liệu trong cơ sở dữ liệu. Hơn nữa, các chuyên gia sẽ xác nhận giá trị và sự hữu dụng
của các mẫu được phát hiện. Ở phương pháp này đòi hỏi có sự tham gia của con người
mà cụ thể là các chuyên gia với kinh nghiệm của mình trong việc phát hiện tri thức.
2.1.3. Những khó khăn trong khai phá dữ liệu
Khi khai phá dữ liệu gặp phải những thách thức sau đây:
- Cơ sở dữ liệu lớn: Kích thước của cơ sở dữ liệu được xác định thông qua số lượng
các mẫu tin, các thuộc tính (hay các biến) và các bảng, số lượng có thể là hàng trăm
thuộc tính và bảng, hàng triệu các mẫu tin. Như vậy, kích thước của cơ sở dữ liệu tính
bằng terabyte đã bắt đầu xuất hiện. Dữ liệu với số chiều cao (tương ứng với thuộc tính
khi biểu diễn qua không gian các mẫu dữ liệu) làm gia tăng kích thước không gian tìm
kiếm trong mô hình quy nạp. Khi xây dựng mô hình chỉ một tập con trong cơ sở dữ
liệu tham gia, do vậy trong các thuật toán khai phá là các mẫu dữ liệu tìm được đôi khi
không có giá trị đại diện chung cho toàn bộ cơ sở dữ liệu. Một giải pháp cho vấn đề
này là giảm bớt số chiều của bài toán và sử dụng tri thức trước (prior knowledge) để
nhận biết các biến ít liên quan.
- Vấn đề over-fitting: Khi thuật toán khai phá tìm kiếm với các tham số tốt nhất cho
một mô hình đặc biệt và một giới hạn của tập dữ liệu, mô hình ấy có thể over-fitting
trên tập dữ liệu ấy nhưng lại thi hành không chính xác trên tập dữ liệu được kiểm tra.
Một giải pháp thường được sử dụng là thẩm định chéo.
- Dữ liệu và tri thức được cập nhật, thay đổi: Dữ liệu thay đổi nhanh chóng theo
thời gian dẫn đến những mẫu dữ liệu đã được khai phá trước đây không còn giá trị.
Thêm vào đó, các biến đã được đo trong cơ sở dữ liệu bị thay đổi, bị xóa hoặc đã tăng
lên với một độ đo mới. Điều này có thể được thực hiện bằng cách gia tăng các phương
thức cập nhật mẫu và xem xét các thay đổi cho việc khám phá bằng việc sử dụng nó để
xử lý thích hợp việc tìm kiếm các mẫu chỉ với sự thay đổi.
- Dữ liệu thiếu và nhiễu: Đây là vấn đề rất được quan tâm trong khai phá dữ liệu,
việc dữ liệu thiếu và nhiễu thường dẫn đến việc dự đoán thiếu chính xác.
- Tích hợp với hệ thống: Hệ thống khai phá dữ liệu thực sự là hữu ích khi phải