Các hệ cơ sở tri thức Cross Validation
Nguyễn Thị Ngọc Thanh – CH1101132 Page 1
Cross Validation – Phương pháp thống kê đánh giá và so sánh
các thuật toán máy học
1. Giới thiệu
Việc đánh giá hiệu năng hệ thống máy học thường được thực hiện dựa trên thực
nghiệm (experimentally), hơn là dựa trên phân tích (analytically). Xem qui trình
phân tích hệ thống máy học trong hình 1. Các đánh giá phân tích (analytical
evaluation) nhằm chứng minh một hệ thống là đúng đắn (correct) và hoàn chỉnh
(complete). Ví dụ, các bộ chứng minh định lý trong Logics. Ta không thể xây
dựng một đặc tả (định nghĩa) hình thức của vấn đề mà một hệ thống máy học giải
quyết. Đối với bài toán máy học, để đánh giá hiệu năng của hệ thống ta cần có các
điều kiện sau:
- Thực hiện một cách tự động, sử dụng một tập các ví dụ (tập thử nghiệm)
- Không cần sự tham gia (can thiệp) của người dùng. Hình 1: Phân tích bộ phân lớp
Để thu được một đánh giá đáng tin cậy về hiệu năng của hệ thống, ta cần có:
- Tập huấn luyện càng lớn, thì hiệu năng của hệ thống học càng tốt
Các hệ cơ sở tri thức Cross Validation
Nguyễn Thị Ngọc Thanh – CH1101132 Page 2
- Tập kiểm thử càng lớn, thì việc đánh giá càng chính xác
Tuy nhiên, rất khó (ít khi) có thể có được các tập dữ liệu (rất) lớn. Trong đó, hiệu
năng của hệ thống không chỉ phụ thuộc vào giải thuật học máy được sử dụng, mà
còn phụ thuộc vào:
- Phân bố lớp (Class distribution)
- Chi phí của việc phân lớp sai (Cost of misclassification)
- Kích thước của tập huấn luyện (Size of the training set)
hoặc từ việc đo đạc tính toán.
Xác định việc biễu diễn các đặc trưng đầu vào cho hàm chức năng cần
tìm. Sự chính xác của hàm chức năng phụ thuộc lớn vào cách các đối
tượng đầu vào được biểu diễn. Thông thường, đối tượng đầu vào được
chuyển đổi thành một vec-tơ đặc trưng, chứa một số các đặc trưng nhằm
mô tả cho đối tượng đó. Số lượng các đặc trưng không nên quá lớn, do
sự bùng nổ tổ hợp nhưng phải đủ lớn để dự đoán chính xác đầu ra.
Xác định cấu trúc của hàm chức năng cần tìm và giải thuật học tương
ứng. Ví dụ, người kĩ sư có thể lựa chọn việc sử dụng mạng nơ-ron nhân
tạo hay cây quyết định.
Hoàn thiện thiết kế. Người kĩ sư sẽ chạy giải thuật học từ tập huấn luyện
thu thập được. Các tham số của giải thuật học có thể được điều chỉnh
bằng cách tối ưu hóa hiệu năng trên một tập con (gọi là tập kiểm chứng -
validation set) của tập huấn luyện, hay thông qua kiểm chứng chéo
(cross-validation). Sau khi học và điều chỉnh tham số, hiệu năng của
giải thuật có thể được đo đạc trên một tập kiểm tra độc lập với tập huấn
luyện.
1.1.2 Học bán giám sát
Các hệ cơ sở tri thức Cross Validation
Nguyễn Thị Ngọc Thanh – CH1101132 Page 4
Các phương pháp học bán giám sát sẽ rất hữu ích khi dữ liệu chưa gán nhãn
nhiều hơn dữ liệu gán nhãn. Việc thu được dữ liệu gán nhãn là rẻ, nhưng để
gán nhãn chúng thì tốn rất nhiều thời gian, công sức và tiền bạc. Học bán giám
sát có thể được xem là:
Học giám sát cộng thêm dữ liệu chưa gán nhãn (Supervised learning +
additional unlabeled data).
Học không giám sát cộng thêm dữ liệu gán nhãn (Unsupervised learning
+ additional labeled data).
Học bán giám sát chính là cách học sử dụng thông tin chứa trong cả dữ liệu
Trong việc huấn luyện, mục tiêu là làm thế nào để người học được huấn luyện
một cách tốt nhất. Trong nhiều trường hợp, biểu đồ học cho thấy quá trình
huấn luyện là rất tốt, nhưng khi kiểm tra thì lại không đạt kết quả cao. Nếu
tiếp tục quá trình học cây quyết định sẽ làm giảm độ chính xác đối với tập thử
nghiệm mặc dù tăng độ chính xác đối với tập học. Ví dụ, một sinh viên đạt
được điểm số và thành tích trong học tập rất cao, nhưng khi ra trường làm việc
thì đạt kết quả thấp. Điều đó cho thấy quá trình huấn luyện có vấn đề, và các
vấn đề trong quá trình huấn luyện là do một số nguyên nhân như sau:
Các hệ cơ sở tri thức Cross Validation
Nguyễn Thị Ngọc Thanh – CH1101132 Page 6 Hình 3: Minh hoạ vấn đề quá khớp
1.2.3 Xữ lý quá khớp
Ngừng việc học (phát triển) cây quyết định sớm hơn, trước khi nó đạt tới cấu
trúc cây cho phép phân loại (khớp) hoàn hảo tập huấn luyện.
Học (phát triển) cây đầy đủ (tương ứng với cấu trúc cây hoàn toàn phù hợp đối
với tập huấn luyện), và sau đó thực hiện quá trình tỉa (to post-prune) cây.
Chiến lược tỉa cây đầy đủ (Post-pruning over-fit trees)thường cho hiệu quả tốt
hơn trong thực tế vì chiến lược “ngừng sớm” việc học cây cần phải đánh giá
chính xác được khi nào nên ngừng việc học (phát triển) cây, điều này khó xác
định.