Các khái niệm trong Học máy doc - Pdf 12

Các khái niệm trong Học máy (Machine Learning) (1) – Tổng quan
Học máy(Machine Learning) là một ngành khoa học nghiên cứu các
thuật toán cho phép máy tính có thể học được các khái niệm (concept).
Phân loại:Có hai loại phương pháp học máy chính
• Phương pháp quy nạp: Máy học/phân biệt các khái niệm dựa trên
dữ liệu đã thu thập được trước đó. Phương pháp này cho phép tận
dụng được nguồn dữ liệu rất nhiều và sẵn có.
• Phương pháp suy diễn: Máy học/phân biệt các khái niệm dựa vào
các luật. Phương pháp này cho phép tận dụng được các kiến thức
chuyên ngành để hỗ trợ máy tính.
Hiện nay, các thuật toán đều cố gắng tận dụng được ưu điểm của hai
phương pháp này.
Các ngành khoa học liên quan:
• Lý thuyết thống kê:các kết quả trong xác suất thống kê là tiền đề
cho rất nhiều phương pháp học máy. Đặc biệt, lý thuyết thống kê cho
phép ước lượng sai số của các phương pháp học máy.
• Các phương pháp tính:các thuật toán học máy thường sử dụng các
tính toán số thực/số nguyên trên dữ liệu rất lớn. Trong đó, các bài toán
như: tối ưu có/không ràng buộc, giải phương trình tuyến tính v.v…
được sử dụng rất phổ biến.
• Khoa học máy tính:là cơ sở để thiết kế các thuật toán, đồng thời
đánh giá thời gian chạy, bộ nhớ của các thuật toán học máy.
Ứng dụng:Học máy có ứng dụng rộng khắp trong các ngành khoa
học/sản xuất, đặc biệt những ngành cần phân tích khối lượng dữ liệu
khổng lồ. Một số ứng dụng thường thấy (wikipedia ﾧ):
• Xử lý ngôn ngữ tự nhiên (Natural Language Processing): xử lý văn
bản, giao tiếp người – máy, …
• Nhận dạng (Pattern Recognition): nhận dạng tiếng nói, chữ viết
tay, vân tay, thị giác máy (Computer Vision) …
• Tìm kiếm (Search Engine)
• Chẩn đoán trong y tế: phân tích ảnh X-quang, các hệ chuyên gia

Ví dụ:
1. Từ các tính
chất, ta thấy - đại số luôn chứa tập rỗng và tập vũ trụ (vì ).
2. Nếu
thì , , là các - đại số trên .
Định nghĩa (độ đo): Cho và là
- đại số trên . Hàm gọi là độ đo trên nếu
1.
2.
3. Nếu và không giao
nhau từng đôi một
() thì
Ta nói bộ là không gian đo
được.
Định nghĩa (không gian mẫu, biến cố, xác suất):
Không gian mẫu: Một tập khác rỗng gọi là không gian mẫu nếu
các phần tử của nó có thể là kết quả của một phép thực nghiệm ngẫu
nhiên.
Ví dụ:
1. Có một hộp có
gồm 10 viên bi bên trong, nhắm mắt lại chọn ngẫu nhiên 1 viên bi.
Như vậy mỗi viên bi đều có thể là kết quả của phép thực nghiệm
này, không gian mẫu là là số hiệu cuả từng viên bi.
2. Có 3
người, chọn ngẫu nhiên 1 người và hỏi người này có thích màu đỏ
không? Không gian mẫu là . Nếu hỏi cả 3 người xem họ có thích
màu đỏ không, lúc này không gian mẫu lại là , trong đó là thích, là
không thích.
Biến cố: Một - đại số của không gian mẫu gọi là tập các biến cố
trên . Mỗi tập gọi là một biến cố. Khi thực nghiệm ngẫu nhiên cho kết

Công thức
DeMorgan:
Xác suất điều kiện: Xác suất xảy ra biến cố khi biến cố đã xảy ra là
Nhận xét:
1. Xác xuất
xảy ra biến cố khi
biến cố đã xảy ra làdo .
2. Có thể hiểu xác suất
có điều kiện khi đã biết biến cố xảy ra là xác suất được định nghĩa
trên không gian mẫu mới , tập các biến cố . Vì thế, khi đã biết biến
cố , có thể kiểm tra được xác suất có điều kiện thỏa mãn mọi điều
kiện của một độ đo xác suất bình thường.
Độc lập xác suất: Hai biến cố độc lập với nhau nếu
.
Nhận xét:
1. nên độc lập với
nhau.
2. Vì nên nếu ta có .
Nghĩa là biến cố đã xảy ra hay không không làm ảnh hưởng đến
xác suất của biến cố .
Công thức Bayes: Cho biến
cố và các biến cố sao cho
1. Các tập rời nhau từng
đôi một
2.
thì ta có công thức xác suất
tổng
và công thức Bayes
Chứng minh: Rõ
ràng

3. Xác suất người này có bệnh sau khi cả hai lần chẩn đoán đều có
bệnh là
Tức là gần như chắc chắn người này có bệnh sau khi 2 lần chẩn
đoán đều cho kết quả dương tính (positive).

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Các khái niệm trong Học máy doc - Pdf 12

Tài liệu, ebook tham khảo khác

Học thêm