Mc lc
Muẽc Luẽc
Noõẽi Dung trang
Li m u 5
Li cm n 6
Nhn xột ca giỏo viờn 7
Chệễng 1. Toõng quan veõỉ maựy hoẽc.
I. GII THIU V MY HC ... 8
1. Cỏc nh ngha 8
1.1 Th no l hc ? .. 8
1.2 Th no l mỏy hc ? 8
2. Phõn loi mỏy hc 8
2.1 Phõn loi thụ 8
2.1.1 Hc cú giỏm sỏt 8
2.1.2 Hc khụng giỏm sỏt .. 8
2.1.3 Hc bỏn giỏm sỏt 9
2.1.4 Hc tng cng 9
2.1.5 Chuyn i 9
2.1.6 Hc cỏch hc 9
2.2 Phõn loi theo hai tiờu chun cựng lỳc: cp hc & cỏch tip cn 9
2.2.1 Hc vt 9
2.2.2 Hc bng cỏch ch dn 9
2.2.3 Hc bng qui np 10
2.2.4 Hc bng tng t 10
2.2.5 Hc da theo gii thớch . 10
2.2.6 Hc da trờn tỡnh hung . 10
3. Cỏch tip cn: cú hai cỏch tip cn cho h thng hc .. 10
3.1 Hc t ký hiu . 10
3.2 Hc t d liu s . 10
4.Kho sỏt mt s cỏch tip cn ca mỏy hc 10
4.1 Tip cn thng kờ . 10
4.5.1.5.2 Th no l mu tim n ? 18
4.5.1.6 Qui trỡnh khỏm phỏ tri thc 18
4.5.1.7 Cỏc nhim v chớnh ca khai m d liu . 19
4.5.1.7.1 D oỏn 19
4.5.1.7.2 Mụ t 19
4.5.1.8 Cỏc k thut khai m d liu 19
4.5.1.8.1 K thut phõn lp v d oỏn 19
4.5.1.8.1.1 Phõn lp 19
4.5.1.8.1.2 D oỏn 19
4.5.1.8.2 K thut gom nhúm . 19
4.5.1.9 Thỏch thc trong quỏ trỡnh khai m d liu 19
Chệễng 2. Hoẽc baờỉng phệễng phaựp xaõy Dửẽng caõy ẹiẽnh Danh
I. CY NH DANH 20
1. Cõy nh danh 20
2. Thut toỏn xõy dng cõy nh danh . 20
3. Phõn tớch bi toỏn . . 20
4. í tng 13
II. M CHI 21
1. Quan sỏt thuc tớnh mu túc . . 21
2. Dựng s hỡnh cõy mụ t phõn hoch .. 22
3. Nhn xột . 23
CH1101098 Nguyn Ngc Lõm Ư GVHD: GS. TSKH Hong Vn Kim Trang 2
Mc lc
4. Phng phỏp chn thuc tớnh phõn hoch . 23
III. THUT TON QUINLAN 23
IV. MINH HA THUT TON 24
1. Xột thuc tớnh mu túc . 24
2. Xột thuc tớnh chiu cao 24
3. Xột thuc tớnh cõn nng 24
4. Xột thuc tớnh dựng kem 25
4.3 Mụ hỡnh mng neural nhõn to 41
4.3.1Mng neural mt lp . 41
4.3.2Mng neural nhiu lp 42
4.3.3Mng lan truyn ngc 43
4.3.3.1 nh ngha 43
4.3.3.2 Nguyờn tc hot ng ca mng lan truyn ngc . 43
4.3.3.2.1 Tớn hiu hm 43
CH1101098 Nguyn Ngc Lõm Ư GVHD: GS. TSKH Hong Vn Kim Trang 3
Mục lục
4.3.3.2.2 Tín hiệu lỗi ……………………………………………… ………. 43
4.3.4Mạng perceptron ……………………………………………………………… 44
4.3.4.1 Định nghĩa ……………………………………………………… …… 44
4.3.4.2 Ngun tắc hoạt động ……………………………………………… …. 44
II. THUẬT TỐN HỌC ĐƠN GIẢN TRÊN PERCEPTRON ………………………… 45
III. THUẬT TỐN LAN TRUYỀN NGƯỢC ……………………………………….……… 47
ChƯƠng 4. Cài ĐăÏt Ứng Dng minh ha 50
ChƯƠng 5. KêÙt luâÏn …………………………………………………………… 52
CH1101098 Nguyễn Ngọc Lâm ¦ GVHD: GS. TSKH Hồng Văn Kiếm Trang 4
Li m u
Lễứi mễ ẹaõỉu
Mỏy hc l mt lnh vc ca trớ t nhõn to liờn quan n vic phỏt trin cỏc k thut cho phộp
mỏy tớnh cú th Hc. C th hn, mỏy hc l mt phng phỏp to ra cỏc chng trỡnh
mỏy tớnh bng vic phõn tớch cỏc tp d liu. Mỏy hc cú liờn quan ln n lnh vc thng kờ vỡ
c hai lnh vc u nguyờn cu vic phõn tớch d liu, nhng khỏc vi thng kờ, mỏy hc tp
trung vo nguyờn cu s phc tp ca cỏc gii thut trong vic thc thi tớnh toỏn.
Mt trong nhng nguyờn nhõn lm cho trớ tu nhõn to tr thnh mt trong nhng lnh vc mi
nhn trong thi i hin nay l vic lm cho mỏy tớnh tr nờn thụng minh hn, tng cng s
cng tỏc gia ngi v mỏy, t ng húa mt phn, gúp phn gii cỏc cụng vic trong lnh vc
i sng xó hi.
Mỏy hc cú tớnh ng dng rt cao trong cỏc ngnh khoa hc sn xut, t bit l nhng ngnh
(ký và ghi rõ họ tên)
Nguyễn Ngọc Lâm
Nhận xét của giáo viên hướng dẫn
NhaâÏn xeùt cuœa giaùo vieân hÖÔùng DaâÕn
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
TP. HCM, ngày 03 tháng 06 năm 2012
Sinh viên thực hiện
(ký và ghi rõ họ tên)
Nguyễn Ngọc Lâm
Chng 1. Tng quan v mỏy hc
Chệễng 1. Toõng quan veõỉ maựy hoẽc
I. GII THIU V MY HC
1. Cỏc nh ngha
- Cỏc chng trỡnh hc cú giỏm sỏt c s dng rng rói nh: Mng N-ron nhõn
to, Support Vector Machine, k lỏng ging gn nht, Naive Bayes, mụ hỡnh hn
hp Gauss.
2.1.2 Hc khụng giỏm sỏt
- L mt phng phỏp ca ngnh mỏy hc nhm tỡm ra mt mụ hỡnh phự hp vi
cỏc quan sỏt. Trong mụ hỡnh hc cú giỏm sỏt, s cỏc lp l bit trc. Ngc li
trong mụ hỡnh hc khụng giỏm sỏt, mu hc cha c gỏn nhón nờn núi chung,
s lp cha bit trc. Cỏc h hc loi ny cú kh nng t giỏm sỏt quỏ trỡnh hỡnh
thnh v phỏt sinh ca cỏc lp. Cụng tỏc gỏn nhón c thc hin t ng mt
cỏch h thng v phõn bit vi cỏc lp khỏc.
- Trong hc khụng giỏm sỏt mt tp d liu u vo l mt tp cỏc bin ngu
nhiờn. Sau ú h tỡm ra quy lut hỡnh thnh cỏc mu v khỏm phỏ mi quan h
ca d liu.
Chương 1. Tổng quan về máy học
- Học không giám sát hữu ích cho việc nén dữ liệu, về cơ bản mọi thuật toán nén
dữ liệu dựa vào một phân bố xác suất trên một tập đầu vào một cách tường minh
hay không tường minh.
2.1.3 Học bán giám sát
- Học bán giám sát sử dụng các mẫu dữ liệu chưa được gán nhãn để làm giàu cho
tập huấn luyện bằng cách từ từ gán nhãn cho chúng dựa vào ước lượng từ tập mẫu
đã được gán nhãn ban đầu.
- Tập huấn luyện là một giải thuật được sử dụng nhiều nhất cho học bán giám sát.
Trong tập huấn luyện một bộ phận lớp đầu tiên được huấn luyện với một lượng
nhỏ dữ liệu được gán nhãn. Thông thường những điểm được gán nhãn với độ tin
cậy cao nhất cùng với những nhãn dự đoán của nó sẽ được thêm vào tập huấn
luyện.
- Học bán giám sát là một giải thuật được kết hợp từ hai giải thuật: học có giám sát
và học không giám sát.
2.1.4 Học tăng cường
- Trong ngành khoa học máy tính, học tăng cường là một lĩnh vực con của máy
2.2.5 Học dựa theo giải thích
- Hệ thống phân tích tập các ví dụ nhằm ấn định khả năng đúng hoặc sai, sau đó tạo
ra các giải thích hướng dẫn cách giải các bài toán tương tự trong tương lai.
2.2.6 Học dựa trên tình huống
- Bất kỳ tình huống nào được hệ thống lập luận đều được lưu trữ cùng với kết quả
cho dù đúng hay sai. Khi gặp tình huống mới, hệ thống sẽ tự thích nghi dựa vào
các tình huống cũ đã được lưu trữ.
3. Cách tiếp cận: có hai cách tiếp cận cho hệ thống học
3.1 Học từ ký hiệu
- Bao gồm việc hình thức hóa, sữa chữa các luật tường minh, sự kiện và các quan hệ
3.1 Học từ dữ liệu số
- Được áp dụng cho những hệ thống được mô hình dưới dạng số liên quan đến các kỹ
thuật nhằm tối ưu các tham số. Học theo dạng số bao gồm mạng Neural nhân tạo,
thuật giải di truyền, các bài toán tối ưu truyền thống. Các kỹ thuật học từ dữ liệu số
không tạo ra cơ sở tri thức tường minh.
4. Khảo sát một số cách tiếp cận của hệ thống học
4.1 Tiếp cận thống kê
4.1.1 ví dụ: chúng ta hãy tìm hiểu một chương trình khá thú vị. Chương trình này tuy chỉ
hoạt động dựa trên xác xuất nhưng lại cho ra một kết quả hết sức ấn tượng. Đó là chương
trình dự đoán ý nghĩ con người, liệu đây có phải là một “tiểu xảo” nhằm lừa chúng ta,
cho rằng máy tính cũng thông minh không? Câu trả lời là có nhưng hiệu quả của chương
trình này khiến chúng ta phải suy nghĩ. Chương trình này khá đơn giản: máy sẽ đoán
người chơi nghĩ số 1 hay số 0 trong đầu, người chơi phải trả lời cho máy biết là máy
đoán đúng hay đoán sai. Để từ đó máy tính sẽ học quy luật suy nghĩ của người chơi.
Chương 1. Tổng quan về máy học
Hình 1.1 chương trình dự đoán ý nghĩ con người
4.1.2 Ý tưởng cài đặt: hết sức đơn giản
- Lưu trữ toàn bộ dãy số 0, 1 mà người chơi đã nghĩ ra.
- Lấy 7 con số trước đó (do người chơi đưa ra), tính xác xuất xuất hiện của số 1 và
số 0 sau dãy 7 con số này. Máy sẽ đoán số có xác xuất xuất hiện cao hơn.
gần nhất. Tuy nhiên cách làm này có độ phức tạp O(n).
- Một cách hiệu quả hơn là tìm cách phân chia không gian các hình chữ nhật mẫu
thành từng khu vực riêng biệt theo kiểu phân cấp không gian.
Chương 1. Tổng quan về máy học
- Đầu tiên ta phân chia không gian thành 2 đường trên và dưới theo đường y =
3.5(đường [1]). Sau đó, mỗi phần không gian còn lại tiếp tục được phân chia.
Quá trình phân chia tiếp tục cho đến khi mỗi phần không gian chứa đúng một
hình chữ nhật trong tập mẫu.
Hình 1.4 phân chia không gian
- Kết quả của phép phân chia này cho chúng ta 8 phần không gian riêng biệt ứng
với 8 hình chữ nhật đã cho ban đầu.
- Để xác định hình chữ nhật mẫu gần với hình chữ nhật chưa biết màu cần tìm(tạm
gọi là U), ta xác định vị trí tương đối của U so với đường chia [1]. U nằm trên
đường chia [1] nên nó sẽ được xếp vào vùng không gian bên trên. Tiếp theo ta
lại so sánh U với đường chia [1.2]. U nằm bên trái. Cuối cùng, u nằm bên dưới
đường chia [1.2.2], nêu U được xếp vào cùng một không gian với hình chữ nhật
màu cam. Do đó U có màu gia cam.
4.2.3 Nhận xét bài toán
- Về mặt thuật toán, phân chia không gian theo cách làm như trên là phân chia
theo cây k-d, với d là số chiều của không gian được phân chia. Trường hợp bài
toán ở trên là chia theo theo cây k – 2. Nếu bài toán đặt ra còn thêm một thông
số nữa là trọng lượng của các hình chữ nhật thì bài toán của chúng ta sẽ dẫn đến
cây k – 3.
- Cây quyết định K–2 của bài toán có thể biểu diễn như sau:
Chương 1. Tổng quan về máy học
Hình 1.5 Cây quyết định k-2
4.3 Tiếp cận logic
4.3.1 Ví dụ 1.
- Trong chương trình máy học ở phương pháp tiếp cận thống kê chỉ là một chuổi
số nhị phân đơn giản. Nhưng trên thực tế, tập mẫu mà chúng ta khảo sát thường
Với 5 mệnh đề logic này bạn hãy lập ra bảng sau nhằm xác định giá trị của các mệnh đề
ứng với mỗi hình trong tập hình đã cho.
Hình Tam giác P
1
Vòng tròn P
2
Oval P
3
Chữ nhật P
4
Đa giác P
5
Nhóm
1 1 1 1 1 0 A
2 1 0 0 1 0 A
3 0 1 0 0 1 A
Chương 1. Tổng quan về máy học
4 1 0 0 0 1 A
5 0 1 0 1 0 A
6 1 1 0 1 0 A
7 1 1 0 0 0 B
8 1 1 0 1 0 B
9 0 0 0 1 0 B
10 1 0 1 0 0 B
11 1 1 0 0 0 B
12 1 0 0 0 0 B
Hình 1.7 bảng giá trị các mệnh đề
- Bước tiếp theo là xây dựng mệnh đề logic cho từng hình, rồi sau đó là cho cả
nhóm hình. Chẳng hạn như ở hình 2 thuộc nhóm A có 2 hình tam giác và một
hình chữ nhật nên mệnh đề P
2
P
3
P
4
¬P
5
∨ P
1
¬P
2
¬P
3
P
4
¬P
5
∨ ¬P
1
P
2
¬P
3
¬P
4
P
5
∨
P
1
P
5
- Bằng các phép biến đổi logic toán học, ta có thể thu gọn mệnh đề trên thành: ϕ =
¬P
1
P
2
∨ P
1
(P
2
P
3
∨ ¬
P
2
¬P
3
).
- Như vậy một hình H nào đó muốn xếp vào nhóm hình A thì giá trị các mệnh đề
P
1
đến P
6
của hình H phải thỏa đều kiện ϕ.
4.3.6 Nhận xét.
- Trong trường hợp tổng quát, phải chọn các mệnh đề cơ sở (như các mệnh đề P1,
P2,…, P6 trong ví dụ trên) như thế nào để mệnh đề đặt trưng của tất cả các hình
trong tập mẫu là khác nhau và mệnh đề đặt trưng của nhóm hình cũng phải khác
- Khai mỏ dữ liệu là một giải pháp giúp phân tích tự động các núi dữ liệu và hỗ
trợ ra quyết định.
4.5.1.3 Sử dụng khai mỏ dữ liệu khi nào
- Dữ liệu quá nhiều.
- Dữ liệu lớn (chiều và kích thước).
Dữ liệu ảnh (kích thước).
Dữ liệu gene (số chiều).
- Có ít tri thức về dữ liệu.
4.5.1.4 Lĩnh vực ứng dụng khai mỏ dữ liệu
4.5.1.4.1 Thông tin thương mại
- Phân tích thị trường và mua bán (chính khoán, nhà đất, tiền tuệ, ).
- Phân tích đầu tư.
- Phát hiện gian lận.
- …
4.5.1.4.2 Thông tin sản xuất
- Đều khiển và lên kế hoạch.
- Quảng trị mạng.
- Phân tích kết quả thực nghiệm.
- …
4.5.1.4.3 Thông tin khoa học
- Thiên văn học.
- Cơ sở dữ liệu sinh học.
- Khoa học địa chất: bộ dò tìm động đất.
- …
4.5.1.5 Khai mỏ dữ liệu là gì?
Chương 1. Tổng quan về máy học
4.5.1.5.1 Định nghĩa: khai mỏ dữ liệu là quá trình không tầm thường của việc
xác định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích, và có thể hiểu
được tối đa trong CSDL. U.Fayyad(996).
4.5.1.5.2 Thế nào là mẫu tiềm ẩn?
ý nghĩa. Các đối tượng trong cùng một nhóm có nhiều tính chất chung và
có những tính chất khác với các đối tượng.
4.5.1.9 Thách thức trong quá trình khai mỏ dữ liệu
- Tính hiệu quả và tính ổn định của các giải thuật khai mỏ dữ liệu.
- Các phương pháp khai mỏ dữ liệu song song, phân tán, luồng và tăng
cường.
- Xử lý với dữ liệu chứa nhiều lỗi, không chắc chắn, không hoàn chỉnh.
- Khai mỏ các kiểu dữ liệu rất khác nhau.
- Bảo đãm tính an ninh, toàn vẹn, riêng tư trong khai mỏ dữ liệu.
- …
Chng 2. Hc bng phng phỏp xõy dng cõy nh danh
Chệễng 2. . Hoùc baống phửễng phaựp
xaõy Dửẽng caõy ẹiẽnh Danh
I CY NH DANH
- Mt trong nhng phng phỏp hc õy l hc bng phng phỏp xõy dng cõy nh danh.
- Quy trỡnh hc:
Bng d liu Phộp th Cõy nh danh Xõy dng Lut Ti u lut.
1 Cõy nh danh: l mt dng ca cõy quyt nh, trong ú mi tp cỏc kt lun cú th c
thit lp mt cỏch ngm nh bi mt danh sỏch cỏc mu m chỳng c phõn vo mt lp
ó bit.
2 Thut toỏn xõy dng cõy nh danh
- Mt vn vụ cựng quan trng trong cỏc thut toỏn xõy dng cõy nh danh ú l ti mi
thi im chỳng ta chn thuc tớnh no phõn hoch sao cho cõy nh danh thu c l
gn nht.
- Cú 2 thut toỏn chn thuc tớnh phõn hoch hay c s dng ú l:
Thut toỏn Quinlan.
Thut toỏn o hn lon.
Nhn xột: thụng thng trong CSTT ngi ta hay dựng thut toỏn o hn lon.
3 Phõn tớch bi toỏn: cho bng d liu quan sỏt sau
Tập P là tập tất cả các mẫu trong bảng dữ liệu quan sát .
- Hiệu tượng cháy nắng dựa trên 4 thuộc tính sau:
Màu tóc (Vàng, Nâu, Đỏ).
Chiều cao (Trung bình, Cao, Thấp).
Cân Nặng (Nhẹ, Trung bình, Nặng).
Dùng kem (Không, Có).
Ta gọi các thuộc tính này là thuộc tính dẫn xuất.
4 Ý tưởng
- Phân hoạch tập P thành các tập P
i
sao cho tất cả các phần tử trong tập P
i
đều có chung
thuộc tính mục tiêu.
P = P
1
P
2
… P
n
và (i, j), ij thì P
i
P
j
= Ø và
i, n,m : P
n
P
i
và P
= {Sarah}, P
2
=
{Dana}, P
3
= {Alex}, …). Tổng cộng có 8 phân hoạch tương ứng với 8 mẫu trong
bảng dữ liệu quan sát.
Cách thứ hai: Là phân hoạch thành hai tập, một tập gồm tất cả những người cháy
nắng, tập còn lại gồm tất cả những người không cháy nắng.
Một phương pháp khác là xét ngẫu nhiên qua từng thuộc tính rồi phân nhóm kết quả
theo từng giá trị của thuộc tính.
II ĐÂM CHỒI
1 Quan sát thuộc tính màu tóc, có 3 phân hoạch
- P
vàng
= {Sarah, Dana, Annie, Kartie}
- P
nâu
= {Alex, Peter, John}
- P
đỏ
= {Emmile}
Ghi chú: những người được gạch dưới và in đậm là bị cháy nắng.
2 Dùng sơ đồ cây để mô tả phân hoạch
Màu tóc
Vàng
- Alex
- Peter
- John
- Emmile
P
vàng, thấp
= {Annie, Kartie}
Hình 2.3 sơ đồ mô tả phân hoạch cho thuộc tính màu tóc và chiều cao
- Quá trình này cứ tiếp tục cho đến khi tất cả các nút lá của cây không còn lẫn lộn giữa
cháy nắng và không cháy nắng.
- Quá trình này còn được gọi là quá trình “đâm chồi”. Cây chúng ta đang xây dựng được
gọi là cây định danh.
- Nếu ban đầu ta không chọn thuộc tính màu tóc để phân hoạch mà chọn một thuộc tính
khác, chẳng hạn như thuộc tính chiều cao thì kết quả như thế nào? Vậy thì cách phân
hoạch nào sẽ tốt hơn?
Chương 2. Học bằng phương pháp xây dựng cây định danh
4 Phương án chọn thuộc tính phân hoạch.
- Khi đứng trước một ngã rẽ, ta phải đi hướng nào?
- Hai phương pháp dưới đây sẽ giúp chúng ta chọn được thuộc tính phân hoạch tại mỗi
bước xây dựng cây định danh.
III THUẬT TOÁN QUINLAN
- Quinlan quyết định thuộc tính phân hoạch bằng cách xây dựng các vector đặc trưng cho
mỗi giá trị của từng thuộc tính dẫn xuất và thuộc tính mục tiêu. Cụ thể như sau:
Với mỗi thuộc tính dẫn xuất A còn có thể sử dụng để phân hoạch, tính:
VA(j) = ( T(j, r
1
), T(j, r
2
), T(j, r
3
), …, T(j, r
n
))
- T(j, r
- Alex
- Peter
- John
- Emmile
Nâu
Đỏ
Chương 2. Học bằng phương pháp xây dựng cây định danh
Số người tóc vàng và không cháy nắng: 2
- Do đó:
V
Tóc
(Vàng) = () = (0.5, 0.5)
- Tương tự
VTóc (Nâu) = () = (0, 1) (vector đơn vị)
VTóc (Đỏ) = () = (1, 0) (vector đơn vị)
Kết luận: tổng số vector đơn vị của thuộc tính màu tóc: 2
2 Xét thuộc tính chiều cao
- Ta có:
V
Chiều cao
(Trung bình) = ()
V
Chiều cao
(Cao) = () = (0, 1) (vector đơn vị)
V
Chiều cao
(Thấp) = ()
Kết luận: tổng số vector đơn vị của thuộc tính chiều cao: 1
3 Xét thuộc tính cân nặng
- Ta có: