Tiểu luận môn học Xử Lý Ngôn Ngữ Tự Nhiên mạng nơ ron - Pdf 24

Tiểu luận môn học : Xử Lý Ngôn Ngữ Tự Nhiên
MỞ ĐẦU
Sự phát triển mạnh mẽ của Công nghệ nói chung và Công nghệ thông tin nói
riêng đã tạo nên nhiều hệ thống thông tin phục vụ việc tự động hoá mọi hoạt động
kinh doanh cũng như quản lý trong xã hội. Điều này đã tạo ra những dòng dữ liệu
khổng lồ trở thành hiện tượng “bùng nổ thông tin”. Nhiều hệ quản trị cơ sở dữ liệu
mạnh với các công cụ phong phú và thuận tiện đã giúp con người khai thác có hiệu
quả các nguồn tài nguyên dữ liệu lớn nói trên. Bên cạnh chức năng khai thác cơ sở
dữ liệu có tính tác nghiệp, sự thành công trong kinh doanh không chỉ thể hiện ở
năng lại tri thức từ dữ liệu hơn là chính bản thân dữ liệu. Phát hiện tri thức trong cơ
sở dữ lại tri thức từ dữ liệu hơn là chính bản thân dữ liệu. Phát hiện tri thức trong
cơ sở dữ liệu (Knowledge Discovery in Databases - KDD) là một quá trình hợp
nhất các dữ liệu từ nhiều hệ thống dữ liệu khác nhau tạo thành các kho dữ liệu,
phân tích thông tin để có được nhiều tri thức tiềm ẩn có giá trị. Trong đó, khai phá
dữ liệu (Data Mining) là quá trình chính trong phát hiện tri thức. Sử dụng các kỹ
thuật và các khái niệm của các lĩnh vực đã được nghiên cứu từ trước như học máy,
nhận dạng, thống kê, hồi quy, xếp loại, phân nhóm, đồ thị, mạng nơron, mạng
Bayes, được sử dụng để khai phá dữ liệu nhằm phát hiện ra các mẫu mới, tương
quan mới, các xu hướng có ý nghĩa.
Trong bài tiểu luận này, chúng tôi chỉ đề cập đến một phần rất nhỏ của phân
mảng “máy học” mà đại diện chúng tôi chọn để nghiên cứu là “mạng nơ ron”.
Tiểu luận này được thực hiện dưới sự hướng dẫn TS. Nguyễn Thị Minh Huyền
Trường Đại Học Khoa học Tự nhiên, Đại Học Quốc Gia Hà Nội. Chúng tôi xin
chân thành cảm ơn cô đã hướng dẫn cho chúng tôi để bài tiểu luận này được hoàn
thành.
Hoàng Quang Vũ, Nguyễn Anh Toàn K7MCS.
Giáo Trình Trí Tuệ Nhân
1
Võ Huỳnh Trâm – Trần Ngân
Tiểu luận môn học : Xử Lý Ngôn Ngữ Tự Nhiên
1. GIỚI THIỆU

hiệu quả của hệ thống giảm xuống và kết quả thu được từ hệ thống không còn độ
tin cậy cao. Có thể định nghĩa hiện tượng over-fitting như sau:
1.2.1 Định nghĩa quá vừa dữ liệu
Một hàm mục tiêu hay một giả thiết học được h, sẽ được gọi là over-fitting
(quá vừa dữ liệu) với một tập dữ liệu huấn luyện nếu tồn tại một hàm mục tiêu
khác là h’ sao cho:
h’ kém phù hợp hơn, đạt độ chính xác kém hơn so với h trên tập dữ liệu huấn
luyện, nhưng h’ lại đạt độ chính xác cao hơn h đối với toàn bộ tập dữ liệu (bao
gồm cả tập dữ liệu liệu huấn luyện và tập dữ liệu kiểm tra)

Ví dụ quá vừa dữ liệu
Giả sử gọi D là tập toàn bộ các dữ liệu có thể có, Training_D là tập các dữ liệu
huấn luyện
Giả sử Err_D(h) là mức lỗi mà giả thiết h sinh ra đối với tập D, và
Err_Training_D(h) là mức lỗi mà giả thiết h sinh ra đối với tập Training_D.
Nếu tồn tại một giả thiết khác là h’ sao cho:
Err_Training_D(h) < Err_Training_D(h’) và
Err_D(h) > Err_D(h’)
Thì khi đó h được coi là quá vừa dữ liệu trên tập huấn luyện Training_D.

Nguyên nhân quá vừa dữ liệu

Vấn đề over-fitting thường do các nguyên nhân:

Lỗi (nhiễu) trong tập huấn luyện phát sinh trong quá trình thu thập, xây dựng
tập dữ liệu.

Số lượng dữ liệu của tập huấn luyện quá nhỏ, không đại diện cho toàn bộ tập
dữ liệu có thể có hay toàn bộ phân bố dữ liệu của bài toán.
Hoàng Quang Vũ, Nguyễn Anh Toàn K7MCS.

. Các mẫu x
i
được phát sinh ngẫu nhiên theo
một hàm phân bố xác suất F(x) nào đó mà ta không biết.

y
i
là các kết quả học tương ứng với mẫu x
i
, y
i
R. Thường thì y là kết quả
của một hàm f(x) nào đó – đơn trị. Tuy nhiên trong trường hợp tổng quát thì
y không đơn trị. Do đó y được xác định theo một hàm phân bố điều kiện F(y|
x) mà ta cũng không biết.
Bây giờ cho một mẫu x*, vấn đề của máy học là xác định một hàm f
0
(x) mà có
thể ước lượng tốt nhất giá trị y* tương ứng. Như vậy theo lý thuyết tương quan
trong thống kê thì f
0
(x) tốt nhất theo lý thuyết phải là kỳ vọng của y theo x theo
phân bố F(y|x).f
0
(x) còn được gọi là phương trình hồi quy.
Với x tuân theo phân bố F(x), y tuân theo phân bố có điều kiện F(y|x) thì hàm
phân bố của cặp (x, y) là F(x, y) = F(x)F(y|x). Có thể thấy xác suất để có dãy (x
1
,
y

, y
2
), … , (x
l
, y
l
). Nhiệm vụ của máy học là xác định chính xác nhất có thể được
hàm f
0
(x) dựa trên các dữ liệu hữu hạn này.
Trong trường hợp khi y R, tức đây là vấn đề hồi quy (regression).
Hoàng Quang Vũ, Nguyễn Anh Toàn K7MCS.
Giáo Trình Trí Tuệ Nhân
4
Võ Huỳnh Trâm – Trần Ngân
Tiểu luận môn học : Xử Lý Ngôn Ngữ Tự Nhiên
Trong trường hợp bài toán phân lớp (classification) thì y {-1, 1} là trường hợp
nhận dạng hai lớp, nếu y
i
= -1 thì x
i
thuộc lớp thứ nhất (không được quan tâm), còn
y
i
= 1 thì x
i
thuộc lớp thứ 2 (lớp được quan tâm)
1.4 Một số phương pháp học máy
Trong lĩnh vực học máy có nhiều phương pháp học khác nhau, trong phần
này đề cập đến 3 phương pháp học được sử dụng phổ biến nhất, gồm có: học

mục đích của từng bài toán. Trong đó các thuật toán thường được sử dụng như: k-
means, HAC (Hierarchical Agglomerative Clustering), SOM (Self-Organizing
Map), DBSCAN, FCM, (chi tiết các thuật toán này có thể tìm kiếm trên Internet)
1.4.2 Phương pháp học bán giám sát (Semi-Supervised Learning)
Trong thực tế, để có được một tập dữ liệu có chất lượng và đã được gán nhãn
của một lĩnh vực, thường được thực hiện thủ công bằng tay bởi người có nhiều
kinh nghiệm về lĩnh vực đó. Vì vậy, dữ liệu đã được gán nhãn thường ít và đắt.
Trong khi đó, dữ liệu chưa được gán nhãn lại rất nhiều và phong phú. Phương
pháp học bán giám sát (hay học nửa giám sát) được đặt ra để tận dụng cả hai nguồn
dữ liệu này.

Khái niệm học bán giám sát
Học bán giám sát là học với tập dữ liệu huấn luyện gồm cả dữ liệu đã được gán
nhãn và dữ liệu chưa được gán nhãn.
Tuỳ vào từng mục đích cụ thể, học bán giám sát có thể được áp dụng cho bài
toán phân lớp hoặc phân cụm.

Nội dung phương pháp học bán giám sát
Nội dung chính của học bán giám sát là hệ thống sử dụng một tập học (training
set) gồm 2 phần: các ví dụ học có nhãn, thường với số lượng (rất) ít, và các ví dụ
Hoàng Quang Vũ, Nguyễn Anh Toàn K7MCS.
Giáo Trình Trí Tuệ Nhân
6
Võ Huỳnh Trâm – Trần Ngân
Tiểu luận môn học : Xử Lý Ngôn Ngữ Tự Nhiên
học không có nhãn, thường với số lượng (rất) nhiều. Thực tế cho thấy khi sử dụng
kết hợp dữ liệu không có nhãn với một lượng nhất định dữ liệu có nhãn có thể tăng
độ chính xác đáng kể.
Một thuật toán học bán giám sát được sử dụng (ví dụ Self-training) sẽ học các
ví dụ có nhãn, sau đó tiến hành gán nhãn cho một số (có lựa chọn) các ví dụ không

giám sát.
Gọi D: là tập các dữ liệu đã được gán nhãn.
C : là tập các dữ liệu chưa gán nhãn.
Thuật toán Self-training thực hiện như sau:
Lặp (cho đến khi C = Æ):
i. Huấn luyện bộ phân lớp có giám sát h trên tập D
ii. Sử dụng h để phân lớp dữ liệu trong tập C
iii. Tìm tập con C’ Í C có độ tin cậy cao nhất:
D + C’ Þ D ; C – C’ Þ C.
Ban đầu huấn luyện bộ phân lớp bằng cách cho bộ phân lớp học một tập dữ
liệu huấn luyện đã được gán nhãn (tập này thường nhỏ so với tập dữ liệu chưa gán
nhãn). Dùng bộ phân lớp đã được huấn luyện, phân lớp cho các dữ liệu chưa được
gán nhãn. Trong số dữ liệu mới được gán nhãn, chọn các dữ liệu có độ tin cậy cao
(lớn hơn một ngưỡng nào đó) kèm với nhãn vừa gán, đem bổ sung vào tập dữ liệu
huấn luyện ban đầu. Sau đó, bộ phân lớp được học lại trên tập huấn luyện mới
(gồm dữ liệu đã gán nhãn ban đầu và dữ liệu do bộ phân lớp mới gán nhãn) và
thuật toán được lặp lại. Sau mỗi vòng lặp, bộ phân lớp sẽ bổ sung một số mẫu dữ
liệu có độ tin cậy cao nhất cùng với dự đoán phân lớp của chúng vào tập dữ liệu
huấn luyện. Tên gọi Self-training xuất phát từ việc sử dụng dự đoán của nó để huấn
luyện chính nó.

Thuật toán Co-training:
Hoàng Quang Vũ, Nguyễn Anh Toàn K7MCS.
Giáo Trình Trí Tuệ Nhân
8
Võ Huỳnh Trâm – Trần Ngân
Tiểu luận môn học : Xử Lý Ngôn Ngữ Tự Nhiên
Thuật toán Co-training dựa trên giả thuyết rằng các đặc trưng của tập dữ liệu
huấn luyện có thể được phân chia thành 2 tập con (trường hợp lý tưởng là hai tập
con này thoả mãn điều kiện độc lập nhau - conditional independent). Nội dung

l
).
(2). Phân lớp các mẫu dữ liệu chưa gán nhãn X
u
với f
(1)
và f
(2)
tách biệt nhau. (U là
tập các mẫu dữ liệu chưa gán nhãn)
(3). Chèn thêm vào f
(1)
k-most-confident (x, f
(1)
(x)) tới các dữ liệu đã gán nhãn
của f
(2)
.
(4). Chèn thêm vào f
(2)
k-most-confident (x, f
(2)
(x)) tới các dữ liệu đã gán nhãn
của f
(1)
.
(5). Lặp lại các quá trình trên.

Thuật toán Co-training trên có thể viết như sau:
L: là tập các mẫu dữ liệu đã gán nhãn

2
huấn luyện bộ phân lớp h
2
)
(3). Dùng h
1
phân lớp cho U thu được tập U
1
’ kèm nhãn dự đoán của chúng. Dùng
h
2
phân lớp cho U thu được tập U
2
’ kèm nhãn dự đoán của chúng.
(4). Từ U
1
’ chọn ra u
1
mẫu dữ liệu kèm theo nhãn của nó, có độ tin cậy cao nhất.
Bổ sung u
1
vào L
2
. Khi đó, L
2
+ u
1
=> L
2
.

2
học L
2
)
(6). Lặp lại từ bước (3). cho đến khi tập U rỗng hoặc số vòng lặp đạt đến ngưỡng
xác định trước.
Có thể viết rút gọn bằng cách bỏ bước (5). ở trên. Bước (6). đổi thành bước
(5): Lặp lại từ bước (2). cho đến khi tập U rỗng hoặc số vòng lặp đạt đến ngưỡng
xác định trước.
1.4.3 Phương pháp học có giám sát (Supervised Learning)

Khái niệm học có giám sát:
Học có giám sát là học với tập dữ liệu huấn luyện ban đầu hoàn toàn được gán
nhãn từ trước.
Hoàng Quang Vũ, Nguyễn Anh Toàn K7MCS.
Giáo Trình Trí Tuệ Nhân
1
Võ Huỳnh Trâm – Trần Ngân
Tiểu luận môn học : Xử Lý Ngôn Ngữ Tự Nhiên
Học có giám sát là phương pháp học sử dụng cho lớp bài toán phân lớp, phân
loại (Classification).

Nội dung phương pháp học có giám sát:
Để thực hiện phân lớp, trước tiên phải chuẩn bị một tập dữ liệu huấn luyện
(trainning data set), để có tập dữ liệu huấn luyện phải thực hiện gán nhãn cho dữ
liệu ban đầu, đây được gọi là quá trình thu thập tập huấn luyện.
Lựa chọn một thuật toán phân lớp (ví dụ SVM) xây dựng bộ phân lớp
để học tập dữ liệu huấn luyện. Hay nói cách khác, dùng tập dữ liệu huấn luyện để
huấn luyện bộ phân lớp. Thuật ngữ học có giám sát được hiểu là học tập dữ liệu đã
được gán nhãn trước (các dữ liệu kèm theo nhãn tương ứng này coi như đã được

hệ thống này giải quyết vấn đề song song theo nghĩa rằng tất cả các neuron trong
tập hợp hay trong các lớp sẽ xử lý tín hiệu vào một cách đồng thời và độc lập.
Trong khi các giải thuật của tiếp cận ký hiệu sử dụng ký hiệu để mô tả các
mẫu của bài toán như ta đã thấy trong giải thuật ID3 thì những nhà thiết kế mạng
neuron phải tạo ra một sơ đồmã hóa các mẫu (pattern) của bài toán thành các đại
lượng số để đưa vào mạng. Việc chọn lựa một sơ đồ mã hóa thích hợp đóng vai
trò quyết định cho sự thành công hay thất bại trong việc học của mạng.
Các mẫu (pattern) của bài toán được mã hóa thành các vector số. Các kết
nối giữa các thành phần, hay neuron, cũng được biểu diễn bằng các giá trị số.
Cuối cùng, sự biến đổi của các mẫu cũng là kết quả của các phép toán số học,
thông thường là phép nhân ma trận. Sự chọn lựa kiến trúc kết nối của nhà thiết kế
mạng neuron góp phần vào tính thiên lệch quy nạp (inductive bias) của hệ thống.
Hoàng Quang Vũ, Nguyễn Anh Toàn K7MCS.
Giáo Trình Trí Tuệ Nhân
1
Võ Huỳnh Trâm – Trần Ngân
Tiểu luận môn học : Xử Lý Ngôn Ngữ Tự Nhiên
Các giải thuật và kiến trúc dùng để cài đặt mạng neuron thường được
huấn luyện (trained) hay tạo điều kiện (conditioned) chứ không được lập trình
một cách tường tận. Và đây chính là sức mạnh chủ yếu của tiếp cận này.
Các phương pháp của tiếp cận này phát huy sức mạnh của chúng trong các
bài toán mà khó có thể giải quyết bằng các mô hình ký hiệu. Tiêu biểu là các bài
toán đòi hỏi các kỹ năng dựa vào nhận thức, hay các bài toán thiếu một cú pháp
định nghĩa rõ ràng.
Các bài toán thích hợp với tiếp cận kết nối thường là:
• Bài toán phân loại (classification): quyết định một giá trị đưa vào
thuộc loại hay nhóm nào
• Bài toán nhận dạng mẫu (pattern recognition): nhận dạng cấu trúc trong
các dữ liệu có thể là bị nhiễu.
• Bài toán dự đoán (prediction): chẳng hạn như nhận dạng bệnh từ các

hiệu đầu vào của nó nơi mà mỗi tín hiệu đầu vào được tỷ lệ lại bằng trọng
số kết nối wi ở đầu vào đó. Vì vậy, mức kích họat được tính toán bằng cách
lấy tổng các giá trị đầu vào sau khi được tỉ lệ hóa, Σw
i
x
i
.
 Một hàm ngưỡng (threshold function), f. Hàm này tính kết quả đầu
ra của neuron bằng cách xác định xem mức kích hoạt nằm dưới hay trên
một giá trị ngưỡng là ít hay nhiều. Hàm ngưỡng này có khuynh hướng tạo
ra trạng thái tắt/mở của các neuron.
2.2.2 Các đặc trưng cơ bản của mạng nơ ron
Ngoài các tính chất của một neuron đơn lẻ, một mạng neuron còn được
đặc trưng bởi các tính chất toàn cục như sau:
• Hình thái mạng
(network topology): là mô hình hay mẫu kết nối giữa các
neuron đơn lẻ.
Hoàng Quang Vũ, Nguyễn Anh Toàn K7MCS.
Giáo Trình Trí Tuệ Nhân
1
Võ Huỳnh Trâm – Trần Ngân
Tiểu luận môn học : Xử Lý Ngôn Ngữ Tự Nhiên
• Giải thuật học (learning algorithm): là giải thuật dùng để điều chỉnh
các trọng số ở các đầu vào của các neuron. Trong các phần tiếp theo của
chương này sẽ trình bày một số giải thuật học tiêu biểu.
• Sơ đồ mã hóa (encoding schema): Bao gồm việc thông dịch dữ liệu
thực tế thành các giá trị đầu vào của mạng, và việc thông dịch giá trị đầu ra
của mạng thành một kết quả có ý nghĩa.
2.2.3 Mạng neuron McCulloch-Pitts
Ví dụ đầu tiên về tính toán neural được MacCulloch và Pitts đưa ra vào

được xác định qua tổng ∑w
i
x
i
. Perceptron sử dụng một hàm ngưỡng giới hạn
cứng, khi một kích hoạt nằm bên trên ngưỡng, hàm sẽ cho kết quả là 1, và -1 nếu
ngược lại. Cho trước các giá trị đầu vào x
i
, các trọng số w
i
, và một ngưỡng, t,
hàm ngưỡng f của perceptron sẽ trả về:
Hoàng Quang Vũ, Nguyễn Anh Toàn K7MCS.
Giáo Trình Trí Tuệ Nhân
1
Võ Huỳnh Trâm – Trần Ngân
Tiểu luận môn học : Xử Lý Ngôn Ngữ Tự Nhiên

1 nếu ∑w
i
x
i
>= t
-1 nếu ∑w
i
x
i
< t
Perceptron sử dụng một hình thức đơn giản của học có giám sát
(supervised learning). Sau khi perceptron cố gắng giải quyết một mẫu bài toán

Hoàng Quang Vũ, Nguyễn Anh Toàn K7MCS.
Giáo Trình Trí Tuệ Nhân
1
Võ Huỳnh Trâm – Trần Ngân
Tiểu luận môn học : Xử Lý Ngôn Ngữ Tự Nhiên
không làm gì cả.
• Nếu giá trị đầu ra thực là -1 và 1 là giá trị mong muốn, thì tăng
trọng số của đường thứ i lên 2cx
i
.
• Nếu giá trị đầu ra thực là 1 và -1 là giá trị mong muốn, thì giảm
trọng số của đường thứ i -2cx
i
Sở dĩ c được gọi là hằng số thể hiện tốc độ học vì nếu c lớn thì các giá trị
điều chỉnh ∆w
i
sẽ
lớn, như vậy, đẩy nhanh quá trình w
i
hội tụ về giá trị đúng
của nó.
Sau khi được huấn luyện bằng một tập hợp khá lớn các ví dụ rèn luyện cho
trước, thủ tục này sẽ sinh ra một tập các trọng số có tính chất làm giảm thiểu
trung bình lỗi trên toàn tập ví dụ rèn luyện. Theo Minsky và Papert 1969, nếu
tồn tại một tập hợp các trọng số đem lại đầu ra đúng cho mọi ví dụ rèn luyện, thì
thủ tục học perceptron sẽ học được nó.
2.2.5 Học lan truyền ngược
Như đã phân tích ở trên, ta thấy các mạng perceptron đơn tầng có khả năng
giới hạn, chúng không thể phân loại được các bài toán không tách rời tuyến
tính. Trong phần tiếp theo, chúng ta sẽ thấy rằng các mạng đa tầng có thể giải

sau:
 Làm sao để chọn số nút ẩn và số tầng ẩn thích hợp?
 Khi nào sử dụng các nút thiên lệch?
 Cách chọn một tập rèn luyện?
 Điều chỉnh các trọng số như thế nào?
 Nên chọn tốc độ học như thế nào?
Nói chung, không có một quy luật nào về tất cả những điều này, nó phụ
thuộc vào kinh nghiệm của nhà thiết kế, cũng như là kết quả của quá trình thử-
sai lặp đi lặp lại.
3. The Stanford Classifier và ví dụ minh họa
Hoàng Quang Vũ, Nguyễn Anh Toàn K7MCS.
Giáo Trình Trí Tuệ Nhân
2
Võ Huỳnh Trâm – Trần Ngân
Tiểu luận môn học : Xử Lý Ngôn Ngữ Tự Nhiên
3.1 Giới thiệu
Stanford Classifier là 1 phần mềm phân loại tổng quát– phần mềm lấy 1 tập
hợp dữ liệu đầu vào (input) và phân loại dữ liệu sang các loại riêng biệt. Nó hoạt
động bằng cách tạo ra các đặc điểm từ mỗi số liệu liên quan số phiếu âm hay
dương theo trọng số của mỗi cấp. Về nguyên tắc thì trọng số có thể đc thiết lập
bằng tay nhưng cách thường thấy là để trọng số được học tự động dựa trên việc
thực tập phân loại dữ liệu bằng tay ( cái này thường được gọi là ‘học có giám sát’).
Phần mềm phân loại có thể làm việc với giá trị thực, các input đã được phân loại
và hỗ trợ 1 vài thuật toán. Nó cũng hỗ trợ 1 vài dạng quy ước, điều mà thường cần
thiết khi xây dựng mô hình với số lượng rất lớn những tính năng dự đoán.
Bạn có thể sử dụng phần mềm phân loại trên loại dữ liệu bất kỳ, bao gồm dữ liệu
thống kê thông thường và tập hợp dữ liệu “học máy”. Nhưng đối với tập dữ liệu
nhỏ và các tiên đoán số học, tốt hơn ta nên dùng công cụ khác như R hoặc Weka.
Nơi mà phần mềm phân loại Stanfort sử lí tốt nhất là làm việc với chủ yếu là dữ
liệu văn bản, nơi mà nó có những phương tiện mạnh mẽ và linh hoạt trong tạo ra

nghiệm thiết lập theo cách đơn giản nhất có thể:
java -jar stanford-classifier.jar -prop examples/cheese2007.prop
Hoàng Quang Vũ, Nguyễn Anh Toàn K7MCS.
Giáo Trình Trí Tuệ Nhân
2
Võ Huỳnh Trâm – Trần Ngân
Tiểu luận môn học : Xử Lý Ngôn Ngữ Tự Nhiên
Cái này chỉ ra rất nhiều thông tin. Phần đầu tiên cho thấy một chút về tập dữ
liệu. Phần thứ hai cho thấy quá trình tối ưu hóa (xác định đặc tính trọng số để
trainning phần mềm phân loại trên dữ liệu thực tập). Phần tiếp theo cho thấy các
kết quả của việc thử nghiệm mô hình trên một tập dữ liệu thử nghiệm, và 5 dòng
cuối cùng cho kết quả kiểm tra:
196 examples in test set
Hoàng Quang Vũ, Nguyễn Anh Toàn K7MCS.
Giáo Trình Trí Tuệ Nhân
2
Võ Huỳnh Trâm – Trần Ngân
Tiểu luận môn học : Xử Lý Ngôn Ngữ Tự Nhiên
Cls 2: TP=123 FN=5 FP=8 TN=60; Acc 0.934 P 0.939 R 0.961 F1 0.950
Cls 1: TP=60 FN=8 FP=5 TN=123; Acc 0.934 P 0.923 R 0.882 F1 0.902
Micro-averaged accuracy/F1: 0.93367
Macro-averaged F1: 0.92603
Đối với mỗi class, kết quả cho thấy số lượng dương đúng, sai âm, dương sai
và âm đúng, tính chính xác của từng cấp, chính xác, gọi là chuẩn F1. Sau đó nó sẽ
cho một bản tổng hợp F1 trên toàn bộ tập dữ liệu, hoặc vi mô trung bình (mỗi mục
thử đếm nhau) hoặc vĩ mô trung bình (mỗi class đếm bằng nhau). Đối với các tập
dữ liệu sai lệch, vĩ mô trung bình F1 là một biện pháp tốt để đo một phần mềm
phân loại làm tốt thế nào trên các class không thông dụng. Pho mát và phân biệt
bệnh là không quá khó khăn cho việc phân loại!. Phân biệt “pho mát” và “bệnh” ko
quá khó đối với phần mềm phân loại.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status