ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
DƯƠNG VĂN CƯỜNG
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG CHO ẢNH
VÀ ỨNG DỤNG TRONG BÀI TOÁN PHÂN LOẠI TRẠNG THÁI CẢM XÚC KHUÔN
MẶT
Chuyên ngành: Khoa học máy tính
Mã số: 84 8 01 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS. VŨ VIỆT VŨ
THÁI NGUYÊN, 2018
i
MỤC LỤC
MỤC LỤC ......................................................................................................... i
DANH MỤC CÁC CHỮ VIẾT TẮT ........................................................... iii DANH
MỤC CÁC HÌNH VẼ........................................................................ iv Mở đầu
............................................................................................................. 1
Chương 1. Tổng quan về khai phá dữ liệu ứng dụng .................................. 3
1.1. Khái niệm về lĩnh vực khai phá dữ liệu và phát hiện tri thức ...... 3
1.1.1. Khái niệm ........................................................................................ 3
1.1.2. Các mô hình học máy cơ bản .......................................................... 5
1.1.3. Ứng dụng của học máy ................................................................... 8
3.3. Kết luận ................................................................................................ 45
KẾT LUẬN .................................................................................................... 46
Những kết quả đã đạt được ............................................................ 46
Hướng phát triển tiếp theo của đề tài............................................ 46
TÀI LIỆU THAM KHẢO ............................................................................ 48
iii
DANH MỤC CÁC CHỮ VIẾT TẮT
DBSCAN Phương pháp phân cụm dựa trên mật độ (Density Based Spatial
Clustering of Application with Noise)
HoG
Biểu đồ các đường dốc (Histogram of Gradients)
LBP
Mẫu nhị phân địa phương (Local Binary Pattern)
LDA
Phân tích phân biệt tuyến tính (Linear Discriminant Analysis)
12
Hình 2.1. Bộ lọc Gabor với 5 loại tần số và 8 hướng khác nhau .................... 16
Hình 2.2 Ảnh sau khi sử dụng bộ lọc Gabor tương ứng với hình 2.1 .............. 17
Hình 2.3: R-HOG và C-HOG........................................................................... 19
Hình 2.4: Chia khối trích đặc trưng HOG ....................................................... 20
Hình 2.5: Ví dụ về trích chọn đặc trưng bởi HoG ........................................... 23
Hình 2.6 Tiền xử lý ảnh .................................................................................... 23
Hình 2.7. Gradient theo hướng x (trái), hướng y (giữa) và tổng hợp gradient (phải) ....... 24
Hình 2.8. Chia ảnh thành các ô để tính các biểu đồ........................................ 24
Hình 2.9. Tính lược đồ mức xám...................................................................... 25
Hình 2.10. Ví dụ về phương pháp LBP ............................................................ 26
Hình 2.11. Ví dụ về ảnh khuôn mặt (trái) và các đặc trưng LBP (phải) ......... 26
Hình 2.12. Tập hợp các điểm xung quanh Pt. ................................................. 27
Hình 2.13. Các biến thể của LBP, LBP đồng dạng. ........................................ 28
Hình 2.14. Bảng thống kê các mẫu của LBP đồng dạng ................................. 29
Hình 2.15. Ví dụ về quá trình tính toán đặc trưng........................................... 30
Hình 2.16. Phương pháp LBP không phụ thuộc vào độ sáng ảnh chụp cho
cùng một đối tượng giống nhau ...............................................................
31
v
Hình 2.17. Ví dụ về dữ liệu của bài toán phân cụm: hình bên trái bao gồm 3
cụm rời nhau tuyến tính trong khi hình bên phải có các cụm hình dạng
bất kỳ và không tuyến tính........................................................................
32
Hình 2.18. Kết quả phân cụm bằng thuật toán DBSCAN và Graph
clustering (trái) và bằng K-Means, Fuzzy C-Means (phải)..................... 33
hệ thống được xây dựng dựa trên nền tảng là những thay đổi của khuôn
mặt. Cần phải có một công cụ có thể thực hiện được công việc này. Đó là lí
do tôi chọn đề tài: "Nghiên cứu một số phương pháp trích chọn đặc trưng
cho ảnh và ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn
mặt". Dựa vào các phương pháp trích chọn đặc trưng, tác giả muốn xây
dựng một ứng dụng có khả năng phân loại cảm xúc khuôn mặt người. Từ
những bức ảnh mặt người thu nhận được từ camera quan sát, chương trình
có thể phân biệt được các trạng thái cảm xúc khuôn mặt như: hạnh phúc
(happy), ngạc nhiên (surprise), ghê tởm (disgust), buồn (sad), sợ hãi (fear),
giận dữ (angry), và bình thường (neutral).
Để thực hiện được bài toán phân loại cảm xúc khuôn mặt, chúng ta
phải sử dụng đến các hệ thống học máy. Một hệ thống học máy thường
có các bước gồm thu thập dữ liệu, trích chọn đặc trưng từ dữ liệu, giảm số
chiều dữ liệu, xây dựng mô hình phân lớp/phân cụm và thực hiện để thu
được kết quả
22
và cuối cùng là biểu diễn và mô tả kết quả. Trong luận văn của mình tôi tập
trung vào nghiên cứu vấn đề trích chọn đặc trưng từ ảnh từ đó áp dụng các
thuật toán học máy nhằm giải quyết bài toán đề xuất. Ứng dụng của lớp bài
toán phân loại, nhận dạng trạng thái cảm xúc khuôn mặt có thể kể đến như:
tương tác người-máy, phân tích cảm xúc, phát hiện trạng thái mệt mỏi của
con người, video tương tác, đánh chỉ mục của ảnh và video,…
Nội dung luận văn:
Nội dung cơ bản chương 1:
o Tổng quan bài toán trích chọn đặc trưng
o Giới thiệu bài toán phân loại cảm xúc khuôn mặt
Nội dung cơ bản chương 2:
Dữ liệu đã
tền xử lý
Tiền xử lý
và làm sạch
Chuyển đổi
dữ liệu
Các mẫu
dữ liệu
Diễn giải,
đánh giá
Lựa chọn và
trích xuất
đặc trưng
Khai
phá
dữ liệu
Hình 1.1: Các bước của quá trình khai phá dữ liệu
- Bước thứ nhất: Hình thành, xác định và định nghĩa bài toán. Tìm hiểu
lĩnh vực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải
hoàn thành, thu thập dữ liệu. Bước này sẽ quyết định cho việc rút ra được
các
quả của khai phá dữ liệu.
Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể
được lấy trung bình trên tất cả các lần thực hiện. Các kết quả của quá
trình phát hiện tri thức có thể được đưa và ứng dụng trong các lĩnh vực khác
nhau. Do các kết quả có thể là các dự đoán hoặc các mô tả nên chúng có thể
được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá quá trình
này.
Nghiên cứu về lĩnh vực khai phá dữ liệu liên quan đến nhiều lĩnh vực
như toán học, thống kê, tối ưu hóa, tính toán tiến hóa, khoa học máy tnh,
cơ sở dữ liệu, dữ liệu lớn,…
Một vấn đề quan trọng nữa là các nghiên cứu cho các ứng dụng
chuyên ngành, trường hợp này chúng ta phải làm việc với các chuyên gia lĩnh
vực, chẳng hạn lĩnh vực khai phá dữ liệu y sinh, khai phá dữ liệu gene,…
1.1.2. Các mô hình học máy cơ bản
Trên thực tế có một số mô hình học sau đây [15]:
- Học có giám sát
- Học không giám sát
- Học bán giám sát
- Học tăng cường
- Học sâu (deep learning)
Phần sau đây sẽ trình bày một số phương pháp học cơ bản thuộc
các loại trên.
- Học có giám sát là phương pháp học máy thông qua sử dụng
tập mẫu. Tập mẫu được cung cấp, hệ thống sẽ xây dựng mô hình học trên bộ
dữ liệu này và có thể phân lớp/dự đoán,… cho các dữ liệu mới. Các phương
pháp
học có giám sát có thể kể đến như mạng nơ ron, phân lớp Bayes, cây quyết
định, SVM (Support Vector Machine),… (xem hình 1.2)
Đầu ra y
Hình 1.2 Mô hình học có giám sát
- Học không giám sát là phương pháp phát hiện cấu trúc, xác định mối
liên kết, phát hiện dị thường, của một tập dữ liệu cho trước [14]. Loại học
này không có tập dữ liệu mẫu. Một số phương pháp trong loại học này như
phân
cụm K-Means, Fuzzy C-Means, phát hiện dị thường ,… (xem hình 1.3)
Học không
giám sát
Hình 1.3 Mô hình học không giám sát
- Học bán giám sát nằm giữa học có giám sát và học không giám sát,
loại học này sẽ sử dụng một lượng ít dữ liệu mẫu, dữ liệu hướng dẫn để thực
hiện mô hình (xem hình 1.4). Trên thực tế các thông tin có được từ ban đầu
gồm hai dạng cơ bản: (1) một lượng nhỏ dữ liệu được gán nhãn (seed)
hoặc (2) một số lượng nhỏ các thông tn về các cặp dữ liệu must-link (phải
liên kết), cannot-link (không thể liên kết) thể hiện mối quan hệ giữa các cặp
dữ liệu trong tập dữ liệu cho trước: must-link (u,v) thể hiện u và v sẽ
thuộc cùng một cụm trong khi cannot-link (u,v) cho biết u và v sẽ thuộc
về hai cụm khác nhau.
Hình 1.4 Dữ liệu cho việc học bán giám sát
- Học tăng cường là phương pháp học được bổ sung liên tục kỹ năng
trong quá trình giải quyết bài toán. Ví dụ như hai người chơi cờ A và B, người
A có thể vừa thi đấu với người B nhưng lại có thể vừa học từ người B và
ngược lại.
- IoT: các bài toán thu thập dữ liệu từ nhiều nguồn khác nhau như
sensor, điện thoại, máy tính, camera để xử lý dữ liệu tổng hợp.
- Robot, người máy
- Xử lý ngôn ngữ tự nhiên,…
- Hệ hỗ trợ quyết định
- Phân lớp, phân cụm, phát hiện cấu trúc của dữ liệu
- Phát hiện dị thường
- Mua sắm thông minh,…
1.2. Tổng quan về bài toán trích chọn đặc trưng, trích chọn đặc trưng cho
dữ liệu hình ảnh
Bài toán trích trọn đặc trưng trên ảnh khuôn mặt người đã được
quan
tâm từ khá lâu do có rất nhiều ứng dụng như: Sử dụng trong hệ thống nhận
dạng cảm xúc, hệ thống tương tác giữa người và máy (điều khiển máy
tnh qua các cử động của khuôn mặt), hệ thống nhận dạng người (giúp cho
các cơ quan an ninh quản lý con người), hệ thống quan sát theo dõi như
hệ thống quản lý việc ra vào cho các cơ quan và công ty, hệ thống kiểm tra
người lái xe có ngủ gật hay không, hệ thống phân tích cảm xúc trên khuôn
mặt, hệ thống nhận dạng khuôn mặt cho các máy ảnh kỹ thuật số,...
Trích chọn đặc trưng là trích ra những đặc trưng quan trọng cơ bản
nhất của mỗi đối tượng [5]. Yêu cầu của trích chọn đặc trưng là phải đủ các
thuộc tính tuy nhiên với số lượng nhỏ nhất có thể và vẫn đảm bảo được
việc phân
biệt đối tượng này với đối tượng kia (xem hình 1.6).
Các từ
hình ảnh
tối ưu. Trong thực tế có rất nhiều phương pháp trích chọn đặc trưng đã được
nghiên cứu và trình bày. Mỗi phương pháp có ưu và nhược điểm riêng, phù
hợp với từng loại dữ liệu và ứng dụng.
1.3. Bài toán phân loại cảm xúc khuôn mặt
Trong những năm gần đây bài toán phân loại, nhận dạng trạng thái
cảm xúc khuôn mặt được tập trung nghiên cứu nhiều vì có nhiều ứng dụng
trong thực tế: tương tác người - máy, phân tích cảm xúc, phát hiện trạng
thái mệt mỏi của con người, video tương tác, đánh chỉ mục của ảnh và video,
…
Trên thực tế có 7 loại trạng thái cảm xúc khuôn mặt như sau:
Hạnh phúc (happy), ngạc nhiên (surprise), ghê tởm (disgust), buồn (sad), sợ
hãi (fear), giận dữ (angry), bình thường (neutral). Các ảnh khuôn mặt có thể
thu thập từ các ảnh hoặc từ các video (phim) sau đó chuẩn hóa để thu được
tập dữ liệu cần đánh giá, phân loại. Hình 1.7 minh họa tập dữ liệu mẫu
thường dùng
trong bài toán phân loại cảm xúc khuôn
mặt.
Hình 1.7 Ví dụ về tập dữ liệu mô tả trạng thái cảm xúc khuôn mặt
Hình 1.8. Ví dụ về hệ thống thu thập hình ảnh trạng thái khuôn mặt từ Video
Hình 1.8 minh họa việc trích chọn ảnh khuôn mặt từ Video. Các ảnh
phát hiện được từ video sẽ lưu vào tập cơ sở dữ liệu, sau đó áp dụng các
phương pháp tiền xử lý như loại bỏ ảnh nhiễu, chỉnh lại kích thước trước khi
được đưa vào thử nghiệm cũng như loại bỏ các ảnh dư thừa hoặc ảnh lỗi
do hệ thống phát hiện khuôn mặt gây ra.
1.4. Những vấn đề nghiên cứu của luận văn
Trong khuôn khổ luận văn Thạc sỹ của mình tôi lựa chọn nghiên cứu
Trong lĩnh vực nhận dạng mặt người nói chung bài toán trích chọn đặc
trưng là khâu vô cùng quan trọng, nó sẽ quyết định đến các pha tiếp theo
như phân lớp đối tượng, phân cụm đối tượng. Về mặt bản chất ảnh được
biểu diễn qua một ma trận kích thước m n trong đó m là số hàng và n là
số cột của ảnh. Cách đơn giản nhất khi xây dựng véc tơ đặc trưng cho ảnh là
đem m n điểm ảnh xếp vào véc tơ một chiểu sau đó có thể thực hiện các
phép toán trên véc tơ đó. Tuy nhiên cách làm này có hạn chế rất lớn là sẽ
làm mất đi tnh chất không gian của ảnh tức là mất đi thuộc tnh vô cùng
quan trọng của mỗi điểm ảnh là những điểm hàng xóm của chúng. Chính vì
vậy rất nhiều phương pháp trích chọn đặc trưng được nghiên cứu và giới
thiệu, các phương pháp này nhằm mục đích tận dụng tối đa tính chất
không gian của ảnh trong việc xây dựng các véc tơ đặc trưng.
Trong chương này chúng tôi sẽ trình bày một số phương pháp
trích chọn đặc trưng cơ bản cho ảnh mặt người gồm phương pháp Gabor,
phương pháp LBP và phương pháp HoG nhằm làm cơ sở cho các thực
nghiệm ở chương tếp theo.
2.2. Phương pháp trích chọn đặc trưng Gabor
Phương pháp trích chọn đặc trưng Gabor được giới thiệu vào
những năm 1990. Ý tưởng của phương pháp Gabor là sử dụng biến đổi dạng
sóng. Các đặc trưng Gabor được trích chọn trực tếp từ ảnh mức xám.
Tính chất quan trọng của phương pháp này là nó làm việc tốt với ảnh bị
quay, độc lập với tỷ lệ ảnh, và biến đổi ảnh. [1],[2],[7],[17].
Đặc điểm của trích chọn đặc trưng Gabor là đặc biệt với tần số và
hướng đại diện, giống như hệ thống nhận diện khuôn mặt người. Nó đặc biệt
thích hợp cho cho trích chọn đặc trưng kết cấu và nhận diện. Bộ lọc Gabor
trích chọn trực tiếp từ ảnh cấp xám. Trong miền không gian hai chiều,
Gabor là một hàm Gaussian dạng sóng hình sin phức hợp, có thể thực hiện
tính toán
y cos
Trong trường hợp này:
(x, y) là tọa độ điểm (pixel) trong miền không gian ảnh
: Là tần số góc trung tâm
: Là hướng của bộ lọc Gabor
: Là biểu diễn độ sắc nét dọc theo cả hai hướng x và y.
Trên thực tế / để xác định mối liên hệ giữa và trong các thí
nghiệm.
Hình 2.1. Bộ lọc Gabor với 5 loại tần số và 8 hướng khác nhau
Hình 2.1 minh họa bộ lọa Gabor trong trường hợp chọn 5 loại tần số và
8 hướng khác nhau tương ứng với . Trên thực tế đa số các thực nghiệm
sẽ chọn bộ thông số này. Công thức (2.2) và (2.3) sau đây tương ứng là giá
trị
cho 5 loại tần số và 8 hướng với bộ lọc Gabor trong ví dụ trên:
u
2
u
2 , u = 0, 1,...4
v v , v = 0, 1, 2,... 7
2
thu được biểu diễn cho ảnh I(x,y) bởi cách nối các véc tơ Zu,v như sau:
Z = [(z0,0)T . (z0,1 )T ... (z 4,7)T]T
(2.5)
Trong đó (zu,v)T là véc tơ chuyển vị của zu,v. Đặc trưng nguồn gốc véc tơ
Z bao gồm tất cả các yếu tố của Gabor đại diện tập:{{Gu\,v(x,y) | u=0,1,...4; v=
0,1,2,...7 }.
Trên thực tế, kích thước của véc tơ Z là khá cao. Ví dụ với ảnh 112 x
92 thì kích thước véc tơ là: (112 x 92) x (5 x 8)/ (4 x 4) = 25.760. Khi hệ số
lấy mẫu là r = (4 x 4) = 16. Chúng ta có thể làm giảm kích thước của véc tơ
xuống bằng các thuật toán như LDA, PCA.
2.3. Phương pháp trích chọn đặc trưng HoG
2.3.1. Giới thiệu
Histogram of Gradient (HoG) là đặc trưng được dùng nhiều trong lĩnh
vực phát hiện đối tượng. Kỹ thuật này được đề xuất bởi Bill Triggs và Nanel
Dalal vào năm 2005 tại viện nghiên cứu INRIA [3],[18],[19].
Ý tưởng chính trong đặc trưng HoG xuất phát từ hình dạng và
trạng thái của vật có thể được đặc trưng bằng sự phân bổ về cường độ và
hướng của cạnh. Đặc trưng HoG được tính trên cả một vùng. Do sự biến
thiên về màu sắc trong các vùng là khác nhau, kết quả mỗi vùng sẽ cho ta
một véc tơ đặc trưng của nó. Vì vậy, để có được đặc trưng của toàn bộ cửa
sổ (window) ta phải kết hợp nhiều vùng liên tếp lại với nhau.
Đặc trưng HoG có một số biến thể thường gặp như: R-HoG, R2-HoG,
C-HoG. Các đặc trưng này khác nhau ở cách phân bố và hình dạng của các ô
như trong hình: