Đề tài tiểu luận môn nhận dạng. Giảng viên: PSG.TS. Nguyễn Thị Hoàng Lan.
Trường đại học Bách Khoa Hà Nội
Viện công nghệ thông tin và truyền thông
Đề tài môn nhận dạng:
Tìm hiểu phương pháp trích chọn đặc trưng cho khuôn mặt áp
dụng PCA và ứng dụng xác thực thẩm định khuôn mặt.
Giảng viên hướng dẫn:
Học viên : Lê Xuân Bách.
Đặng Văn Huy.
Trương Quang Thịnh.
Hà Nội 14-12-2012
1
Học viên: Lê Xuân Bách, Đặng Văn Huy, Trương Quang Thịnh.
Đề tài tiểu luận môn nhận dạng. Giảng viên: PSG.TS. Nguyễn Thị Hoàng Lan.
Bảng phân công công việc.
Công việc Người thực hiện.
Tìm hiểu các đặc khuôn mặt. Đặng Văn Huy
Tìm hiểu phương pháp trích chọn
đặc trưng-PCA
Trương Quang Thịnh.
Ứng dụng thẩm định khuôn mặt Lê Xuân Bách
2
Học viên: Lê Xuân Bách, Đặng Văn Huy, Trương Quang Thịnh.
Đề tài tiểu luận môn nhận dạng. Giảng viên: PSG.TS. Nguyễn Thị Hoàng Lan.
Phụ lục.
3
Học viên: Lê Xuân Bách, Đặng Văn Huy, Trương Quang Thịnh.
Đề tài tiểu luận môn nhận dạng. Giảng viên: PSG.TS. Nguyễn Thị Hoàng Lan.
1 Mở đầu.
Hơn một thập kỷ qua, có rất nhiều công trình nghiên cứu về bài toán xác
định khuôn mặt người từ ảnh đen trắng, ảnh xám, đến ảnh màu như ngày nay.
Trong đó, lược đồ màu RGB được sử dụng phổ biến nhất.
Trong đó N là số lượng điểm ảnh.
Lược đồ màu này được tính bằng cách rời rạc hóa từng màu trong ảnh, sau
đó đếm số điểm ảnh của mỗi màu. Khi mà số lượng màu là có hạng, để thuận tiện
hơn, người ta thường chuyển đổi ba kênh màu thành một biến giá trị duy nhất. Một
cách khác để tính lược đồ màu của ảnh RGB là ta phân ra làm 3 lượt đồ riêng
biệt ,,. Khi đó, mỗi lược đồ được tính bằng cách đếm kênh màu tương ứng trong
mỗi điểm ảnh.
Độ đo:
Một số độ đo tương đồng được sử dụng như: Đ ộ đo khoảng cách Ơclit, độ
đo Jensen-Shannon divergence (JSD).
Gọi h(I) và h(M) tương ứng là 2 lượt đồ màu của hai ảnh I và ảnh M. Khi đó
các loại độ đo màu được định nghĩa là một số nguyên (hoặc số thực) theo các loại
độ đo tương ứng như sau:
5
Học viên: Lê Xuân Bách, Đặng Văn Huy, Trương Quang Thịnh.
Đề tài tiểu luận môn nhận dạng. Giảng viên: PSG.TS. Nguyễn Thị Hoàng Lan.
o Khoảng cách Ơclit: Đây là khoảng cách Ơclit thông thường giữa các K
bin.
.
Hoặc
.
o Độ đo Jensen-Shannon divergence (JSD):
Trong đó : H và H’ là 2 biểu đồ màu được so sánh, Hm
là bin thứ m của biểu đồ H.
2.1.2 Đặc trưng kết cấu.
Hiện tại, vẫn chưa có một định nghĩa chính thức cụ thể về kết cấu. Kết cấu là
một đối tượng dùng để phân hoạch ảnh ra thành những vùng quan tâm để phân lớp
những vùng đó.
Kết cấu cung cấp thông tin về sự sắp xếp về mặt không gian của màu sắc và
nhận dạng đối tượng, cho tới những độ đo chi tiết tự động tìm kiếm những hình
dạng đặc biệt. Lược đồ hình dạng là một ví dụ của độ đo đơn giản. Kỹ thuật dùng
đường biên hiệu quả hơn phương pháp trước, chúng tìm kiếm những hình dạng đối
tượng gần giống với đường biên nhất. Phương pháp vẽ phác họa là phương pháp có
nhiều đặc trưng rõ ràng hơn, không chỉ tìm kiếm những đường biên đối tượng đơn,
mà còn đối với tập những đối tượng đã được phân đoạn trong một ảnh mà người
dùng vẽ hay cung cấp.
2.1.4 Đặc trưng cục bộ bất biến.
Người ta thường chia đặc trưng cụ bộ thành 2 loại là những điểm trích xuất
được từ điểm "nhô ra" (salient points) của ảnh và đặc trưng SIFT được trích chọn
từ các điểm hấp dẫn Haris (interest points). Trong phần này, chúng tôi sẽ trình bày
chi tiết về việc trích chọn các đặc trưng cục bộ bất biến (Scale Invariant Feature
Transform SIFT)của ảnh.
Phần này trình bày phương pháp trích rút các đặc trưng cục bộ bất biến SIFT
của ảnh. Các đặc trưng này bất biến với việc thay đổi tỉ lệ ảnh, quay ảnh, đôi khi là
thay đổi điểm nhìn và thêm nhiễu ảnh hay thay đổi cường độ chiếu sáng của ảnh.
Phương pháp được lựa chọn có tên là Scale-Invariant Feature Transform (SIFT) và
đặc trưng trích rút đựợc gọi là đặc trưng SIFT (SIFT Feature). Các đặc trưng SIFT
7
Học viên: Lê Xuân Bách, Đặng Văn Huy, Trương Quang Thịnh.
Đề tài tiểu luận môn nhận dạng. Giảng viên: PSG.TS. Nguyễn Thị Hoàng Lan.
này được trích rút ra từ các điểm hấp dẫn cục bộ (Local Interest Point). Điểm hấp
dẫn (Interest Point (Keypoint)): Là vị trí (điểm ảnh) "hấp dẫn" trên ảnh. "Hấp dẫn"
ở đây có nghĩa là điểm đó có thể có các đặc trưng bất biến với việc quay ảnh, co
giãn ảnh hay thay đổi cường độ chiếu sáng của ảnh.
Phương pháp trích rút các đặc trưng bất biến SIFT được tiếp cận theo
phương pháp thác lọc, theo đó phương pháp được thực hiện lần lượt theo các bước
sau:
Phát hiện các điểm cực trị Scale-Space (Scale-Space extrema detection):
Bước đầu tiên này tiến hành tìm kiếm các điểm hấp dẫn trên tất cả các tỉ lệ và vị trí
Jian và Guihua Er. Mingjing đưa ra tiêu chí lựa chọn các đặc trưng là: Mô hình
tương phản đặc trưng được tổng quát hóa (Generalized Feature Contrast Model)
dựa trên mô hình tương phản đặc trưng (Feature Contrast Model). Một số phương
pháp cổ điển khác như phương pháp dựa vào phân phối (distribution based).
Phương pháp dựa vào phân tích biệt thức (Discriminant analysis DA) ví dụ như
Phân tích đa biệt thức (Mutiple Discriminant analysis MDA)), phân tích biệt thức
không đối xứng (biased Discriminant analysis BDA). Phương pháp tối đa khoảng
cách tối thiểu đối xứng trong không gian con (symmetric maximized minimal
distance in subspace SMMS).
Hai mô hình phổ biến cho lựa chọn đặc trưng là: Mô hình Filter và mô hình
Wrapper.
o Mô hình Filter: đánh giá mỗi phần tử bằng một vài tiêu chuẩn hay độ đo nào
đó, rồi chọn ra tập con các thuộc tính được đánh giá cao nhất.
o Mô hình Wrapper: Sử dụng một thuật toán tìm kiếm để đánh giá tập con các
thuộc tính coi như là một nhóm hơn là một phần tử riêng lẻ. Cốt lõi của mô
hình Wrapper là một thuật toán học máy cụ thể. Nó đánh giá độ tốt của
những tập con đặc trưng tùy theo độ chính xác học của tập con, điều này
xác định thông qua một tiêu chí nào đó
9
Học viên: Lê Xuân Bách, Đặng Văn Huy, Trương Quang Thịnh.
Đề tài tiểu luận môn nhận dạng. Giảng viên: PSG.TS. Nguyễn Thị Hoàng Lan.
3 Phương pháp trích chọn đặc trưng.
Sau khi phát hiện được khuôn mặt trong ảnh đầu vào ta cần phải biểu diễn ảnh
khuôn mặt thành một véc tơ đặc trưng, tuy nhiên vì kích thước ảnh khuôn mặt quá
lớn nếu biểu diễn véc tơ là các pixel của ảnh khuôn mặt thì có thể làm cho quá
trình huấn luyện và nhận dạng rất chậm, và xảy ra trường hợp quá khớp vì vậy bài
toán đặt ra là cần phải có phương pháp để biểu diễn ảnh khuôn mặt thành véc tơ
đặc trưng mà vẫn giữ lại được những thành phần quan trọng của ảnh.
Có nhiều phương pháp đã được nghiên cứu để giải quết bài toán này, điển
hình là một số phương pháp sau: Sử dụng các đơn vị vận động trên khuôn mặt
ứng với các giá trị riêng cao nhất.
3.1.2 Một số khái niệm toán học trong PCA:
3.1.2.1 Độ lệch chuẩn.
Để hiểu độ lệch chuẩn, chúng ta cần một tập dữ liệu. Giả sử ta có tập
X = [1 2 4 6 12 15 25 45 68 67 65 98]
X là ký hiệu đại diện cho tập số, mỗi số riêng biệt được ký hiệu X
i
(Ví dụ X
3
=
4). Phần tử đầu tiên là X
1
và n là số lượng phần tử của tập hợp. Khi đó trung bình
của mẫu có công thức:
Là ký hiệu trung bình của mẫu, tuy nhiên trung bình mẫu không nói lên
được nhiều điều ngoại trừ cho ta biết nó là một điểm giữa. Ví dụ với 2 tập dữ liệu
[0 8 12 20] và [8 9 11 12] có trung bình mẫu bằng nhau nhưng lại khá
khác nhau. Sự khác biệt ở đây chính là khoảng cách của dữ liệu. Và độ lệch chuẩn
là đại lượng để đo khoảng cách này. Ta có thể hiêu độ lệch chuẩn là khoảng cách
trung bình từ trung bình mẫu đến các điểm của dữ liệu. Ta có công thức:
Tập hợp 1
11
Học viên: Lê Xuân Bách, Đặng Văn Huy, Trương Quang Thịnh.
Đề tài tiểu luận môn nhận dạng. Giảng viên: PSG.TS. Nguyễn Thị Hoàng Lan.
Tập hợp 2
Ta có thể dễ dàng nhận thấy tập dữ liệu 1 có độ lệch chuẩn lớn hơn có
khoảng cách lớn hơn tập dữ liệu 2.
3.1.2.2 Phương sai.
Phương sai là một đại lượng khác dùng để đo khoảng cách của dữ liệu. Ta
có công thức:
cho: λ.u
Khi đó vectơ u được gọi là vectơ riêng (VTR) của ma trận A ứng với giá trị
riêng .
Giá trị riêng chính là nghiệm của phương trình:
được gọi là phương trình đặc trưng của ma trận A.
Một giá trị riêng có thể có nhiều vectơ riêng.
Mỗi vectơ riêng chỉ ứng với một giá trị riêng duy nhất.
Ma trận A là nghiệm của đa thức đặc trưng của chính nó (trong trường
hợp này đa thức đặc trưng được coi là đa thức ma trận, nghĩa là biến
số của nó không phải là biến số thực mà là biến ma trận)
13
Học viên: Lê Xuân Bách, Đặng Văn Huy, Trương Quang Thịnh.
Đề tài tiểu luận môn nhận dạng. Giảng viên: PSG.TS. Nguyễn Thị Hoàng Lan.
Nếu là giá trị riêng của ma trận A thì A không khả nghịch. Ngược lại,
nếu mọi GTR của A đều khác không thì A khả nghịch.
Nếu là GTR của ma trận A thì là giá trị riêng của ma trận
3.1.3 Áp dụng trong xử lý ảnh.
Mỗi bức ảnh được coi là một ma trận NxN, nhưng do thuật toán PCA áp
dụng cho các vector một chiều nên ta thực hiện phép biến đổi:
Ta coi mỗi bức ảnh là 1 vector NxN và quy về vector x1, và áp dụng phương
pháp PCA để xác định các đặc trưng của ảnh.Với mỗi bức ảnh ta coi đó là 1
vector .
Giả sử ta có một tập các bức ảnh S={,,… }. Ta thực hiện các bước như sau:
o Tính ảnh trung bình : .
o Tính sai lệch của các ảnh đầu vào so với trung bình: .
o Tính ma trận hiệp phương sai: ; A={}
Vì ma trận C có kích thước lớn (NxN) nên để tìm vector riêng của C ta
tìm vector riêng và trị riêng của ma trận L:
o với
Ma trận L có kích thước MxM << NxN nên việc tính vector riêng sẽ nhanh
Công việc này sẽ được thực hiện bởi một số nhân viên nhất định của doanh
nghiệp , những nhân viên này sẽ được doanh nghiệp xác định và cung cấp cho
nhóm xây dựng ứng dụng. Ngoài ra doanh nghiệp còn được cung cấp các đoạn
video đã được ghi lại trong quá trình làm việc của các nhân viên, và ảnh thẻ của
các nhân viên đó.
4.2 Hệ thống xác thực thẩm định khuôn mặt.
16
Học viên: Lê Xuân Bách, Đặng Văn Huy, Trương Quang Thịnh.
Đề tài tiểu luận môn nhận dạng. Giảng viên: PSG.TS. Nguyễn Thị Hoàng Lan.
4.3 Quá trình học.
4.3.1 Phân tích các thành phần chính.
Áp dụng quá trình phân tích
các đặc trưng chính(PCA) để phân
tích đặc trưng của ảnh. Với mỗi
ảnh đầu vào ta xác định khuôn
mặt.
Mỗi bức ảnh được coi là một
ma trận NxN, nhưng do thuật toán
PCA áp dụng cho các vector một
chiều nên ta thực hiện phép biến
đổi:
Ta coi mỗi bức ảnh là 1 vector
NxN và quy về vector x1, và áp
dụng phương pháp PCA để xác
định các đặc trưng của ảnh.Với
mỗi bức ảnh ta coi đó là 1 vector .
17
Học viên: Lê Xuân Bách, Đặng Văn Huy, Trương Quang Thịnh.
Bây giờ ta đã có một tập các bức ảnh S={,,… }. Ta sẽ thực hiện phân tích các
thành phần chính như thuật toán PCA (đã miêu tả ở trên) để trích chọn các đặc
4.4 Quá trình nhận dạng.
Với quá trình nhận cung tuân thủ các bước đầu tiên về phân tích các thành phần
chính như phần 4.3.1. Như đã nói ở trên kết thúc quá trình học ta có K nhóm: với
i=1 K tương ứng với đó là các ảnh đại diện cho nhóm , giả sử tại một thời điểm ta
có bức ảnh là ảnh chứa khuôn mặt được lấy từ video quan sát trong quá trình làm
việc. Ta cần xác định ảnh X chứa khuôn mặt nhân viên nào trong số K nhân viên.
Tại quá trình nhận dạng này ta xác định một ảnh bất kỳ thuộc nhóm nào theo lý
thuyết ra quyết định Bayes.
.
Trong đó:
Trong trường hợp tổng quát, doanh nghiệp sử dụng luân phiên giữa các nhân
viên, nên có thể coi tại một thời điểm ảnh thu được qua camera quan sát có xác
suất thuộc nhóm là tuân theo luật phân phối chuẩn.
(*)
là định thức của ma trận hiệp phương sai của nhóm thứ k, là vector
trung bình của nhóm k.
Và có thể coi xác suất các lớp cân bằng:
(**)
Từ (*) và (**) ta tính được , từ đó ta sử dụng lý thuyết ra quyết định để xác
định ảnh thuộc nhóm nào.
4.5 Đánh giá hệ thống.
Hệ thống kế thừa thư viện OpenCV để thực hiện xác định khuôn mặt trên mỗi
bức ảnh thu được từ camera và sử dụng hàm phân tích thành phần chính của
OpenCV để trích rút đặc trưng. Sau đó mới thực hiện học và nhận dạng ảnh.
Do có sự sử dụng lại thư viện OpenCV nên việc các bức ảnh khuôn mặt xác
định có thể bị nghiêng, lệch, hoặc các bức ảnh có khôn mặt mờ, không rõ nét vẫn
được OpenCV xác định, khi đưa những bức ảnh này vào quá trình học có thể gây
ra các hiệu ứng làm sai lệch phân nhóm, thay đổi vector chính của nhóm… Ngoài
ra các bức ảnh có nghiêng lệch, mờ… trong quá trình nhận dạng sẽ cho độ chính
xác thấp, có thể gây ra nhận dạng nhầm.
2001.
4. Z.Wen, T. Huang. Capturing Subtle Facial Motions in 3D Face Tracking.
International Conference on Computer Vision. 2003.
5. Y.Zhang, Q.Ji. Active and dynamic information fusion for facial expression
understanding from image sequence. IEEE Transactions on Pattern Analysis
and Machine Intelligence. 2005.
6. M.S.Bartlett, J.C.Hager, P.Ekman, T.J.Sejnowski. Measuring facial
expressions by computer image analysis. Psychophysiology. 1999.
7. Z.Zhang, M.Lyons, M.Schuster, S.Akamatsu. Comparison Between
Geometry-Based and Gabor-Wavelets-Based Facial Expression Recognition
Using Multi-Layer Perceptron. IEEE International Conference on Automatic
Face and Gesture Recognition. 1998.
8. M.Pantic, I.Patras. Dynamics of facial expression: Recognition of facial
actions and their temporal segments from face profile image sequences. IEEE
Transactions on Systems, Man and Cybernetics. 2006.
9. E.Holden, R.Owens. Automatic Facial Point Detection, Asian Conference on
Computer Vision. 2002.
10. D.Vukadinovic, M.Pantic. Fully Automatic Facial Feature Point Detection
Using Gabor Feature Based Boosted Classifiers. IEEE International
Conference on Systems, Man and Cybernetics. 2005.
11. L.Chen, L.Zhang, H.Zhang, M.Abdel-Mottaleb. 3D Shape Constraint for
Facial Feature Localization using Probabilistic-like Output. IEEE International
Workshop Analysis and Modeling of Faces and Gestures. 2004.