ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
o0o PHẠM TRUNG KIÊN
TÌM KIẾM VÀ NHẬN DẠNG
KHUÔN MẶT NGƯỜI TRONG ẢNH
LUẬN VĂN CAO HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. NGÔ QUỐC TẠO
2.2 Tìm kiếm khuôn mặt người trong ảnh dựa trên màu da 18
2.2.1 Giới thiệu [16] 18
2.2.2 Dò tìm da trên ảnh màu 19
2.2.2.1 Mô hình hóa da 20
2.2.3 Không gian màu cho mô hình da 23
2.2.3.1 Phân tách vùng da trong không gian màu rg 25
2.2.4 Xác định vùng da sử dụng entropy 28
2.2.4.1 Khái niệm về entropy 28
2.2.4.2 Phát hiện màu da bằng mô hình Entropy cực đại. 29
2.2.5 Định vị khuôn mặt bên trong các vùng da 35
2.2.5.1 Giới thiệu 35
2.2.5.2 Định vị vùng khả năng mặt 36
2.2.5.3 Ra quyết định sử dụng đối sánh mẫu 39
2.2.6 Kết luận về tìm kiếm khuôn mặt dựa trên màu da 41
3 Chương 3 RÚT TRÍCH ĐẶC TRƯNG TỪ KHUÔN MẶT 42
3.1 Tiếp cận theo phương pháp phân tích thành phần chính (Principal Component Analysis hay PCA)
42
3.1.1 Vector riêng, Trị riêng và sự chéo hoá của ma trận 42
3.1.2 Kì vọng và phương sai trong thống kê đa chiều 43
3.2 Phương pháp phân tích thành phần chính (Principal Component Anlysis hay PCA) 43
3.2.1 Yêu cầu 43
3.2.2 Trích đặc trưng bằng phương pháp PCA 44
3.2.3 Kỹ thuật tính đặc trưng bằng PCA 46
3.3 Phương pháp PCA toàn cục và cục bộ 48
3.3.1 Phương pháp PCA toàn cục 48
3.3.2 Phương pháp PCA cục bộ 48
3.4 Đánh giá 49
3.4.1 Mộ số đánh giá quan trọng về rút trích đặc trưng bằng phương pháp PCA 49
3.4.2 So sánh phương pháp PCA toàn cục và PCA cục bộ 49
4 Chương 4 MÔ HÌNH MAKOV ẨN VÀ ỨNG DỤNG NHẬN DẠNG
Hình 2-2. Mẫu da của mỗi người rất khác nhau 19
Hình 2-3. Mẫu da bị ảnh hưởng bởi các loại nhiễu và biến dạng 19
Hình 2-4. Những mạng SOM với những hệ thống khu lân cận 21
Hình 2-5. Phân phối màu cho các màu da khác nhau 27
Hình 2-6. Biểu diễn mô hình màu da bằng phân phối Gauss 27
Hình 2-7. Đường cong entropy của biểu diễn biến ngẫu nhiên 29
Hình 2-8. 4 điểm lân cận và 8 điểm lân cận 30
Hình 2-9. Một ảnh mẫu từ tập phân phối thỏa mãn D, có năng lượng cực tiểu 33
Hình 2-10. Hình (a): ảnh gốc, hình (b): Baseline, hình (c): HMM, 35
Hình 2-11. Khuôn mặt mẫu của Chang và Robles 39
Hình 2-12. Khuôn mặt mẫu tổng hợp 39
Hình 2-13. Khuôn mặt mẫu được điều chỉnh kích thước 40
Hình 2-14. Khuôn mặt mẫu được xoay và điều chỉnh lại kích thước 40
Hình 4-5. Tính hội tụ của khoảng cách HMM khi độ dài chuỗi quan sát tăng 58
Hình 4-6.(a) Mô hình ergodic 4 trạng thái (b) Mô hình trái - phải 4 trạng thái 59
Hình 4-7. Mô hình mặt 6 trạng thái 60
Hình 4-8. Ảnh mặt và phương pháp trích chọn khối quan sát. 61
Hình 4-9. Chiến lược huấn luyện mô hình Markov ẩn cho biểu diễn khuôn mặt 66
Hình 4-10. Nhận dạng mặt sử dụng mô hình Marov ẩn 67
Hình 4-11. Tìm kiếm khuôn mặt sử dụng mô hình Markov 68
Hình 4-12. Mô hình Markov ẩn nhúng với 3 siêu trạng thái 70 6
BẢNG CÁC TỪ VIẾT TẮT
Kí hiệu
Từ Tiếng Anh
Giải thích
Linear discriminant analysis
Phân tích độc lập tuyến tính
KLT
Karhunen-Loève transform
Phép biến đổi Karhuen-loeve
DCT
Discrete cosine transform
Phép biến đổi Cosin rời rạc
ORL
Olivetti Research Laboratory
PDF
probability density function
hàm mật độ xác suất
7
0 MỞ ĐẦU
Ngày nay, cùng với những tiến bộ vượt bậc của khoa học kỹ thuật nói chung,
bộ môn khoa học xử lý ảnh đã và đang thu được những thành tựu lớn lao và chứng
tỏ vài trò không thể thiếu với những ứng dụng sâu rộng trong khoa học kỹ thuật
cũng như đời sống xã hội. Một bộ phận của khoa học xử lý ảnh là lĩnh vực thị giác
máy tính hiện đang thu hút rất nhiều sự quan tâm của các nhà nghiên cứu xử lý ảnh
với mục tiêu xây dựng nên một thế giới trong đó hệ thống thị giác kỳ diệu của con
người có thể được mô phỏng bởi các hệ thống máy tính, đem lại khả năng cảm nhận
bằng thị giác cho các hệ thống về môi trường xung quanh. Mơ ước về một hệ thống
máy tính có thể hoà nhập vào thế giới con người với đầy đủ các giác quan trong đó
8
Bố cục của luận văn gồm:
Chương 1: Phát biểu bài toán
Nêu lên một số khái niệm liên quan đến nhận dạng khuôn mặt; các ứng dụng
tương tác người máy liên quan đến nhận dạng khuôn mặt; điểm qua một số phương
pháp nhận dạng khuôn mặt được nghiên cứu và cải tiến trong thời gian gần đây.
Chương 2: Dò tìm khuôn mặt người trong ảnh màu
Giới thiệu một số phương pháp dò tìm khuôn mặt người dựa trên màu da.
Chương 3: Rút trích đặc trưng từ khuôn mặt người
Trình bày phương pháp phân tích các thành phần chính PCA (Principal
Component Analysis) rút trích đặc trưng từ ảnh bản đầu.
Chương 4: Mô hình Markov ẩn và ứng dụng nhận dạng khuôn mặt
Giới thiệu mô hình Markov ẩn, một số bài toán cơ bản của mô hình Markov
và ứng dụng mô hình trong nhận dạng khuôn mặt người.
Chương 5: Kết luận
Hình 1-1. So sánh hai tác vụ nhận dạng khuôn mặt và xác nhận khuôn mặt
Hoàn toàn không biết thông tin Đã biết trước thông tin
nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ thống
nhận dạng nói chung ở trên.
1.1.4.2 Hệ thông nhận dạng tĩnh - động
Hệ thống nhận dạng tĩnh - động là hệ thống được thiết kế bằng cách sử dụng
một số ảnh tĩnh làm mẫu để nhận dạng khuôn mặt người trong ảnh động. Kỹ thuật
nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ thống
nhận dạng nói chung ở trên, song ảnh cần kiểm tra là các khung ảnh động trong các
đoạn phim từ các máy camera. Kỹ thuật này dĩ nhiên không thể chính xác vì chuyển
động của mặt người trong đoạn phim khá phức tạp song thể hiện trong ảnh tĩnh để
huấn luyện lại ít.
1.1.4.3 Hệ thống nhận dạng động - động
Hệ thống nhận dạng động - động là hệ thống được thiết kế bằng cách sử
dụng các ảnh động làm mẫu để nhận dạng khuôn mặt người trong ảnh động. Kỹ
thuật nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ
thống nhận dạng nói chung ở trên. Tuy nhiên, kỹ thuật này chính xác hơn kỹ thuật
sử dụng trong hệ thống nhận dạng tĩnh - động do sự chuyển động phức tạp của
khuôn mặt người cũng được huấn luyện bằng các khung ảnh động.
1.1.5 Những thách thức trong bài toán nhận dạng khuôn mặt
Những biến đổi quá lớn giữa các ảnh khuôn mặt khác nhau từ một người cần
nhận dạng gồm trạng thái cảm xúc trên khuôn mặt, ánh sáng, và các thay đổi vị trí
của khuôn mặt vv.
Giới hạn về số ảnh cần thiết cho việc nhận dạng, tập học không thể bao quát
được tất cả các biến đổi có thể có trên khuôn mặt của một người cần nhận dạng
trong thế giới thực.
1.1.6 Sai số trong hệ nhận dạng [20]
Hệ nhận dạng bằng sinh trắc luôn có sai số nói cách khác không thể chính
xác tuyệt đối.
Độ chính xác của (đối sánh 1:1, và 1:N) phụ thuộc nhiều yếu tố, ví dụ thông
tin sinh trắc (Sample data), bản thân thuật toán trích chọn đặc điểm (enrollment) và
thuật toán đối sánh (matcher), kích cỡ CSDL - miền đối sánh.
sản xuất kinh doanh, thương mại, tài chính, ngân hàng, Trong thời gian không xa,
chi phí cho các thiết bị này sẽ giảm đáng kể. Khi đó sẽ mở ra nhiều hướng nghiên
cứu về thị giác máy tính, đồng thời sẽ có nhiều ứng dụng trong giao tiếp giữa người
với máy tính mà trong đó hệ thống nhận dạng mặt người đóng một vai trò không
nhỏ. Dưới đây là một số ứng dụng.
Các ứng dụng chuyên biệt cho ngành hàng không
Đảm bảo sự truy cập và tính hợp lệ trong công việc cho từng nhân viên:
Mỗi nhân viên làm việc tại cảng hàng không cũng như nhân viên phi hành
đoàn được cung cấp quyền truy cập để đến vị trí làm việc. Làm thế nào để
xác minh nhân viên này vào đúng khu vực làm việc hay không?
Làm sao để đảm bảo trong số những hành khách không có sự trà trộn của
một số kẻ khủng bố/tội phạm quốc gia/ quốc tế?
Bảo vệ trẻ em ở nhà trẻ từ bọn bắt cóc
Quy định rằng, chỉ có những nhân viên của nhà trẻ mới được phép dẫn trẻ
em ra ngoài và trao tận tay cho bố mẹ đón về. Nhưng trong xã hôi cũng có
một số trường hợp giả danh nhân viên để bắt cóc trẻ em với mục đích xấu.
Làm thể nào để ngăn chặn hành vi xấu này?
Nhận dạng khuôn mặt được sử dụng kèm với thẻ quy cập
Trong các nước phát triển, hầu như mọi người dân đều dùng thẻ tín dụng
để mua bán, rút tiền, trao đổi hàng hóa. Điều này rất nguy hiểm khi thẻ truy
cập này bị người khác nhặt được hay biết được mật khẩu của sở hữu thẻ này?
Làm cách nào có thể bảo đảm an toàn nhất?
Có thể dùng song mật khẩu: Có nghĩa sử dụng khuôn mặt như là một
mật khẩu thứ hai để truy cập vào hệ thống cùng với thông tin từ card truy
cập. Để rút được tiền
• Đưa thẻ vào hệ thống
• Đưa khuôn mặt vào để nhận dạng
• Xác minh người này có phải là chủ sở hữu của thẻ hay không?
Nếu khớp thì hệ thống cho rút tiền
Nếu không thì hệ thống không cho rút tiền.
chất lượng cho một hệ thống nhận dạng khuôn mặt
Bài toán nhận dạng khuôn mặt cần xác định hai vấn đề chính: dùng thông tin
nào để nhận dạng: chân mày, cặp mắt, mũi, môi, tai, hay kết hợp các thông tin trên.
Và dùng phương pháp nào để huấn luyện cho máy nhận dạng dùng nguồn thông tin
đó. Nhận dạng khuôn mặt trên máy tính đã trải qua nhiều bước thăng trầm, chúng ta
có thể liệt kê một số kết quả như sau:
Wenyi Zhao, Arvindh Krishnaswamy, Rama Chellappa, Danie L.Swets, John
Weng (1998)[4] sử dụng phương pháp PCA (phân tích thành phần chính) kết hợp
LDA (phân tích độc lập tuyến tính). Bước 1, chiếu ảnh khuôn mặt từ không gian
ảnh thô sang không gian các không gian khuôn mặt (Mỗi lớp khuôn mặt được nhận
dạng sẽ được mô hình hóa bằng một không gian khuôn mặt) dùng PCA. Bước 2, sử
dụng phương pháp LDA để tạo bộ phân loại tuyến tính có khả năng phân lớp các
lớp khuôn mặt.
John Daugnman (1998), đưa ra phương pháp dùng đặc trưng về tròng của
mắt để phân biệt cặp (trai/gái) song sinh.
Emmanuel Viennet và Francoise Fogelman Soulie (1998), sử dụng phương
pháp mạng neural nhân tạo để xử lý và nhận dạng khuôn mặt. 14
Antonio J.Colmenarez và Thomas S.Huang (1998),[5] sử dụng kỹ thuật học
thị giác và phù hợp mẫu 2-D. Ông quan niệm bài toán dò tìm khuôn mặt là thao tác
phân loại khuôn mặt trong đó khuôn mặt thuộc về một lớp và các đối tượng khác
thuộc về lớp còn lại bằng cách ước lượng mô hình xác suất cho mỗi lớp, và việc dò
tìm sử dụng luật quyết định Maximum-likelihood.
Kazunori Okada, Johannes Steffens, Thomas Maurer, Hai Hong, Egor
Elagin, Hartmut Neven, and Christoph (1998),[6] nhận dạng khuôn mặt dựa vào
sóng Gabor và phương pháp phù hợp đồ thị bó. Với ý tưởng dùng đồ thị để biểu
diễn khuôn mặt, ảnh khuôn mặt được đánh dấu tại các vị trí đã được xác định trước
trên khuôn mặt, gọi các vị trí này chính là các vị trí chuẩn. Khi thực hiện thao tác so
15
sử dụng để đặc trưng cho mỗi trạng thái trong chuỗi trạng trạng thái của HMM. Mỗi
người được ước lượng bằng một mô hình của HMM.
Guodong Guo, Stan Z.Li, Kap Luk Chan (2001), dùng phương pháp SVM để
nhận dạng khuôn mặt. Sử dụng chiến lược kết hợp nhiều bộ phân loại nhị phân để
xây dựng bộ phân loại SVM đa lớp.
1.3.2 Hướng tiếp cận được thử nghiệm trong luận văn
Trong đề tài đi vào tìm hiểu phương pháp nhận dạng dùng HMM; tìm hiểu
phương pháp PCA (phân tích thành phần chính) để trích chọn đặc trưng từ ảnh.
Việc cô lập khuôn mặt trong ảnh đầu vào (ảnh chứa khuôn mặt) được thực
hiện với phương pháp dò tìm dựa trên màu da kết hợp với mô hình Markov ẩn.
16
2 Chương 2 DÒ TÌM KHUÔN MẶT TRONG ẢNH MÀU
2.1 Giới thiệu
Dò tìm đối tượng là bài toán cơ bản và quan trọng trong lĩnh vực thị giác
máy tính. Các kỹ thuật đã được áp dụng có thể chia thành một trong hai tiếp cận: so
khớp các mô hình hình học hai, ba chiều vào ảnh [Seutens at al., 1992, Chin và
Dyer, 1986, Besl và Jain, 1985], hay phương pháp so khớp các mô hình khung vào
ảnh có chứa khuôn mặt cần dò tìm. Các nghiên cứu trước đây cho thấy rằng các
phương pháp dựa trên khung nhìn có thể dò tìm các khuôn mặt thẳng trong nền
phức tạp một cách hiệu quả.
Việc phát triển bộ dò tìm đối tượng dựa trên khung nhìn dùng máy học có ba
vấn đề chính. Thứ nhất, ảnh của các đối tượng (chẳng hạn khuôn mặt) biến đổi
nhiều, tuỳ thuộc vào độ sáng, tình trạng che lấp, tư thế, biểu hiện khuôn mặt và tính
tìm.
Giả sử ta muốn dò khuôn mặt nghiêng trong mặt phẳng ảnh, ngoài các khuôn
mặt thẳng. Việc thêm các khuôn mặt nghiêng vào tập các ảnh ta muốn dò tìm làm
tăng độ biến thiên của tập, và có thể làm tăng độ phức tạp của đường biên quyết
định của tập ảnh. Độ phức tạp này làm bài toán dò tìm khó hơn. Việc thêm ảnh mới
vào tập ảnh đối tượng có thể làm đường biên quyết định đơn giản hơn và dễ học
hơn. Có thể tưởng tượng điều này là đường biên quyết định được làm trơn bằng
việc thêm các ảnh vào tập.
Có nhiều nguồn biến đổi trong bài toán dò tìm đối tượng, và cụ thể trong bài
toán dò tìm khuôn mặt. Có các nguồn biến đổi sau.
Biến đổi trong mặt phẳng ảnh: loại biến đổi ảnh khuôn mặt đơn giản nhất có
thể được biểu diễn độc lập với khuôn mặt, bằng cách quay, dịch chuyển, biến
đổi tỷ lệ và soi gương ảnh.
Biến đổi độ sáng và ngữ cảnh: biến đổi do đối tượng và môi trường gây ra,
cụ thể các thuộc tính bề mặt của đối tượng và các nguồn sáng. Các thay đổi
về nguồn sáng nói riêng có thể biến đổi hoàn toàn vẻ bề ngoài của khuôn
mặt.
Biến đổi nền: Trong luận văn của mình, Sung cho rằng với kỹ thuật nhận
dạng mẫu hiện nay, tiếp cận dựa trên khung nhìn để dò tìm đối tượng chỉ
thích hợp cho các đối tượng có “đường biên ảnh có thể dự đoán được”. Khi
đối tượng có hình dáng dự đoán được, ta có thể trích ra window chỉ chứa các
pixel bên trong đối tượng, và bỏ qua nền.
Biến đổi hình dáng: với khuôn mặt, loại biến đổi này bao gồm biểu lộ tình
cảm khuôn mặt, miệng và mắt mở hay đóng, và hình dáng khuôn mặt của
từng người.
Tuy nhiên, nếu việc dò tìm được tiến hành trên các đoạn video hay camera ta
có thể áp dụng các phương pháp xử lý các khung hình liên tục cùng một lúc như
theo vết đối tượng, trừ ảnh v v…
2.1.2 Một số hướng tiếp cận thường được dùng trong dò tìm khuôn mặt
nhanh
sát tự động,
Tuy nhiên sự dò tìm da không phải là một nhiệm vụ dễ. Trước hết, màu da
của mỗi người có thể rất khác nhau. Trong hình 2.2, có người da trắng, người Châu
Phi và người Chấu Á, … Hơn nữa, một khi những hình ảnh được thu nhận với
những thiết bị có đặc điểm kỹ thuật khác nhau dưới nhiều điều kiện, chúng tùy
thuộc vào tất cả các loại nhiễu và sự biến dạng. Hình 2.3 cho thấy vài ví dụ.
19 Hình 2-2. Mầu da của một số chủng tộc người khác nhau
Hình 2-3. Mẫu da bị ảnh hưởng bởi các loại nhiễu và biến dạng
Một hệ thống dò tìm da thì không bao giờ hoàn hảo và những người dùng
khác nhau sử dụng tiêu chuẩn khác nhau cho sự đánh giá.
2.2.2 Dò tìm da trên ảnh màu
Nghiên cứu đã được thực hiện trên sự dò tìm của những điểm da con người
skin
skin
N
cN
skincp
)(
)|(
(2.1)
skin
skin
N
cN
skincp
)(
)|(
(2.2)
cũng như
skinskin
skin
NN
N
skinp
)(
(2.3)
)(1)( skinp
không giám sát. SOM cơ bản gồm có một mạng hai chiều L nơron. Mỗi nơron n
i
L có liên hệ với một vectơ v
i
R
m
mà được khởi tạo ngẫu nhiên khi bắt đầu. Ở đây 21
sử dụng không gian màu hai chiều nên m = 2. Mạng có thể là hình chữ nhật hoặc
lục giác. Hình 2.4 cho thấy những ví dụ của cả hai dạng cũng như khu lân cận của
những nút trung tâm.
Hình 2-4. Những mạng SOM với những hệ thống khu lân cận [2]
Trong thứ tự để huấn luyện SOM, chúng ta giới thiệu những vectơ huấn
luyện tuần tự tới tất cả các nơron trong mạng. Mỗi lúc vectơ đầu vào v được gửi vào
trong SOM, một nơron vw thắng cuộc được xác định bởi
Iivvvv
iw
||,||||||
(1.7)
trong đó, I là tất cả các chỉ số của các nơron trong mạng. Những nơron trong
khu vực lân cận thì điều chỉnh các vector v của chúng theo một hàm học. Trong khi
sự huấn luyện tiến triển, nhịp độ học và kích thước khu lân cận bị tác động làm cả
hai giảm bớt. Mạng dần dần hình thành một ánh xạ có trật tự tôpô (hoặc có đặc tính
bản đồ) của dữ liệu huấn luyện. Nếu cần thiết, một pha định kích cỡ rồi đánh dấu,
nơi được gắn nhãn dữ liệu huấn luyện thì tuần tự được giới thiệu tới SOM. Nhãn dữ
mô hình không tham số. Chúng thể hiện tính đều đặn của những phân phối và cho
phép phân tích về sau. Chúng có khả năng chèn thêm dữ liệu huấn luyện khi nó thưa
thướt. Những hàm khác nhau có thể được áp dụng theo những vấn đề đặc biệt.
Gaussian đơn
Phân phối màu da những mô hình Gaussian đơn với một hàm mật độ xác
suất Gaussian (pdf) :
)()(
2
1
exp
2
1
)|(
1
2/1
skin
skin
T
skin
skin
cccN
N
))()((
1
1
(1.10)
P(c|skin) có thể được sử dụng như xác suất c thuộc về da. Hoặc chúng ta chỉ
cần phát sinh mô hình khác cho lớp không da và sử dụng công thức Bayesian để có
p(skin|c).
Gaussians kết hợp
Mô hình Gaussian kết hợp là một mở rộng của Gaussian đơn, nó có khả năng
đại diện nhiều phân phối phức tạp hơn. Pdf dưới sự pha trộn của Gaussians được
tính như sau: 23
k
i
ii
skincpskincp
sẽ được đánh giá từ tập hợp điểm da huấn luyện. Trước
ước lượng tham số, những người ngoài được loại bỏ từ tập huấn luyện trước hết, mà
là 0 - 5% của sự huấn luyện các mẫu màu da với tần số thấp và được giả thiết là
nhiễu và dữ liệu không đáng kể. Những tham số được đánh giá bởi:
skin
Cc
skin
c
C
1
(1.13)
T
skinskinskin
skin
skin
cccN
N
))()((
1
(1.14)
trong đó, |C
skin
| là số phần tử trong tập hợp màu da C
BGR
R
r
BGR
G
g
BGR
B
b
Từ các công thức tính trên, ta nhận ra
1 bgr
. Hệ màu chuẩn hoá do đó
có thể được biểu diễn hiệu quả thông qua hai thành phần r và g trong khi thành phần
b có thể đạt được thông qua công thức
grb 1
.
Trong phân tích màu da người, biểu đồ phân bố dựa trên hai thành phần r và
g chỉ ra rằng màu khuôn mặt chỉ chiếm một vùng nhỏ trên biểu đồ. Bằng cách so
sánh các thông tin màu của một điểm ảnh lần lượt với các giá trị r và g trong vùng
đó, ta có thể tính toán được khả năng điểm ảnh đó thuộc về vùng da người.
Bên cạnh mô hình màu RGB, có một số mô hình màu khác hiện đang được
gian màu (điều này phụ thuộc nhiều vào số lượng mẫu da và không phải da màu sử
dụng trong quá trình học).
Phân vùng màu một cách cơ bản có thể được thực hiện thông qua sử dụng
một ngưỡng màu da phù hợp trong đó màu da được mô hình thông qua biểu đồ hoặc
đồ thị màu. Một số phương pháp phức tạp hơn sử dụng các tiêu chuẩn thống kê mà
mô hình mặt biến đổi bên trong một dải hình ảnh rộng. Ví dụ, Oliver, Yang và
Waibel đã sử dụng phân phối Gaussian để biểu diễn một nhóm các màu da của hàng
nghìn mẫu màu da được lấy mẫu từ rất nhiều các màu da của các chủng tộc người
khác nhau. Phân phối Gaussian được biểu trưng bởi trung bình
và mà trận hiệp
biến
. Màu của các điểm ảnh từ ảnh đầu vào có thể được so sánh với mô hình da
màu thông qua khoảng cách Mahalanobis. Khoảng cách này sẽ đem lại ý niệm về sự
tương đồng giữa màu sắc điểm ảnh với mô hình màu da. Một ưu điểm của phương
pháp mô hình màu thống kê là biến đổi về màu của một người khác có thể được
thich nghi bởi mô hình tổng quát thông qua phương pháp học. Sử dụng phương
pháp thích nghi này, phương pháp dò tìm qua màu có thể rất hiệu quả khi thay đổi
các nhân tố của môi trường như điều kiện chiếu sáng hoặc các đặc tính của thiết bị
thu.
2.2.3.1 Phân tách vùng da trong không gian màu rg
Mô hình màu da
Để có thể phân tách vùng da người khỏi các vùng không phải là da, ta cần có
một mô hình màu tin cậy để có thể thích ứng được với sự đa dạng về chủng tộc
người và các điều kiện chiếu sáng khác nhau. Trong phần này, mô hình màu được
lựa chọn là mô hình màu da trong không gian sắc độ màu.
Trên thực tế mô hình màu được sử dụng nhiều nhất là mô hình RGB sử dụng
trong biểu diễn ảnh màu. Tuy nhiên, mô hình màu RGB không phù hợp để biểu
diễn mô hình màu da. Chính từ nguyên nhân này mà bài toán tìm mô hình màu biểu
nhau nói chung là tương đồng với nhau và chỉ khác nhau chủ yếu về cường độ. Với
nhận xét này, ta tiếp tục tìm hiểu về các bước tiếp theo xây dựng mô hình màu da
trong không gian sắc độ màu.
Như đã trình bày trong phần tổng quan, các mô hình màu biểu diễn da người
đã được nghiên cứu rất nhiều. Một kết luận rút ra từ các nghiên cứu đó đã khẳng
định rằng phân phối màu da của những người khác nhau tụ lại thành vùng trong
không gian sắc độ màu và một phân phối màu da có thể được biểu diễn bằng mô
hình Gaussian N(m,C) trong đó:
Trung bình: m = E {x} với x = (r,b)
T
Phương sai: C = E {(x-m)(x-m)
T
}
Có thể dẫn ra đây một nghiên cứu của Henry Chang và Ulises Robles để
minh hoạ kết quả trên. Hai ông đã lấy 32500 mẫu da của rất nhiều người chụp trong
17 tấm ảnh màu để xác định phân phối màu da trong không gian sắc độ màu. Các
mẫu được lấy từ những người thuộc các chủng tộc khác nhau: người châu Á, người
da trắng, người châu Phi. Các mẫu da sau đó được lọc nhiễu thông qua bộ lọc trung
bình để giảm tác động của nhiễu. Phân phối màu da trong không gian sắc độ được
minh hoạ trong hình dưới đây.