nghiên cứu một số kỹ thuật phát hiện hướng mặt người trong ảnh - Pdf 24

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN QUANG HUY
NGHIÊN CỨU MỘT SỐ KỸ THUẬT
PHÁT HIỆN HƯỚNG MẶT NGƯỜI TRONG ẢNH
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS Đỗ Năng Toàn
Thái Nguyên - 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

1
LỜI CẢM ƠN

Trước tiên, em xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo, người
hướng dẫn khoa học PGS.TS. Đỗ Năng Toàn (Viện Công nghệ thông tin -
Viện Khoa học và Công nghệ Việt Nam). Thầy đã giúp đỡ em rất nhiều trong
quá trình định hướng nghiên cứu, tìm hiểu, xây dựng và phát triển bài toán để
em có thể hoàn thành luận văn chuyên đề: "Nghiên cứu một số kỹ thuật phát
hiện hướng mặt người trong ảnh".

Thái Nguyên, tháng 8 năm 2012
Học viên Nguyễn Quang Huy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

3
MỤC LỤC
Lời cảm ơn i
Lời cam đoan ii
Mục lục iii
Danh mục các ký hiệu, các chữ viết tắt iv
Danh mục các hình vẽ v
PHẦN MỞ ĐẦU 1
CHƢƠNG 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ NHẬN DẠNG MẶT
NGƢỜI 4
1.1. Khái quát về xử lý ảnh 4
1.1.1. Ảnh số 4
1.1.2. Biểu diễn ảnh số 5
1.1.2.1. Mô hình Raster 5
1.1.2.1. Mô hình Vector 6
1.1.3. Xử lý ảnh số 7
1.1.4. Thu thập ảnh số 8
1.1.5. Nắn chỉnh biến dạng ảnh số 8
1.1.6. Nén ảnh 9
1.1.7. Trích chọn đặc điểm 10
1.1.8. Nhận dạng ảnh 11

2.2.2. Xác định mắt, mũi, miệng và vùng bao quanh khuôn mặt 37
2.2.3. Tính toán góc quay theo 3 chiều 38
2.2.3.1. Xác định góc quay theo hướng  38
2.2.3.2. Xác định góc quay theo hướng  39
2.2.3.3. Xác định góc quay theo hướng  40
CHƢƠNG 3: CHƢƠNG TRÌNH THỬ NGHIỆM 42
3.1. Bài toán phát hiện hướng mặt người trong ảnh 42
3.2. Tư thế khuôn mặt người 42
3.3. Các tư thế khác nhau của khuôn mặt 43
3.4. Chương trình thử nghiệm 57
3.5. Một số trường hợp đặc biệt 50
PHẦN KẾT LUẬN 53
TÀI LIỆU THAM KHẢO 55
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

5
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

SAT: Summed Area Table
Bảng tổng hợp vùng
RSAT: Rotated Summed Area Table
Bảng tổng hợp vùng quay
CART: Classification And Regression Tree
Cây nhận dạng và hồi quy
HCI: Human Computer Interaction
Tương tác người máy
TP: True Positive
Phát hiện đúng
FP: False Positive
Phát hiện sai

Hình 3.3: Tư thế khuôn mặt khi hướng sang phải
Hình 3.4: Tư thế khuôn mặt khi hướng lên trên
Hình 3.5: Tư thế khuôn mặt khi hướng xuống dưới
Hình 3.6: Tư thế khuôn mặt khi hướng lên trên sang trái
Hình 3.7: Tư thế khuôn mặt khi hướng lên trên sang phải
Hình 3.8: Tư thế khuôn mặt khi hướng xuống dưới sang trái
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

7
Hình 3.9: Tư thế khuôn mặt khi hướng xuống dưới sang phải
Hình 3.10: Giao diện chính của chương trình
Hình 3.11: Chương trình nhận dạng các thành phần trên khuôn mặt
Hình 3.12: Chương trình nhận dạng nhiều khuôn mặt
Hình 3.13: Sự xuất hiện của mắt kính trên khuôn mặt
Hình 3.14: Sự xuất hiện của chiếc mũ trên khuôn mặt
Hình 3.15: Sự xuất hiện của cả kính và mũ trên khuôn mặt
Hình 3.16: Khuôn mặt không được nhận dạng bởi góc quay quá lớn
Hình 3.17: Khuôn mặt không được nhận dạng do tư thế che khuất
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

8
PHẦN MỞ ĐẦU

Hiện nay, cùng với sự phát triển của xã hội, vấn đề an ninh bảo mật
đang được yêu cầu khắt khe tại mọi quốc gia trên thế giới. Các hệ thống nhận
dạng con người được ra đời với độ tin cậy ngày càng cao. Một trong các bài
toán nhận dạng con người rất được quan tâm hiện nay là nhận dạng khuôn
mặt. Vì nhận dạng khuôn mặt là cách mà con người sử dụng để phân biệt
nhau. Bên cạnh đó, việc thu thập xử lý thông tin qua ảnh để nhận biết đối
tượng đang được quan tâm và ứng dụng rộng rãi. Với phương pháp này chúng

trên các điểm ảnh sang các khái niệm cao hơn theo các hướng khác nhau.
Giống như các bước trong quá trình xử lý nhận dạng các thành phần trên
khuôn mặt, phương pháp đánh giá tư thế đầu phải được chứng minh bất biến
với sự thay đổi của hàng loạt các yếu tố của bức ảnh. Những yếu tố này bao
gồm các hiện tượng vật lý như biến dạng máy ảnh, các phép chiếu hình học,
điều kiện ánh sáng thay đổi cũng như sự xuất hiện của các yếu tố, phụ kiện
như kính, mũ, ria mép, ….
Mặc dù thấy đó là những đặc điểm kỹ thuật rõ ràng nhưng việc đánh
giá tư thế đầu cũng có nhiều cách thể hiện khác nhau. Ở mức độ thấp, việc
đánh giá tư thế đầu áp dụng với các thuật toán xác định tư thế đầu theo vài
hướng riêng biệt như ngửa mặt về phía trước, quay trái, quay phải…. Ở mức
độ tốt hơn, việc đánh giá tư thế đầu phải trong mô hình 3D kết hợp với mức
độ tự do của các chuyển động của cơ trên khuôn mặt và hàm. Việc phát hiện
tư thế của đầu người có thể được thông qua việc phát hiện các đặc điểm trên
khuôn mặt và áp dụng một số công thức để tìm ra được tư thế đầu người
chuẩn xác nhất.
Việc phát hiện các đặc điểm trên khuôn mặt có thể thông qua một số
phương pháp như xác định dựa trên màu sắc các đặc điểm, dựa trên sự xuất
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

10
hiện của các điểm ảnh trên khuôn mặt hoặc dựa trên các thống kê, mẫu có
sẵn, bộ nhận dạng…. Mỗi phương pháp khi áp dụng đều có những ưu điểm và
nhược điểm riêng.
Trong luận văn này sẽ sử dụng phương pháp dựa trên các bộ nhận dạng
và tập dữ liệu được đào tạo trước để xác định đánh giá tư thế của đầu người
trong ảnh. Các bước xây dựng bộ nhận dạng, lựa chọn đặc trưng dữ liệu đầu
vào, tính toán xác định tư thế của đầu người sẽ được trình bày trong các
chương của luận văn.
Từ những phân tích trên, tôi đã lựa chọn đề tài "Nghiên cứu một số kỹ

dựa vào số bit mã hóa người ta phân loại ảnh số thành các dạng sau:
- Ảnh đen trắng: Sử dụng một bit để mã hóa. Nếu pixel nhận giá trị 0,
điểm đó có màu đen. Nếu pixel nhận giá trị 1, điểm đó có màu trắng.
- Ảnh xám: Sử dụng 8 bit để biểu diễn mức xám, giá trị của mỗi pixel
nhận giá trị nguyên từ 0 - 255. Với mức 0 biểu diễn cho mức cường độ tối
nhất và 255 biểu diễn cho mức cường độ sáng nhất.
- Ảnh màu: Cách biểu diễn tương tự như với ảnh xám, chỉ khác là mỗi
pixel được tổ hợp bởi các màu riêng biệt. Ví dụ hệ màu RGB (Red-Green-
Blue), mỗi pixel được tổng hợp từ ba màu Red, Green và Blue. Mỗi màu được
biểu diễn bằng 8 bit và có dải từ 0-255. Các kênh màu thường được sử dụng:
RGB, YcbCr, HSV,…. Tùy vào việc ứng dụng để lựa chọn kênh màu phù
hợp. Giữa các kênh màu thường có các phép chuyển đổi.
P
x
= A x P’
x

Trong đó:
P
x
: Không gian biểu diễn màu ban đầu
P’
x
: Không gian biểu diễn màu mới
A: Ma trận biểu diễn phép biến đổi
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

12
Nói tóm lại, ảnh số được xem như là một tập hợp các điểm ảnh. Điểm
ảnh được xem như là dấu hiệu hay cường độ sáng tại một tọa độ trong không

là kỹ thuật nén ảnh. Các kỹ thuật nén ảnh lại chia theo hai khuynh hướng là
nén bảo toàn và không bảo toàn thông tin. Nén bảo toàn có khả năng phục hồi
hoàn toàn dữ liệu ban đầu còn nén không bảo toàn chỉ có khả năng phục hồi
với độ sai số cho phép nào đó. Theo cách tiếp cận này người ta đã đề ra nhiều
quy cách khác nhau như BMP, TIF, GIF, PCX….
Hiện nay trên thế giới có trên 50 khuôn dạng ảnh thông dụng bao gồm
cả trong đó các kỹ thuật nén có khả năng phục hồi dữ liệu 100% và nén có
khả năng phục hồi với độ sai số nhất định. 1.1.2.2. Mô hình Vector
Biểu diễn ảnh ngoài mục đích tiết kiệm không gian lưu trữ, dễ dàng cho
hiển thị và in ấn còn phải đảm bảo dễ dàng trong lựa chọn sao chép, di
chuyển, tìm kiếm. Theo những yêu cầu này, kỹ thuật biểu diễn theo mô hình
vector tỏ ra ưu việt hơn.
Trong mô hình vector người ta sử dụng hướng giữa các vector của điểm
ảnh lân cận để mã hóa và tái tạo hình ảnh ban đầu. Ảnh vector được thu nhận
BMP
PCC
.
.
.

DIB

vai trò quan trọng nhất. Những năm trở lại đây với sự phát triển của phần
cứng máy tính, xử lý ảnh và đồ họa phát triển một cách mạnh mẽ và có nhiều
ứng dụng trong cuộc sống. Xử lý ảnh và đồ họa đóng một vai trò quan trọng
trong tương tác người máy.
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào
nhằm cho ra kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh
có thể là một ảnh “tốt hơn” hoặc một kết luận.
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như
là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của
RASTER
VECTOR
RASTER
Vector
hóa
Raster
hóa
Hình 1.2. Sự chuyển đổi giữa các mô hình biểu diễn ảnh
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

15
đối tượng trong không gian và nó có thể xem như một hàm n biến P(c
1
, c
2
, …,
c
n
). Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều.
1.1.4. Thu thập ảnh số
Các thiết bị thu nhận ảnh có hai loại chính ứng với hai loại ảnh thông

Tìm hàm f: P
i
→f(P
i
) sao cho:
min)(
2
'
1



ii
n
i
PPf

Giả sử ảnh bị biến đổi chỉ bao gồm: Tịch tiến, quay, tỷ lệ, biến dạng
bậc nhất tuyến tính. Khi đó hàm f có dạng:
),(),(
222111
cybxacybxayxf 

Ta có:
 



n
i





















  
   
   
  
   
   
n
i
n
i

1 1 1 1
'
1
2
11
1 1 1 1
'
11
2
1
1
1
1
0
0
0




Giải hệ phương trình tuyến tính tìm được a
1
, b
1
, c
1
. Tương tự tìm được
a
2
, b

điểm uốn,….
Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc
thực hiện lọc vùng (Zonal Filtering). Các bộ lọc vùng được gọi là “mặt nạ đặc
điểm” (Feature Mask) thường là các khe hẹp với hình dạng khác nhau (chữ
nhật, tam giác, cung tròn,…).
Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng
và do vậy rất hữu ích trong việc trích chọn các thuộc tính bất biến được dùng
khi nhận dạng đối tượng. Các đặc điểm này có thể được trích chọn nhờ toán
tử Gradient, toán tử la bàn, toán tử Laplace, toán tử Zero Crossing,….
Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối
tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng bộ nhớ lưu trữ
ảnh giảm xuống.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

18
1.1.8. Nhận dạng ảnh
Nhận dạng tự động (Automatic Recognition) mô tả đối tượng, nhận
dạng và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy,
được ứng dụng trong nhiều ngành khoa học khác nhau. Tuy nhiên một câu hỏi
được đặt ra là: mẫu(Pattern) là gì? Watanabe - một trong những người đi đầu
lĩnh vực này đã định nghĩa “Ngược lại với hỗn loạn (Chaos), mẫu là một thực
thể (Entity) được xác định một cách ang áng (Veguely Defined) và có thể gán
cho nó một tên gọi nào đó”. Ví dụ mẫu có thể là ảnh của vân tay, ảnh của một
vật nào đó được chụp, một chữ viết, khuôn mặt người hoặc một ký hiệu tiếng
nói. Khi biết một mẫu nào đó, để nhận dạng mẫu đó có thể lựa chọn:
Nhận dạng có mẫu (Supervised Classification): chẳng hạn phân tích
tách biệt (Discrimiant Analysis) trong đó mẫu đầu vào được định danh như
một thành phần của một lớp đã xác định.
Nhận dạng không có mẫu (Unsupervised Classification hay Clustering)

hoặc một đoạn video (một chuỗi các ảnh). Qua xử lý tính toán hệ thống xác
định được vị trí mặt người trong ảnh (nếu có) và xác định là người nào trong
số những người hệ thống đã được biết (qua quá trình học) hoặc là người lạ.
Xác định khuôn mặt người (Face Detection) là một kỹ thuật máy tính để
xác định các vị trí và các kích thước của các khuôn mặt người trong các ảnh
bất kỳ (ảnh kỹ thuật số). Kỹ thuật này nhận biết các đặc trưng của khuôn mặt
và bỏ qua những thứ khác như: tòa nhà, cây cối, cơ thể,…
1.2.2. Các ứng dụng liên quan đến nhận dạng mặt ngƣời
Bài toán nhận dạng mặt người có thể áp dụng rộng rãi trong nhiều ứng
dụng tư thế khác nhau. Đó chính là lý do mà bài toán này hấp dẫn rất nhiều
nhóm nghiên cứu trong thời gian dài. Các ứng dụng liên quan đến nhận dạng
mặt người có thể kể như:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

20
- Hệ thống phát hiện tội phạm: camera được đặt tại một số điểm công
cộng như: siêu thị, nhà sách, trạm xe buýt, sân bay, …. Khi phát hiện được sự
xuất hiện của các đối tượng là tội phạm, hệ thống sẽ gửi thông điệp về cho
trung tâm xử lý.
- Hệ thống theo dõi nhân sự trong một đơn vị: giám sát giờ ra vào của
từng nhân viên và chấm công.
- Hệ thống giao tiếp người máy: Thay thế việc tương tác giữa người và
máy theo những cách truyền thống như: bàn phím, chuột, …. Thay vào đó là
sử dụng các giao tiếp trực quan: biểu cảm khuôn mặt, dấu hiệu, cử chỉ bằng
tay (Visual Input, Visual Interaction)
- Hệ thống tìm kiếm thông tin trên ảnh, video dựa trên nội dung (chỉ mục
theo người). Chẳng hạn như: đài truyền hình Việt Nam (VTV) có một kho dữ
liệu video tin tức khá lớn cần tìm kiếm nhanh những đoạn video nào có một
nhân vật nào đó.
- Tương lai sẽ phát triển các loại thẻ thông minh có tích hợp sẵn đặc

hoặc các khuôn mặt khác.
e. Hướng của ảnh: Các ảnh của khuôn mặt có thể biến đổi rất nhiều với
các góc quay khác nhau của trục camera. Chẳng hạn chụp với trục máy ảnh
nghiêng làm cho khuôn mặt bị nghiêng so với trục của ảnh.
f. Điều kiện của ảnh: Ảnh được chụp trong các điều kiện khác nhau về
chiếu sáng, về tính chất camera (máy kỹ thuật số, máy hồng ngoại, ) ảnh
hưởng rất nhiều đến chất lượng ảnh khuôn mặt.
1.2.4. Các hƣớng tiếp cận liên quan đến nhận dạng khuôn mặt
Có nhiều nghiên cứu tìm phương pháp xác định khuôn mặt người, từ
ảnh xám đến ngày nay là ảnh màu. Dựa vào tính chất của các phương pháp
xác định khuôn mặt người trên ảnh thì các phương pháp này được chia làm
bốn hướng tiếp cận chính: dựa trên tri thức (Knowledge - Base), đặc trưng bất
biến (Feature Invariant), đối sánh ngẫu (Template Matching) và dựa vào diện
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

22
mạo (Appearance - Base). Hướng tiếp cận dựa vào diện mạo thường dùng
một mô hình máy học nên còn được gọi là phương pháp dựa trên máy học
(Machine Learning – Based).
Hướng tiếp cận dựa trên tri thức: Hướng tiếp cận này chủ yếu dựa trên
những luật được định nghĩa trước về khuôn mặt người. Mã hóa các hiểu biết
của con người về các loại khuôn mặt thành các luật. Những luật này thường là
các mối quan hệ giữa các thành phần trên khuôn mặt. Thông thường các luật
mô tả quan hệ của các đặc trưng.
Hướng tiếp cận dựa trên các đặc trưng bất biến: Hướng tiếp cận này cố
gắng tìm kiếm những đặc trưng độc lập – những đặc trưng không phụ thuộc
vào tư thế khuôn mặt, điều kiện ánh sáng và các khó khăn khác. Các đặc
trưng như thế được gọi là bất biến và được sử dụng để phát hiện khuôn mặt.
Mục tiêu của hướng tiếp cận này là các thuật toán đi tìm các đặc trưng mô tả
cấu trúc khuôn mặt người mà các đặc trưng này sẽ không thay đổi khi các yếu

khuôn mặt, phát hiện hướng mặt người trong ảnh còn được áp dụng vào các
hệ thống tương tác người máy. Thông qua các biểu hiện khuôn mặt để điều
khiển các chức năng của hệ thống. Ví dụ như thông qua hướng của khuôn mặt
để điểu khiển hướng của xe lăn trợ giúp người tàn tật.
Cùng trong một bức ảnh có thể có nhiều khuôn mặt ở những tư thế khác
nhau. Sử dụng bài toán phát hiện hướng khuôn mặt nhằm xác định chính xác
hướng của từng khuôn mặt trong ảnh. Qua đó kết hợp với quá trình tiền xử lý
hình ảnh nhằm tạo ra những ảnh đầu vào tốt hơn rất nhiều cho các hệ thống
nhận dạng.
Việc xác định tư thế khuôn mặt con người đặt ra nhiều vấn đề hơn so với
các đối tượng khác bởi khuôn mặt người là một đối tượng động với nhiều
hình thức thể hiện và màu sắc khác nhau. Ngoài ra, việc phát hiện và theo dõi
khuôn mặt cung cấp rất nhiều lợi ích. Việc nhận dạng khuôn mặt không thể
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trích đoạn Chuỗi các bộ nhận dạng Haar Tính toán góc quay theo 3 chiều
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status