thử nghiệm phương pháp biến đổi khuôn mặt trên ảnh hai chiều - Pdf 10



ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
 ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
 Bùi Lê Hùng THỬ NGHIỆM PHƢƠNG PHÁP BIẾN ĐỔI
KHUÔN MẶT TRÊN ẢNH HAI CHIỀU KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin II

LỜI CẢM ƠN

Trước hết, em xin được chân thành gửi lời cảm ơn tới thầy T.S Bùi Thế Duy vì
đã chỉ bảo và hướng dẫn tận tình cho em trong suốt quá trình nghiên cứu và làm khóa
luận này.
Em cũng xin được cảm ơn các thầy cô của trường đại học Công Nghệ đã dạy dỗ
và truyền đạt cho em những kiến thức quý báu trong suốt bốn năm học đại học.
Cám ơn các bạn K50CA, K50KHMT và các bạn thuộc phòng tương tác người -
máy vì những cuộc trao đổi thú vị.
Cuối cùng, con xin được gửi tới bố mẹ và toàn thể gia đình những tình cảm thân
thương nhất.

Hà Nội 24/05/2009
Bùi Lê Hùng

2.2.3.Mô hình hóa chuyển động 5
2.2.4.Mô hình cơ của Waters 7
2.3.Hoạt hình khuôn mặt 2D 8
2.3.1.Giới thiệu chung 8
2.3.2.Phương pháp ghi lại video 9
2.3.3.Phương pháp dựa trên kỹ thuật 3D 11
2.4.Kết luận 14

Chƣơng 3
CÁC KỸ THUẬT BÓP MÉO ẢNH 15
3.1.Mở đầu 15
3.2.Phân loại kỹ thuật bóp méo ảnh theo phương pháp biến đổi 16
3.2.1.Bóp méo ảnh thông qua việc sử dụng hàm số 16
3.2.2.Bóp méo ảnh bằng cách chia ảnh thành những đa giác nhỏ 23
3.2.3.Bóp méo ảnh dùng cho morphing 28
3.3.Phân loại kỹ thuật bóp méo ảnh theo cách tạo ra ảnh đích 29
IV

3.3.1.Mở đầu 29
3.3.2.Bóp méo xuôi 29
3.3.3.Bóp méo ngược 31
3.3.4.So sáng bóp méo xuôi và bóp méo ngược 32
3.4.Kết luận 32

Chƣơng 4
MÔ PHỎNG CHUYỂN ĐỘNG CỦA KHUÔN MẶT DỰA TRÊN CÁC KỸ
THUẬT BÓP MÉO ẢNH 34
4.1.Mở đầu 34
4.2.Mô phỏng chuyển động xoay của xương hàm 34
4.2.1.Chuyển động của xương hàm 34


VI

DANH MỤC HÌNH ẢNH

Hình 1 : Hai vợ chồng nhà “chằn tinh” Shrek 1
Hình 2 : Mô hình CANDIDE (1987) và mô hình Greta (2001) 5
Hình 3 : Mô hình cơ vector của Waters 7
Hình 4 : Mô hình cơ mảng của Waters 8

Hình 33 : Bóp méo ngược cho ảnh 31
Hình 34 : Vấn đề của bóp méo ngược 32
Hình 35 : Điểm xoay xương hàm 35
Hình 36 : Ước lượng trục quay của hàm 36
Hình 37 : Môi của nhân vật 37
VII

Hình 38 : Hình ảnh của môi dưới sau phép xoay 38
Hình 39 : Ảnh trước và sau khi thực hiện kỹ thuật bóp méo môi trên 38
Hình 40 : Môi mở ra với các góc ϕ = 0, ϕ = pi / 20, ϕ = pi / 15, ϕ = pi / 10 39
Hình 41 : Trạng thái ban đầu - Trước khi sử dụng phép bóp méo cho cằm - Sau khi sử
dụng phép bóp méo cho cằm 39
Hình 42 : Các cơ trên khuôn mặt (khi nhìn thẳng) 40
Hình 43 : Các cơ trên khuôn mặt (khi nhìn ngang) 40
Hình 44 : Phép bóp méo tứ giác tạo nụ cười nửa miệng với cơ khóe miệng 41
Hình 45 : Phép bóp méo tứ giác làm mắt mở rộng hơn với cơ mắt 41
Hình 46 : Một số hình dáng của môi 42
Hình 47 : Hệ các cơ được chương trình xây dựng dựa theo 42
Hình 48 : Tác động của 2 cơ nén môi trên và môi dưới 44
Hình 49 : Tác động của cơ kéo khóe miệng xuống 44
Hình 50 : Tác động của cơ kéo khóe miệng lên 44
Hình 51 : Tác động của cơ kéo cánh mũi lên 44
Hình 52 : Tác động của cơ nâng lông mày bên mắt trái 44
Hình 53 : Tác động của cơ kéo lông mày xuống 44
Hình 54: Tác động của cơ thu nhỏ mắt lại 45
Hình 55 : Tác động của cơ cằm 45
Hình 56 : Mức độ co giãn của cơ kéo khóe môi xuống từ trạng thái bình thường cho
đến trạng thái giãn tối đa 45
Hình 57 : Cảm giác ngạc nhiên 50% và 100% 55
Hình 58 : Cảm giác sợ hãi 50% và 100% 56

- 1 -

Chƣơng 1
GIỚI THIỆU

Dẫn nhập
Năm 2001, khi phần đầu tiên của bộ phim hoạt hình Shrek ra đời, tổng doanh thu
mà bộ phim đạt được là gần 500 triệu đô. Năm 2004, Shrek II ra mắt và thu về hơn
900 triệu. Ba năm sau đó, Shrek III tiếp tục thắng lợi lớn và mang lại cho đoàn làm
phim gần 800 triệu đô la. Hnh 1 : Hai vợ chồng nhà “chằn tinh” Shrek

Điều gì khiến cho gã chằn tinh xấu xí và đáng sợ như Shrek lại có thể giành được

 Một khuôn mặt có khả năng nói chuyện và bộc lộ những cảm xúc
 Một cơ thể có khả năng thể hiện những cử chỉ
 Một trí tuệ bao gồm những suy nghĩ, tình cảm, động lực, hành vi, tính
cách… của nhân vật
Lĩnh vực đồ họa máy tính giải quyết bài toán xây dựng khuôn mặt và cơ thể.
Trong đó khuôn mặt luôn nhận được nhiều sự quan tâm hơn. Lý do là bởi khuôn mặt
là nơi giao tiếp, nói chuyện và bộc lộ những cảm xúc. Nhìn vào khuôn mặt ta có thể
thu được nhiều thông tin hơn. Xét cho cùng, khi quan sát một nhân vật ảo, chúng ta
không quan sát tay chân của nhân vật nhiều hơn khuôn mặt của nhân vật đó.
Có nhiều phương pháp để tạo chuyển động cho khuôn mặt đặc biệt là trên
không gian 3D. Tuy vậy, các phương pháp được áp dụng ngày nay trên không gian 3D
đều đòi hỏi những xử lý tính toán phức tạp yêu cầu máy cấu hình cao về tốc độ xử lý
và card màn hình mạnh.
Các phương pháp 2D thì ngược lại, tạo khuôn mặt chuyển động trong không
gian 2D không đòi hỏi máy cấu hình cao và tốc độ đường truyền lớn, dẫn đến dễ triển
khai trên nền web và các ứng dụng di động. Vấn đề của các phương pháp 2D là phải
cải thiện được tính chân thực cho việc chuyển động trên khuôn mặt.

Giới thiệu về khóa luận
Trong khóa luận này, chúng tôi đưa ra một phương pháp tạo chuyển động cho
khuôn mặt trong không gian 2D. Mục tiêu của chúng tôi là tạo ra một khuôn mặt có
chuyển động chân thực nhất có thể đồng thời vẫn tận dụng được ưu điểm của các
phương pháp 2D trong tốc độ xử lý.

- 3 -

Chúng tôi sử dụng đầu vào là bức ảnh khuôn mặt của một người, phương pháp
của chúng tôi sử dụng các phép biến đổi ảnh để thay đổi trạng thái cảm xúc và làm cho
người trong bức ảnh có thể nói chuyện được. - 4 -

Chƣơng 2
HOẠT HÌNH KHUÔN MẶT

2.1.Mở đầu
Hoạt hình khuôn mặt (facial animation) là một lĩnh vực của đồ họa máy tính, nó
mô phỏng các chuyển động diễn ra trên khuôn mặt khi nhân vật nói chuyện hoặc biểu
lộ cảm xúc. Nghĩ đến hoạt hình khuôn mặt là người ta nghĩ đến những ứng dụng của
nó trong phim ảnh, hoạt hình và trò chơi điện tử. Được bắt đầu nghiên cứu từ những
năm đầu của thập niên 70, cho đến nay, hoạt hình khuôn mặt đã đạt được nhiều bước
tiến đáng kể. Nhưng vẫn còn đó những giới hạn trong các phương pháp được ứng dụng
hiện nay của hoạt hình khuôn mặt, điều đó đòi hỏi con người phải tiếp tục nghiên cứu
và phát triển để hoàn thiện hơn lĩnh vực này.
Ở chương 1, chúng tôi giới thiệu một cách tổng quan về hoạt hình khuôn mặt.
Chúng tôi chia chương này ra làm hai phần : hoạt hình khuôn mặt 3D và hoạt hình
khuôn mặt 2D.
Ở phần thứ nhất, chúng tôi sẽ giới thiệu một cách tổng quan về hoạt hình khuôn
mặt 3D. Chúng tôi sẽ giới thiệu từng bước để tạo hoạt hình khuôn mặt 3D. Với mỗi
bước, chúng tôi cũng giới thiệu các phương pháp thực hiện. Cùng với việc giới thiệu,
chúng tôi cũng đưa ra những đánh giá về ưu và nhược điểm của từng phương pháp.
Trong phần giới thiệu về hoạt hình khuôn mặt 3D, chúng tôi cũng đồng thời giới thiệu
về mô hình cơ của Waters [Waters 87]. Đây là một mô hình rất nổi tiếng và được ứng
dụng rộng rãi trong hoạt hình khuôn mặt.
Ở phần thứ hai, chúng tôi sẽ giới thiệu về hoạt hình khuôn mặt 2D. Các kỹ thuật
tạo hoạt hình khuôn mặt 2D không được phong phú như hoạt hình khuôn mặt 3D. Có
hai phương pháp nổi tiếng hiện nay để tạo hoạt hình khuôn mặt 2D, đó là phương pháp

mặt. Khi đó để khuôn mặt có thể chuyển động, ta chỉ cần điều chỉnh các đỉnh trên lưới
bề mặt này. Cách tiếp cận này được giới thiệu đầu tiên bởi [Gouraud 1971]. Phương
pháp này lấy ra một số điểm trên bề mặt của khuôn mặt và nối những điểm đó với
nhau để tạo ra một lưới các đa giác. Tiếp đó phương pháp này được phát triển và ứng
dụng bởi [Parke 1972 | Rydfalk 1987 | Pasquariello & Pelachaud 2001].
Để mô phỏng được chuyển động của khuôn mặt, người ta thêm vào dưới lưới bề
mặt lớp mỡ, lớp cơ và cả mô hình xương sọ [Kahler 2001 | Lee 1995 | Terzopoulos &
Waters 1990]
Có ba cách để mô hình hóa khuôn mặt. Thứ nhất là sử dụng các công cụ hỗ trợ
như AutoCad hay 3DMax. Đây là một công việc đòi hỏi rất nhiều công sức. Phương
pháp thứ hai là sử dụng một số bức ảnh của nhân vật ở các tư thế khác nhau, sau đó
chọn ra các điểm đặc trưng trên bức ảnh để tìm ra mối liên hệ giữa các bức ảnh và mô
hình 3D. Phương pháp cuối cùng sử dụng một máy scan laser để scan khuôn mặt của
người thật và sử dụng kết quả đó để xây dựng nên khuôn mặt. Đây là phương pháp
hiệu quả nhất khi xét về độ chân thực của mô hình khuôn mặt.
2.2.3.Mô hnh hóa chuyển động

- 6 -

Như đã nói trong phần trước, khuôn mặt được chuyển động bằng cách điều khiển
các đỉnh đa giác của lưới bề mặt hoặc các các điểm điều khiển. Có bốn cách để điều
khiển lưới bề mặt, bao gồm phương pháp dựa trên các hình đầu và cuối, phương pháp
tham số, phương pháp giả cơ và phương pháp mô hình hóa cơ mặt. Chúng tôi sẽ giới
thiệu qua về các phương pháp này cùng với những ưu nhược điểm của nó.
 Phƣơng pháp dựa trên các hnh đầu và cuối
Phương pháp dựa trên các hình đầu và cuối có thể hiểu là một chương trình có
sẵn hình đầu và hình cuối, phương pháp sẽ tạo ra chuyển động liên tục giữa hai hình.
Để thực hiện được, phương pháp sử dụng các hàm nội suy để sinh ra các hình nằm
giữa hình đầu và hình cuối. Các hình đầu và cuối trong trường hợp này có thể hiểu là
các trạng thái khác nhau của khuôn mặt.


- 7 -

của các cơ với mục đích mô hình hóa biến dạng của da. Ở phần tới của chương này
chúng tôi sẽ giới thiệu qua về mô hình cơ của Waters [Waters 1987 | Parke & Waters
1996]. Đây là một mô hình cực kỳ thành công và đã được áp dụng rất phổ biến trên thế
giới
Phương pháp mô hình hóa cơ mặt đạt được mức độ chân thật nhất trong các
phương pháp, nhưng nó phải trả giá bằng sự phức tạp trong tính toán. Vì vậy phương
pháp này không được sử dụng rộng rãi trong các ứng dụng thời gian thực. Ngoài ra
phương pháp này cũng đòi hỏi con người phải điều chỉnh rất nhiều để tạo được một
khuôn mặt
2.2.4.Mô hnh cơ của Waters
Mô hình cơ mặt của Waters [Waters 1987 | Parke & Waters 1996] là một mô
hình rất thành công và được ứng dụng phổ biến [Smith 2006 | Choe 2001]. Waters chia
cơ mặt ra làm ba loại : cơ vector, cơ mảng và cơ vòng.
Các cơ vector của Waters chiếm số lượng nhiều nhất trong số các loại cơ. Cơ
vector có tác dụng kéo lớp da trên khuôn mặt theo một hướng nhất định. Mỗi cơ vector
tác động lên một vùng xác định trên khuôn mặt. Mô hình cơ vector được mô tả như
hình vẽ dưới đây Hnh 3 : Mô hnh cơ vector của Waters

Cơ mảng chứa các thớ các cơ nằm song song với nhau trên vùng trán. Khi co lại,
lớp da trên khuôn mặt không chỉ bị ảnh hưởng bởi một mà bởi toàn bộ các thớ cơ của
cơ mảng. Đây là các cơ tạo ra các nếp nhăn trên trán. Mô hình cơ mảng của Waters
được biểu diễn như hình vẽ dưới đây
Phương pháp ghi lại video tự động đánh dấu các âm vị trong dữ liệu huấn luyện
và đoạn audio mới được đưa vào. Sau đó phương pháp sắp xếp lại các hình vị sao cho
khớp với dãy âm vị của đoạn audio mới. Trong trường hợp một âm vị nào đó không có
một hình vị tương ứng, phương pháp chọn ra một xấp xỉ gần nhất. Cuối cùng, một dãy
các hình vị được ghép lại tạo nên một đoạn video mới.
Để tạo ra các chuyển động giữa các hình vị, phương pháp ghi lại video lấy ra
những điểm đặc trưng trên miệng của nhân vật. Sau đó, phương pháp sử dụng kỹ thuật
morphing để tạo ra chuyển động giữa các hình dáng của miệng. Cuối cùng phương
pháp kết hợp các dãy chuyển động này để tạo ra được video mới.
Hai bước cơ bản của phương pháp ghi lại video là : thu thập âm vị và hình vị;
tổng hợp video mới.
2.3.2.2.Thu thập âm vị và hnh vị
Phương pháp ghi lại video học từ thước phim mẫu cách khuôn mặt con người
thay đổi trong quá trình nói. Chương trình học được miệng của một người trông như
thế nào khi người đó nói chuyện bằng cách tạo ra một cơ sở dữ liệu.
Để lấy mẫu một người, phương pháp ghi lại video cần một tập các bức ảnh vẽ
tay. Đây là công việc duy nhất mà con người phải thực hiện trong cả quá trình thực
hiện. Tuy vậy, ngay cả quá trình này cũng có thể thay thế bằng cách sử dụng các mẫu
có sẵn đã được đưa ra trong [Kirby 1990, Covell 1996].
Phương pháp ghi lại video thu thập âm vị bằng cách áp dụng phương pháp ghép
nối tổng hợp tiếng nói của [Moulines 1990]. Phương pháp này phân tích một tập các
đoạn nói chuyện, chọn ra những âm vị mẫu và lấy trung bình các âm vị này. Sau đó,
phương pháp này tổng hợp đoạn audio mới bằng cách ghép nối những âm vị thích hợp.
Sau quá trình thay đổi âm vị cho phù hợp với cường độ và khoảng thời gian, kết quả
của đoạn audio mới khá là tự nhiên. Việc thu thập hình vị cũng làm tương tự.

- 10 - Hnh 6 : Tổng quan của quá trnh thu thập âm vị và hnh vị

[Blanz 2003].
Phương pháp này có thể áp dụng cho bất kỳ khuôn mặt nào trong một bức ảnh
hoặc một đoạn video. Kỹ thuật này không cần dữ liệu mẫu của miệng nhân vật. Bức
ảnh được tạo chuyển động cũng không bị giới hạn ở bất kỳ vị trí cố định nào. Phương
pháp này có thể tạo ra những chuyển động của đầu và cho phép nhân vật nói chuyện.
Để có thể làm được được như vậy, hệ thống tạo chuyển động miệng và các cảm xúc
khuôn mặt thông qua một chuyển động có sẵn của người khác.
Hệ thống dựa trên một biểu diễn chung của các khuôn mặt và cảm xúc khác
nhau trong một không gian vector. Không gian này được tính bằng cách scan nhiều
khuôn mặt trung lập và các cảm xúc khác nhau. Mô hình này được ứng dụng vào ảnh
thực và xử lý video bởi một thuật toán phân tích và tổng hợp : Hệ thống tự động tính
toán hình khối 3D và tất cả các thông số phù hợp (như tư thế nhân vật) từ một bức ảnh
duy nhất. Sau khi tạo ra các chuyển động mới cho miệng, khuôn mặt 3D được đưa trở
lại ảnh gốc.
2.3.3.2.Cách thức thực hiện
Phương pháp này dựa trên một không gian vector của các hình khối 3D và các bề
mặt. Các hình khối và bề mặt được tính từ tập dữ liệu gồm các mẫu scan các cảm xúc
và các khuôn mặt trung lập của khoảng vài trăm người. Trong không gian vector này,
cảm xúc có thể thay đổi liên tục. Một thuật toán khớp có tác dụng cực tiểu hóa sự khác
biệt giữa bức ảnh đầu vào và bức ảnh tổng hợp, cho phép tính ra được hình khối 3D từ
một bức ảnh hay một hình ảnh của video. Thuật có thể áp dụng cho cả các khuôn mặt
không ở trạng thái trung lập. Trong trường hợp đó, chương trình có thể tạo lại trạng
thái trung tập cho khuôn mặt. Để tạo ra những chuyển động mới, chương trình áp dụng
các thay đổi trong không gian 3D, sau đó đưa nó trở lại vào bức ảnh gốc (hoặc đoạn
video).
Không gian vector cho việc chuyển động miệng là mở rộng của phần tạo cảm
xúc khuôn mặt [Vetter 1998 | Blanz 1999]. Việc xây dựng nên không gian vector này
là rất khó khăn, đòi hỏi thêm nhiều kỹ thuật khác. Một số phương pháp đã dựng nên

- 12 -

2.3.3.4.Đánh giá phƣơng pháp
Ưu điểm của phương pháp này là thật và linh hoạt. Phương pháp cũng chỉ sử
dụng rất ít dữ liệu từ nhân vật được tạo chuyển động (chỉ một bức ảnh hoặc một
video). Bức ảnh và video đó có thể xuất hiện ở các điều kiện ánh sáng và tư thế khác
nhau.

- 14 -

Nhược điểm của phương pháp này là toàn bộ tính toán của phương pháp là trên
3D. Cộng với việc phải xây dựng không gian vector cho khuôn mặt, phương pháp này
đòi hỏi những tính toán phức tạp.

2.4.Kết luận
Ở chương này, chúng tôi đã giới thiệu tổng quan về các kỹ thuật hoạt hình khuôn
mặt. Chúng tôi chia hoạt hình khuôn mặt ra làm hai loại là hoạt hình khuôn mặt 3D và
hoạt hình khuôn mặt 2D.
Để tạo được hoạt hình khuôn mặt 3D, có hai việc phải làm là mô hình hóa
khuôn mặt và mô hình hóa chuyển động. Ứng với mỗi việc này, người ta lại đề xuất ra
nhiều cách làm khác nhau. Mỗi cách làm đều có những ưu điểm và nhược điểm của
riêng nó.
Để giới thiệu về hoạt hình khuôn mặt 2D, chúng tôi đưa ra hai phương pháp nổi
tiếng hiện nay là phương pháp ghi lại video và phương pháp dựa trên kỹ thuật 3D.
Cách mà hai phương pháp này thực hiện là rất khác nhau. Xét một cách tổng thể,
phương pháp dựa trên kỹ thuật 3D trội hơn phương pháp ghi lại video ở nhiều mặt.
Nhưng nó lại đòi hỏi một khối lượng tính toán lớn.
Thật khó để có thể tìm ra một phương pháp hoàn hảo. Trong lĩnh vực đồ họa
máy tính nói chung và hoạt hình khuôn mặt nói riêng, sự chân thực và độ phức tạp
trong tính toán luôn có liên quan với nhau. Công việc của chúng ta là tăng độ chân
thực cho chuyển động và giảm độ phức tạp trong tính toán xuống mức nhỏ nhất có thể.


những hàm số phức tạp. Bóp méo còn bao gồm cả những phép biến đổi không sử dụng
đến hàm số và những phép biến đổi là sự kết hợp của một vài kỹ thuật khác nữa.
Trong chương này, chúng tôi cũng giới thiệu về kỹ thuật morphing, là một kỹ
thuật này khá gần gũi với bóp méo ảnh. Morphing là một kỹ thuật biến đổi ảnh tạo ra
chuyển động liên tục biến đổi từ bức ảnh này thành bức ảnh khác. Mặc dù chúng tôi
không dùng đến morphing trong chương trình của mình, nhưng khá nhiều cách tiếp
cận của các tác giả khác trong việc tạo ra chuyển động cho khuôn mặt có sử dụng đến
kỹ thuật này [Bregler 1997 | Ezzat 1998]. Cùng với việc giới thiệu về kỹ thuật của các
tác giả này, chúng tôi cũng muốn bạn đọc có một cái nhìn tổng quan về kỹ thuật
morphing.
Có nhiều cách để phân loại các kỹ thuật bóp méo ảnh tùy thuộc vào tiêu chí
đánh giá. Để có thể giới thiệu một cách chi tiết và dễ hiểu về kỹ thuật bóp méo ảnh,
chúng tôi phân loại và giới thiệu các kỹ thuật bóp méo ảnh theo hai cách sau :
Cách thứ nhất, phân loại kỹ thuật bóp méo ảnh theo phương pháp biến đổi, bao
gồm ba loại :
 Ảnh bị bóp méo thông qua việc sử dụng hàm số
 Ảnh bị bóp méo bằng cách chia thành các đa giác khác nhau, mỗi đa giác
lại bị bóp méo theo một cách riêng biệt
 Ảnh bị bóp méo để dùng cho kỹ thuật morphing
Cách thứ hai là phân loại kỹ thuật bóp méo ảnh theo cách tạo ra ảnh đích, bao
gồm hai loại :
 Bóp méo xuôi : ảnh đích được tạo ra bằng cách ánh xạ trực tiếp từ ảnh
gốc đến ảnh đích
 Bóp méo ngược : ảnh đích được tạo ra bằng cách ánh xạ từ ảnh đích đến
ảnh gốc


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status