三维人脸建模中的应用

发布于 2018-10-31 Mars Cao 来⾃火星
Mars说光场（5）— 光场在三维⼈脸
建模中的应⽤
【原文⾸发雷锋⽹】
【摘要】 — 三维建模是计算机视觉中的⼀个经典问题，其主要⽬标
是得到物体/场景的三维信息（e.g. 点云或深度图）。然⽽只有三维
信息还不⾜以逼真的渲染重现真实世界，还需要表⾯反射场信息才能
在视觉上以假乱真。本文主要介绍美国南加州⼤学ICT Graphic Lab
的Paul Debevec所引领开发的Light Stage技术，该技术已经成功
应⽤在好莱坞电影特效和2014年美国总统奥巴⻢的数字⼈脸建模等
诸多应⽤中。
1、反射场在三维成/呈像中的重要性
三维建模可以得到物体的⼏何信息，例如点云、深度图等。但为了在
视觉上逼真的重现三维物体，只有⼏何信息是不够的。不同物体表⾯
在不同光照环境下会呈现出不同的反射效果，例如⽟⽯会呈现出⾼光
和半透明的反射效果、棉⿇织物会呈现出漫反射的效果。即使是相同
表⾯，在不同光照下也会呈现出不同的反射效果，例如图1中的精灵
在魔法灯的照射下，脸上呈现出相应的颜⾊和阴影；阿凡达在发光⽔
⺟的照射下脸上和⾝上也会呈现对应的反射效果，这就是
Relighting所产⽣的效果。在现实⽣活中Relighting是⼀种再正常
不过的现象了。然⽽当电影中Relighting的效果与实际不符时，⼈
眼会感受到莫名的异常。
模拟出与真实物体表⾯⼀致的反射特性，对提⾼计算机渲染成/呈像
的逼真度⾄关重要。在实际的拍摄中并不存在精灵和阿凡达，也不存
在魔法灯和发光的⽔⺟，如何⽣成Photorealistic的图像呢？通过计
https://zhuanlan.zhihu.com/p/48080295 1/18
2020/9/23 Mars说光场（5）— 光场在三维⼈脸建模中的应⽤ - 知乎
算机模拟反射场（Re ectance Field）是⽬前好莱坞⼤片中惯⽤的

⽅法。反射场是对所有反射特性的⼀个普适数学模型，物体表⾯不同
位置(x, y, z)在时刻(t)向半球范围内不同⾓度(θ, Φ)发出波⻓为(λ)的
光线，由R(x, y, z, θ, Φ, λ, t)七个维度构成的光线的集合就是反射
场。关于光场和反射场的异同点参⻅《Mars说光场（1）— 综
述》。
图 1. 反射场Relighting⽰意图
2、USC Light Stage介绍

Light Stage是由美国南加州⼤学ICT Graphic Lab的保罗•德⻉维奇
（Paul Debevec）所领导开发的⼀个⾼保真的三维采集重建平台系
统。该系统以⾼逼真度的3D⼈脸重建为主，并已经应⽤于好莱坞电
影渲染中。从第⼀代系统Light Stage 1于2000年诞⽣，⾄今已经升
级到Light Stage 6，最新的⼀代系统命名为Light Stage X。
2.1 Light Stage 1
如图2所⽰，Light Stage 1 包括1个光源（strobe light）、2个相机

（分辨率480x720）、1个投影仪，整个设备直径约3米[1]。光源可
沿机械臂垂直移动，同时机械臂可带动光源⽔平旋转。整个采集过程
包括两个阶段：第⼀阶段是以⼈脸为中⼼旋转光源，从⽽构成
64x32个不同⽅向的等效光源入射到⼈脸上。与此同时，两个相机
同步拍摄不同光照下的左侧脸和右侧脸，每个相机共拍摄2048张图
片，如图3所⽰。需要说明的是光源和相机前分别覆盖了互相垂直的
偏振片，⽤于分离散射和⾼光（separate di use and
specular）。第⼆阶段是投影仪与2个相机配合完成基于结构光的三
维重建，如图4所⽰。整个采集过程耗时约1分钟，采集过程中⼈脸
需要持续保持静⽌，这对演员保持静⽌的能⼒提出了极⾼的要求。
图 2. Light Stage 1系统样机
Light Stage 1采集的图片样例如图3所⽰，第⼆⾏图片中亮点表⽰光

源的位置，第⼀⾏图片表⽰对应光源照射下采集到的⼈脸图片，实际
采集的反射场图片包括64x32光源位置下的2048张图片。采集三维
⼏何模型通过结构光三维重建实现，如图4所⽰。
图 3. Light Stage 1 采集图片样例
图 4. Light Stage 1 基于结构光的三维重建
在进⾏Relighting渲染之前还需要通过Specular Ball / Mirror Ball

采集环境光照，如图5所⽰。通过Mirror Ball采集的图片需要经过重
采样得到离散的环境光照矩阵[2]，然后将环境光照应⽤在反射场图
中，得到如图6中Relighting的渲染效果。图6中第⼆⾏图片为
Specular Ball在不同环境下采集的环境光照展开图，第⼀⾏图片为
对应光照下⼈脸渲染结果。需要说明的是，图6中⼈脸Relighting的
渲染图片只限于固定视点，如果需要改变视点需要结合结构光采集的
三维⼏何模型。
图 5. Specular Ball 采集环境光
图 6. Light Stage 1 ⼈脸Relighting效果
2.2 USC Light Stage 2
Light Stage 2 在Light Stage 1 的基础上增加了更多的光源，将23

个⽩⾊光源分布于弧形机械臂上[3-5]。机械臂旋转到不同的经线位
置，并依次点亮光源，最终形成42x23个不同⽅向的入射光源。采集
时间从1分钟缩短到4秒，降低了演员维持静态表情的难度。如图7所
⽰，右侧为Light Stage 2真机系统，左侧为采集过程中4秒⻓曝光
拍摄图片。
图 7. Light Stage 2 采集⽰意图
在不同的光照环境下，⼈脸会反射出不同的“脸⾊”，例如⼈脸在火
炬前会被映红。通过改变环境光照⽽使物体表⾯呈现与之对应的反射
状态称为“Relighting”。然⽽在电影拍摄中并不能把演员置⾝于任
意真实的环境中，例如《指环王》中男主⾓佛罗多·巴⾦斯置⾝于火
⼭岩中，⼜例如阿凡达置⾝于梦幻蓝⾊树丛中。Light Stage 3并不
⽤于⼈脸建模，⽽是构建⼀个可控的彩⾊光照平台，从⽽可以实现⼈
脸实时的Relighting[6-8]。
Light Stage 3的⽀撑结构为⼆⼗⾯体，包括42个顶点、120条边、

80个⾯，如图8所⽰。在每个顶点和每条边的中⼼放置⼀个彩⾊光
源，⼀共可放置162个彩⾊光源。由于球体底部5个顶点及其相应的
边被移除⽤于演员站立，因此实际光源数量减少到156个。光源型号
为Philips Color Kinetics，iColor MR gen3 LED Lamp
http://www.lighting.philips.com/main/prof/indoor-
luminaires/projectors/icolor-mr-gen3。光源的亮度和颜⾊通
过USB控制PWM占空比来实现。⽤于⼈脸图像采集的相机为Sony
DXC-9000，帧率60fps，分辨率640x480，FOV 40度。Light
Stage 3还包括6个红外光源和1个灰度相机。红外光源的峰值波⻓为
850nm。灰度相机为Uniq Vision UP-610，帧率110 fps，分辨率
640x480，FOV 42度，红外滤光片为Hoya R72。彩⾊相机和红外
相机之间采⽤分光片确保彩⾊图像和红外图像对齐，30%反射进入
红外相机，70%透射进入彩⾊相机，如图9所⽰。
图 8. Light Stage 3 采集系统样机
图 9. Light Stage 3 分光采集系统
如图10所⽰，Light Stage 3的⼯作流程如下：⾸先⽤Specular Ball

采集⽬标环境光照，或者计算机⽣成虚拟环境的光照。然后控制156
个彩⾊光源模拟出与⽬标环境光照相似的光线，演员在Light Stage
3产⽣的光照下进⾏表演。最后通过红外成像把Relighting的⼈像扣
出并融合到电影中。由于Light Stage 3不能重建三维⼈脸模型，因
此不能随意切换视点，需要演员精湛的演技将肢体形态与⽬标环境融
合。最终Relighting合成视频如下所⽰。
图 10. Light Stage 3 采集图片样例及融合真实环境效果效果
Light Stage 5采⽤与Light Stage 3同样的⽀撑结构，但把156个彩

⾊光源换成156个⽩⾊光源，如图11所⽰[9-12]。每个⽩⾊光源包括
12个Lumileds LED灯珠，平均分成2组，分别覆盖⽔平和垂直的偏
振片。理想情况下，需要按照Light Stage 2的光照模式依次点亮每
个光源并拍照，那么⼀共需要拍摄156张图片。Light Stage 5创新
性地采⽤了球谐调和光照（Spherical Harmonic Lighting），如
图12所⽰，将光照模式（Lighting Pattern）从156个减少到4个，
分别是沿X/Y/Z⽅向递减的3个梯度光照和1个均匀全亮光照。由于需
要拍摄⽔平和垂直两种偏振状态下的图片，因此每个相机⼀共需要拍
摄8种光照模式下的8张图片。相比之前的Light Stage，整个采集的
时间⼤⼤缩短。如果采⽤⾼速相机可以达到实时采集，如果采⽤单反
相机需要2秒。
图 12. Light Stage 5 偏振光布局
⼈脸包括低频和⾼频两种⼏何信息，低频⼏何信息主要是指⿐梁⾼
低、脸型胖瘦等；⾼频⼏何信息主要是指⽑孔、胡须、唇纹等。对于
低频⼏何信息，Light Stage 5采⽤两种三维建模⽅法：⼀种是⽤
DLP⾼速投影仪和Phantom⾼速摄像机构成基于结构光的实时三维
重建。另⼀种是采⽤5个单反相机（Canon 1D Mark III）构成多视
⼏何（Multi-view Geometry）重建三维⼈脸模型。在上述两种三
维建模⽅法的基础上，进⼀步采⽤Photometric Stereo来⽣成⾼频
⼏何模型。图13为Light Stage 5所完成的“Digital Emily”项⽬中
重建的数字演员艾米丽[13,14]，左侧为重建的⾼精度Normal
Map，中间为只⽤Di use Component重建的⼈脸模型，右侧为同
时加上Di use Component和Specular Component以后重建的⾼
精细⼈脸。
图 13. Light Stage 5 Digital Emily⼈脸重建效果
如图14和15所⽰，Light Stage 6是为采集演员全⾝反射场⽽设计

[15]。⽀撑结构直径8米，为了使演员处于球体中⼼，去掉了球体底
部1/3。Light Stage 6共包括1111个光源，每个光源由6颗
LumiLEDs Luxeon V LED灯珠构成。采集系统包括3台垂直分布的
⾼速摄像机以30fps同步采集图像，每⼀帧图像包括33种不同光照。
所以⾼速相机实际的⼯作频率为990Hz。在⽀撑结构的中⼼有⼀个
旋转平台，该旋转平台为演员有效的表演区域，直径2米。在采集过
程中旋转平台会持续旋转，⾼速相机从⽽拍摄到不同视点的演员图
像，演员需要不断的重复周期性动作，整个采集过程约⼏分钟。
图 15. Light Stage 6 采集系统⽰意图
Light Stage 6并不对⼈体进⾏⼏何建模，⽽是采⽤与Light Stage 3

类似的原理来实现Relighting。Light Stage 6相比Light Stage 3
的改进之处在于视点可切换。Light Stage 6为了实现视点切换，需
要演员周期性的重复动作，例如跑步，然后采集到所有不同光照下不
同视点的图像。图16上侧图片为1/30秒内某⼀个相机采集的所有图
片，包括26张不同光照下的图片(Lighting Frames)，3张红外图片
（Matting Frames）⽤于抠图，3张跟踪图片（Tracking
Frames）⽤于光流对齐图片，1张预留图片（Strip Frame）⽬前⽆
⽤，将⽤于后续其他潜在功能应⽤。图16下侧图片为相机阵列中上
中下三个相机分别采集到的图片。如图17所⽰，所采集的图片分布于
⼀个圆柱形上，当渲染不同视点下的Relighting图片时，从圆柱形
上选择合适的视点进⾏融合。
图 16. Light Stage 6 采集图片样例
图 17. Light Stage 6 多视点渲染
2.6 Light Stage对比总结
Light Stage 1 和Light Stage 2都是基于稠密采样的反射场采集，因

此采集时间较⻓。Light Stage 3采集彩⾊光源照射实时⽣成
Relighting图片，但没有进⾏三维建模，所以应⽤场景有限。Light
Stage 4的研发被搁置了，所以取消了Light Stage 4的命名，转⽽
直接研发Light Stage 5。Light Stage 5基于球谐调和进⾏反射场的
低阶采样，是相对比较成熟的⼀代系统，已经在《本杰明•巴顿》、
《蜘蛛侠》等电影特效中得到应⽤。最新研发的系统为Light Stage
X，⼩型可移动，专⻔针对⾼精度⼈脸反射场采集建模；其光照亮
度、光谱、偏振状态都可以基于USB接⼝通过电脑编程控制，⾃动化
程度更⾼，采集时间更短。2014年采集美国时任总统奥巴⻢头像
时，就是基于Light Stage X系统，如图18为采集现场，图19为重建
结果。Paul Debevec及其团队核⼼成员于2016年加入⾕歌
DayDream部⻔，主要是将光场技术应⽤于泛VR领域，其团队于
2018年8⽉在steam平台上上线了《Welcome to light eld》体验
应⽤。
表 1. USC Light Stage汇总对比
图 18. Light Stage X为美国时任总统奥巴⻢采集⼈脸头像现场
（图片来源于
http://vgl.ict.usc.edu/Research/PresidentialPortrait/）
图 19. 美国时任总统奥巴⻢重建头像
（图片来源于
http://vgl.ict.usc.edu/Research/PresidentialPortrait/）
[1] Debevec P, Hawkins T, Tchou C, et al. Acquiring the

re ectance eld of a human face[C]// SIGGRAPH '00 : Proc.
Conference on Computer Graphics and Interactive
Techniques. 2000:145-156.
[2] Debevec P. A median cut algorithm for light probe

sampling[C]// ACM SIGGRAPH. ACM, 2008:1-3.
[3] Tim Hawkins, Jonathan Cohen, Chris Tchou, Paul

Debevec, Light Stage 2.0, In SIGGRAPH Technical Sketches,
2001.
[4] Hawkins T, Cohen J, Debevec P. A photometric approach

to digitizing cultural artifacts[C]// Conference on Virtual
Reality, Archeology, and Cultural Heritage. ACM, 2001:333-
342.
[5] Hawkins T, Wenger A, Tchou C, et al. Animatable facial

re ectance elds[C]// Fifteenth Eurographics Conference on
Rendering Techniques. Eurographics Association,
2004:309-319.
[6] Jones A, Gardner A, Bolas M, et al. Simulating Spatially

Varying Lighting on a Live Performance[C]// European
Conference on Visual Media Production. IET, 2006:127-133.
[7] Wenger A, Hawkins T, Debevec P. Optimizing Color

Matching in a Lighting Reproduction System for Complex
Subject and Illuminant Spectra.[C]// Eurographics Workshop
on Rendering Techniques, Leuven, Belgium, June. DBLP,
2003:249-259.
[8] Debevec P, Wenger A, Tchou C, et al. A lighting

reproduction approach to live-action compositing[C]//
Conference on Computer Graphics & Interactive Techniques.
ACM, 2002:547-556.
[9] Wenger A, Gardner A, Tchou C, et al. Performance

relighting and re ectance transformation with time-
multiplexed illumination[C]// ACM, 2005:756-764.
[10] Ghosh A, Hawkins T, Peers P, et al. Practical modeling

and acquisition of layered facial re ectance[J]. Acm
Transactions on Graphics, 2008, 27(5):1-10.
[11] Ma W C, Hawkins T, Peers P, et al. Rapid acquisition of

specular and di use normal maps from polarized spherical
gradient illumination[C]// Eurographics Conference on
Rendering Techniques. Eurographics Association, 2007:183-
194.
[12] Ghosh A, Fy e G, Tunwattanapong B, et al. Multiview

Face Capture using Polarized Spherical Gradient
Illumination[J]. Acm Transactions on Graphics, 2011,
30(6):1-10.
[13] Alexander O, Rogers M, Lambeth W, et al. Creating a

Photoreal Digital Actor: The Digital Emily Project[C]// Visual
Media Production, 2009. CVMP '09. Conference for. IEEE,
2010:176-187.
[14] Alexander O, Rogers M, Lambeth W, et al. The digital

Emily project: achieving a photorealistic digital actor[J].
IEEE Computer Graphics & Applications, 2010, 30(4):20.
[15] Einarsson P, Jones A, Lamond B, et al. Relighting human

locomotion with owed re ectance elds[C]// ACM
SIGGRAPH 2006 Sketches. ACM, 2006:76.
Viewed using Just Read

三维人脸建模中的应用

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

三维人脸建模中的应用

Uploaded by

Copyright:

Available Formats

发布于 2018-10-31 Mars Cao 来⾃火星

算机模拟反射场（Re ectance Field）是⽬前好莱坞⼤片中惯⽤的

2、USC Light Stage介绍

2.1 Light Stage 1

如图2所⽰，Light Stage 1 包括1个光源（strobe light）、2个相机

图 2. Light Stage 1系统样机

Light Stage 1采集的图片样例如图3所⽰，第⼆⾏图片中亮点表⽰光

图 3. Light Stage 1 采集图片样例

图 4. Light Stage 1 基于结构光的三维重建

在进⾏Relighting渲染之前还需要通过Specular Ball / Mirror Ball

图 5. Specular Ball 采集环境光

图 6. Light Stage 1 ⼈脸Relighting效果

2.2 USC Light Stage 2

Light Stage 2 在Light Stage 1 的基础上增加了更多的光源，将23

图 7. Light Stage 2 采集⽰意图

2.3 USC Light Stage 3

Light Stage 3的⽀撑结构为⼆⼗⾯体，包括42个顶点、120条边、

图 8. Light Stage 3 采集系统样机

图 9. Light Stage 3 分光采集系统

如图10所⽰，Light Stage 3的⼯作流程如下：⾸先⽤Specular Ball

图 10. Light Stage 3 采集图片样例及融合真实环境效果效果

2.4 USC Light Stage 5

Light Stage 5采⽤与Light Stage 3同样的⽀撑结构，但把156个彩

图 11. Light Stage 5 采集系统样机

图 12. Light Stage 5 偏振光布局

图 13. Light Stage 5 Digital Emily⼈脸重建效果

2.5 USC Light Stage 6

如图14和15所⽰，Light Stage 6是为采集演员全⾝反射场⽽设计

图 14. Light Stage 6 采集系统样机

图 15. Light Stage 6 采集系统⽰意图

Light Stage 6并不对⼈体进⾏⼏何建模，⽽是采⽤与Light Stage 3

图 16. Light Stage 6 采集图片样例

图 17. Light Stage 6 多视点渲染

2.6 Light Stage对比总结

Light Stage 1 和Light Stage 2都是基于稠密采样的反射场采集，因

表 1. USC Light Stage汇总对比

图 18. Light Stage X为美国时任总统奥巴⻢采集⼈脸头像现场

[1] Debevec P, Hawkins T, Tchou C, et al. Acquiring the

[2] Debevec P. A median cut algorithm for light probe

[3] Tim Hawkins, Jonathan Cohen, Chris Tchou, Paul

[4] Hawkins T, Cohen J, Debevec P. A photometric approach

[5] Hawkins T, Wenger A, Tchou C, et al. Animatable facial

[6] Jones A, Gardner A, Bolas M, et al. Simulating Spatially

[7] Wenger A, Hawkins T, Debevec P. Optimizing Color

[8] Debevec P, Wenger A, Tchou C, et al. A lighting

[9] Wenger A, Gardner A, Tchou C, et al. Performance

[10] Ghosh A, Hawkins T, Peers P, et al. Practical modeling

[11] Ma W C, Hawkins T, Peers P, et al. Rapid acquisition of

[12] Ghosh A, Fy e G, Tunwattanapong B, et al. Multiview

[13] Alexander O, Rogers M, Lambeth W, et al. Creating a

[14] Alexander O, Rogers M, Lambeth W, et al. The digital

[15] Einarsson P, Jones A, Lamond B, et al. Relighting human

Viewed using Just Read

You might also like