新闻资讯

当前位置：首页 > 新闻中心 > 公司新闻

换一个人就必须重新再训练

来源：津信变频器发布于：2019-4-21 9:10:32 点击量：

2019/04/22 08/23/57　　【丹佛斯变频器 www.dfsbp.com】所有工作室都用去燥技术做“结果预览”，　或“ＬＯＯＫ－ＤＥＶ”流程，　至于做ＦＩＮＡＬ的可能性，　也许最后工期紧的时候也会用到。

　　无可否认，机器学习在很多方面已经有了些不错的尝试；但任何个人或机构都难以证明，机器丹佛斯学习现有的算法能做到比传统表情捕捉系统（用优化算法求出来的结果）更稳更好。

　　如同论文中提出的：“我们先挑选出待处理数据中的一部分，做人工清理，然后训练一个深度神经网络，用来取代人力劳动，自动处理余下的数据。

　　仿真特效视频　＞＞

　　可能这单纯从数据量上就超出了很多深度学习系统的上限。

　　在“角色动画”领域，强化学习其实很有前途。

　　＊　本文由「极客电影」编辑整理，　经作者授权发表

　　如今，人工智能对大众来说早已不是“高高在上的黑科技”，它在各个领域的应用正如火如荼展开，前段时间“ＡＩ换脸视频”还在网上大火了一把。

　　比如下图中的第三个：

　　可想而知，这样的脸是没法拿来用的，所以这个系统实际上最重要的一步是——将之前手工制得的“好ＭＥＳＨ”，与这个动画网格的第一帧拼接起来，再运用光流等混合技术手段来驱动手工网格的动画：

　　“好ＭＥＳＨ”每一个顶点的坐标，就是ＤＩ４Ｄ系统输出的最终结果——到此为止，没有任何深度学习在里面。

　　处理过程如下：

　　在这个应用场景中，深度神经元网络的用法与大家以为的可能存在四点不同：

　　第一，这个网络只能专人专用，　换一个人就必须重新再训练。

　　迪士尼这套系统带来的抠图效率提升，使得整个抠图流程所花费的时间降低到了原来１０％。

　　过拟合是一般的深度学习都极力尝试避免的，于是就导致了得到的网络在所有任务上都表现“良好”。

　　然后是“场景建模”。

　　至于说解ＰＤＥ（偏微分）方程用ＤＬ来解的朋友．．．．．．我不完全说死，就说视情况而定吧；

　　而现实是，但凡能解出来的ＰＤＥ方程，现有的数学解法一定都比ＤＬ的算法快准稳；但凡是解不出来的方程，就没有数据做训练．．．．．．

　　但ＤＬ＋ＰＤＥ这一块倒是有很多的工作在做，这些工作很有科学素养：

　　它不是着重于用ＤＬ来解方程，而是用ＤＬ来搜寻和探索混沌系统或宏／微观尺度的数学模型。

　　让艺术家抠一个原图和抠一个经过算法粗抠的图，要花费的时间没啥区别，所以深度学习必须做到“连头发丝都能抠好”这样的细节才足够实用，也才能被艺术家们用起来。

　　数据输入端是计算机计算出的一个脏点云，输出端是经过人工挑选后，计算机再自动计算得到的规整网面计算机计算得出的一个规则网格。即使让得到的网络无法做“由此及彼”的“智力推演”，也要让它成为针对一个特定任务“好用的苦力”。

　　“好ＭＥＳＨ”需要网格的布线均匀、疏密得当，通常得混合利用不同工具，再加上人工制作才能得到。

　　在开聊前，我想先特别提一句：目前基于深度学习的光线追踪去燥技术几乎已经是标配级别的使用。

　　计算特效领域，从科研角度讲，深度学习也在不断地尝试，但主要集中在辅助作用，而触碰不到核心的计算理论、算法，甚至程序。

　　最后，我在这里也只是抛砖引玉，希望科研人员和实际影视／创意娱乐工作能有更多联系：

　　让实际问题被深度研究，科研成果用来更好的优化实际生产；相关企业发展出研发部门、学校孵化出优秀的创业项目。

　　先说说开头提到的“ＡＩ换脸”，或面部表情模拟。

　　写到这里，我发现很多人喜欢把　自动化＝ＡＩ＝深度学习。

　　比如下面这个视频中的序列，仿真时每帧消耗掉用来存储每一个水粒子压强、速度、位置等物理信息的内存量就能高达２００ＧＢ——注意，这是每帧数据量，数秒钟的仿真序列就能产生几十ＴＢ的序列。

　　目前最好的自动抠图（连头发丝和动态模糊都能抠好）是迪士尼在　ＳＩＧＧＲＡＰＨ　２０１７提出的算法，这套算法不是基于深度学习技术的。

　　在人工智能中，牺牲智能换取劳力，来满足影视制作对高品质的需求。

　　接下来谈“特效”。

　　影视制作级表情捕捉，　有这么个专业系统被使用得比较多，它是——　ＤＩ４Ｄ　ＰＲＯ　ＳＹＳＴＥＭ。因为它无论是训练数据、还是最后的应用，都是从一套十分昂贵的系统中来的。

　　用深度学习界的“行话”讲，就是——他们的算法，ＯＶＥＲＦＩＴ到了这一个演员身上。

　　加收藏或转发到朋友圈吧！

　　改版

　　跟随下图步骤点亮【极客电影】“星标”

　　不错过任何好内容！

　　▼

　　加入社群　／　转载事宜　／　商务合作

　　ＧＥＥＫＷＯＷ

　　。

　　一个技术实用与否、好用与否，都会有为期几个月、甚至数年的试错和论证在里头。

　　第二，我发现很多人误把“ＳＩＧＧＲＡＰＨ　论文”等同于影视业就会用的技术、ＳＩＧＧＲＡＰＨ的研究热点等同于影视技术研究的方向……这些完全不成立！

　　ＳＩＧＧＲＡＰＨ毕竟是一个科学性的学术会议，它的目标更任重道远；而且里面产生的技术，针对影视的只是一部分；对其它创意设计、图像处理、创意制造等行业，ＳＩＧＧＲＡＰＨ也有着深远的影响。

　　先说数据捕捉，若要对一个人的表情进行实时表演捕捉，要先用一套离线系统（一套相机矩阵系统和软件ＰＨＯＴＯＳＣＡＮ）对演员面部进行数字扫描，然后离线从数字扫描的脸数据中建出“规则的网格”——我喜欢称它为“好ＭＥＳＨ”。

　　最后，虽然此处用到了ＡＩ，但无法从本质上降低制作成本。

　　场景建模方面没啥好说的，　基于规则的程序化建模（ＰＲＯＣＥＤＵＲＥ　ＭＯＤＥＬＩＮＧ）高效准确而且已经在影视业和游戏业用了很多年了。

　　通过下图，我们先来看下影视级自动抠图算法目前最好的呈现结果，这样的结果，深度学习算法极大可能做不出来：

　　抠图最难的地方是抠细节。

　　以下两张图都是以这种方法自动建出来的城市，深度学习可能很难在这个领域再有革命性建树。

　　▲　电影《阿凡达》中的表演捕捉

　　▲　电影《阿丽塔》中的表情捕捉设备

　　这样的系统，　快准稳至关重要——　一帧跳脱，所有前后帧都受牵连；艺术家是为了这几帧来手修，还是让演员为了这几帧来重新拍摄？

　　既然讲到脸了，　我就再讲一个深度学习在影视级别特效中成功应用的例子，其中利用深度学习的方法和目的，恐怕跟大多数人想象得很不一样。

　　再一个能台达变频器想到的是“抠图”。

　　这时，很多人开始关注一个问题：

　　现阶段，人工智能“深度学习”在影视特效领域到底有哪些应用，有多大市场？

　　作为技术研究者，我很乐意跟大家分享个人的理解和观察，今天的这篇文章主要说明两个观点：

　　１．　目前，深度学习技术在影视制作中的使用场景很有限；

　　２．　深度学习在影视制作中的应用，可能跟很多人以为的应用场景很不一样。

　　那么，在这项工作中，　深度学习到底是怎么被用起来的呢？

　　原来，　在“处理网格驱动”这一步骤中，由于光照／相机噪声等因素的存在，通常需要用人来大量手工清理驱动数据，否则会对结果带来十分糟糕的扰动。”

　　▲　参考资料：论文原文

　　这样做的目的，就是把一个“不规则网格”映射到一个“规则网格”（好ＭＥＳＨ）。ＳＩＧＧＲＡＰＨ论文不一定就代表了影视业发展的方向，也不一定能暴露影视制作中的关键问题。

　　其实，自动化不等于ＡＩ、更不等于深度学习。

　　▲　这是一个典型的“好ＭＥＳＨ”

　　然后，　用一种很传统的流程，实时拍丹佛斯下演员的面部动画，并基于深度相机等混合硬件构造出噪声很大的、逐帧的运动脸。

　　第三，深度学习所用到的数据，都来自计算机的计算结果，而非源于实际采集数据。

　　但是对这一点，迪士尼的态度就有点暧昧：

　　迪士尼研究院虽然也做强化学习方面的研究，但最终变成“动画制作工具”的可能性，还不如“儿童玩具制作工具”来的更高．．．．．．

　　文末，我想就两点做下澄清：

　　第一，这里限定的是“影视”里使用的讨论，　至于游戏、手机应用、日常娱乐等领域，就欢迎读者发散思维、留言探讨了。

　　基于规则的算法给出的结果如果已经很好，就没有那么大的必要性去用深度学习。

　　ＯＶＥＲＦＩＴ（过拟合）指的是，如果一个训练得到的神经元网络，面对两个相似任务，在任务一表现优异、而任务二表现平平，则产生了过拟合。

　　正确做法是，去听ＳＩＧＧＲＡＰＨ的ＰＲＯＤＵＣＴＩＯＮ　ＳＥＳＳＩＯＮ，听ＤＩＳＮＥＹ、梦工厂、听（工业）光魔、ＷＥＴＡ的人说他们制作流程中最后选用了什么技术、开发了怎样的代码和工具。

　　毕竟，在演员脸上画些标记点不是什么难事，而且头盔前面这个摄影设备，经过精密的镜头矫正，整个流程通过复杂算法的叠加和混合来保证结果可信度，尽最大可能避免了艺术家的后期调整工作。

　　它包括了几个标准的模块：数据捕捉、数据预处理，和数据后处理。

　　第二，这个网络的目的不是替代人类，　而是减少人类的重复性劳作。

　　面对这个特定应用场景，实际工程人员则不得不去犯“过拟合”的忌讳。

　　因为在这个计算领域，核心诉求不是快或慢，而是“大”。本文作者　张心欣（微博　／　知乎　＠张心欣）

　　知乎计算机图形学相关话题优秀答主

　　在首都电影学院高精尖将来影像创新中心，研发针对影视领域的应用仿真程序

20190422082357

上一篇：挖贝网ＷＡＢＥＩ．ＣＮ配图

下一篇：据俄媒ＲＴ４月１６日援引伊朗当局的表态称

新闻中心

联系我们

新闻资讯

换一个人就必须重新再训练

相关阅读