周昌印:实时视觉计算——让「线上」超越「线下」

2021年11月02日

引言: 在过去的十几年中,互联网媒体不断演化出新的类型,从文字、图片、视频、到今天的实时视频与直播,技术的提升与市场的成长,让我们看到了新的机会和可能。

2021年9月28日,在IDEA(粤港澳大湾区数字经济研究院)举办的iTalk主题讲座上,视见睿来创始人&CEO分享了他在“实时视觉计算”领域的研究和进展,并讲述了他对于“实时视觉计算”在与各行业结合后能碰撞出的新机会。以下,ENJOY:

什么是实时视觉计算?
实时视觉计算是计算机视觉、图形学与计算摄影的交叉领域,它的核心是如何通过通用设备,对视觉信息进行实时理解、实时处理与实时渲染。
有一个经典的模拟场景:通过相机实时采集物理世界的视频流,通过计算机视觉技术去实时理解视频流、将之结构化,再通过图形学与图像处理技术对视频流进行再处理。比如直播时的背景替换,将增强后的视频以更好的方式实时呈现给用户。
与传统视觉处理不同,实时视觉处理需要在30毫秒或更短时间内完成一帧的所有计算,这就意味着这一动作有“实时性”的要求。

这个“实时性”的要求是对大部分现有视觉与图形学算法的极大挑战。
在图形学领域,人们习惯用大量算力去做电影后期特效;在计算机视觉领域,人们已经习惯用大量算力去理解静态图片。当我们将这个“实时性”的要求放到常见的移动设备上时,这个挑战就进一步提升了。
比如,用1秒钟做一张图片美颜已经能实现很好的体验了,但在视频上每一帧只有33ms或更短,想要实现同等的效果和体验,中间相差了1-2个数量级的算力。我们用NeRF渲染一张图片往往需要100秒或更多,而实现这一动作,与1秒钟做一张图片的美颜之间相差了3-4个数量级的算力。
实时视觉计算的变革与挑战
实现实时视觉计算的关键在于算力、架构、算法、与实现这四大领域。
当“硬”算力(芯片)的年增长速度基本维持在50-60%的时候,我们把目标转向了更“软”的架构、算法与实现。眼下在实时视觉趋势刚刚到来的时候,大量的架构、算法与实现都没有为其“实时性”做专门的设计与优化。
在这一现状下,这些架构、算法、实现的优化都有望达到1-2数量级的性能提升。比如,Visbit 首先在移动芯片上比台式PC机更早实现了 8K VR 视频的流媒体流畅播放,提升效率10-100倍,主要得益于相关算法的设计与优化;谷歌的HDR+算法可以在移动芯片上瞬间合成10张图片,提升效率10-100倍,得益于相机架构的整体改变与算法的重新设计。
以上两个案例都是我自己亲身参与的项目,在推进过程中,软件效率的提升往往超出我们的预想。
「实时视觉计算」可以让许多不可能成为可能。「非实时视觉」是后期特效;「实时视觉计算」是超能力。
非实时视觉-后期特效
黄仁勋数字人特效画面

这是前段时间火爆朋友圈、把大家都“骗”了的英伟达“数字人”新进展发布会的画面。整个发布会视频长达1小时48分钟,消失的老黄、厨房等绝大部分视频片段都是通过CG电脑动画特效制作出来的效果。我们称之为非实时视觉计算,也就是后期特效,在此之前我们看到的科幻片大部分就是通过后期制作合成的,它的极限就是人类的想象力,人类能想象得到的东西几乎都能通过后期制作出来。

英伟达的发布会视频中,真正的黄仁勋的Omniverse数字人仅出现了短短14秒的。为了实现这14秒,英伟达先是给黄仁勋(和他的皮衣)来一次全身的3D扫描,以几千张照片为基础来建模,再用 AI 训练面部动作和表情。

黄仁勋(和他的皮衣)全身的 3D 扫描

另外,他们找来了专门的演员,特意对黄仁勋过往演讲的肢体语言进行学习模仿,再进行长达 8 小时的动作捕捉,整个团队在多番细节调整后最终呈现出14秒的效果。

相较于非实时视觉计算的应用成熟度,实时视觉计算的要求更高,挑战更大。

实时视觉计算-超能力

实时视觉计算,让人实时看到被算法增强后的现实,如同超能力一般。通过合理的感应器设计与实时的智能计算算法,人们可以看见原来肉眼不可见的现象:将远处的人像通过超分技术让你看到细节;通过实时三维重建与神经渲染,看到物体的侧面;通过实时跟踪与信息叠加,让人看到更多所需的信息;通过实时动作捕捉,驱动虚拟偶像形成自然动作等等。

许多早期技术已经在虚拟现实(VR)与增强现实(AR)中获得初步的应用,但是还有大量实时计算问题有待解决。

谷歌Starline项目,让用户可以多角度与朋友实时互动

还有许多重要的视觉算法还没有被实时化。例如 Motion Magnification 是十年前MIT视觉研究员名动一时的技术成果,可以把微小的动作在视觉上放大,让人更容易看到。如能将之实时化,即为一种明察秋毫的超能力。这些大量未被实时化的技术,都是未来研究者的机会。

MIT研究员的Motion Magnification技术可以放大细小动作,是潜在的视觉超能力。

实时视觉计算技术一直在快速发展中,今天我们的CTO Labs立项的目的就是要把这一技术继续往前推进,同时加速实时视觉计算在各个领域的应用。所以需要大量优秀的计算机视觉、图形学与音视频领域的研发人员加入。

实时视觉计算的应用前景
1. 线上购物超越线下商超
2020年,在线直播用户超过了5亿,已经进入了全民直播时代。
常规的直播间现场

一场标准的电商直播,基本的人员配置需要7-8人。我去看过一家头部的MCN机构的直播间现场,给我最直观的感受是:设备多且复杂,运营成本高,无法进行规模化。这一情况带来的直接影响就是直播的视觉效果趋同,表现力低;用户体验单一枯燥,难以留存。

回到实时视觉计算,在技术落地时,你的客户需要的其实是非常简单的东西:操作简单、流程简单。这一需求看似简单,但实现起来其实不容易。举个例子,在直播时需要一个定制化的背景,这个需求可以用绿幕通过后期实现。这样一来问题出现了,如果直播间介绍的产品是绿色的,在绿幕背景下抠像时要如何做到精准的识别?

这是来自实际应用场景中真实的需求,也是目前实时视频计算需要去解决的问题。一旦能通过技术解决这些应用场景里的真实需求,则可以实现线上购物超越线下商超。

2. 线上视频会议超越线下见面
传统的视频会议,尤其是在做PPT演示的时候,需要切换镜头进行ppt的演示操作,在过程中往往会遮挡住PPT或ppt显示不够清晰。这样的体验相较于线下面对面的会议来说还不够完美,无法做到替代,更别说是超越了。

现在,已经有公司做到了人和PPT在同一个画面里配合出现,同时可以通过手势对PPT进行实际的操作,比如放大、缩小等。这对很多需要开视频会议的企业来说,既提高了效率又提高了观感。

「线上」超越「线下」?仅仅是冰山一角

通过实时视觉计算实现线上超越线下,在我看来,目前的所有技术、应用仅仅是冰山一角。我们的 IDEA视见睿来实验室将做深入的实时视觉计算的研究,并将其应用到更多的行业。我们实验室接下来主要的研究逻辑,一是针对部分距离实时性尚有一个数量级的视觉技术,通过我们的联合实验室,把它们推向实时,让技术实现真正意义上的突破;二是在实时人像技术产品化上做更大的投入,让相关技术在更多真实应用场景中落地。