me前沿

AI引领元宇宙时代的生产力革命

作者:IT狂人日记

近年来,互联网及软件行业的各种技术发展迅速,这也构成了我们畅想未来元宇宙时代的基础。但是,如果从科技领域的生产流程而言,我们还处于工业革命之前的状态,生产效率低下,距离实现大批量、规模化生产还有很长的距离。数字资产的生产成本高昂、对技术人才的要求苛刻,已然成为了阻碍其发展的重要原因。

以近几年非常火爆的数字人为例,灵动表现的其背后是动画师们在一帧帧地精修渲染,不仅成本非常高昂,而且制作流程十分耗时费力。在生产流程中引入 AI 技术,将工具训练成开发者大脑的延伸势在必行。只有在数字资产制作的流程中引入 AI 技术,才能够大规模生产高质量的虚拟内容,从而引领元宇宙时代的生产力革命。

AIGC:用AI加速数字资产的规模化生产

元宇宙有三个不可或缺的基础要素:人、场、物,这些数字资产共同构成了元宇宙世界,影响着人们在元宇宙世界中的体验,Unity已经在有意识地探索,如何通过AI来加速数字资产的生产流程。

AI与虚拟人资产生成

首先,是当下元宇宙最早落地的应用场景:虚拟数字人。

当前很多公司采用的流程是让模特在光场设备中做出极限表情并拍摄下来,然后让艺术家用K帧的方式进行模型清理,这个步骤非常地耗时耗力,但却是避免 “恐怖谷”效应的必经之路。

但其实,人的表情是由面部肌肉牵动的,只要掌握了面部肌肉间相互的作用关系,就可以借助 AI 技术模拟出人类的所有表情,而不需要找真人来一一扫描。

比如 Unity 收购的全球领先的数字角色创作公司 Ziva Dynamics,就十分擅长利用机器学习来帮助实时角色创作,精通复杂模拟与模型变形。

AI引领元宇宙时代的生产力革命

Ziva打造的虚拟人Emma,可以在Unity中实时运行

通过 Ziva Faces、Ziva Face Trainer 等 AI 赋能的工具,结合人工智能的计算,让原本要耗费数周,甚至数月的角色脸部创作,可以浓缩成云端的一次按钮点击。这种新颖的方式不仅能加快创作流程,还能让更多的创作者参与其中,发挥他们的创意。

AI引领元宇宙时代的生产力革命

Ziva Face Trainer

如今,Ziva 和 Unity 正在合作规划开发路线,着重普及可负担、可扩展的实时 3D 人脸技术,让数字角色的表演无需昂贵的 HMC(头戴摄像机)或体积捕捉设备即可完成。

Ziva 与 Unity 还合作开发了工具 Ziva RT,其主要功能是将复杂的显式表达变成一个AI模型的隐式表达,从而大大提升性能与效率, 减少算力代价和运行期内存消耗,让原来需要艺术家十几天时间才能完成的创作,现在只需要等待短短两个小时。

ZivaRT 使用非常简单,只需要用户提供一个复杂 rigging 系统 10000 帧的动画结果,即每一帧网格体的顶点数据,ZivaRT 就能学到这个复杂 Rigging 系统的隐式表达,然后在运行时去取代它。

AI引领元宇宙时代的生产力革命

Ziva RT带来的变形效果可以直接用于最终成品,它还可以加快用工具评估动画装配的速度,加快DCC迭代流程。

Ziva 的能力远远不止于完善 3D 面部模型与面部表情制作,同时也能用于动作模拟。比如, 使用 Ziva VFX 2.0 中的新准静态积分器与生物力学弹性体求解器在真实世界测量中模拟狮子,以进行软体动态模拟,从而提供准确的结果,确保肢体动作最高保真度的变形。

实际上,正如面部表情一样,人类的肢体动作是靠关节控制的,所以只要理解了关节间实时互动的逻辑,就能够用 AI 来加速肢体动作的制作。比如通过 Unity Deep Pose,就可以通过控制某个关节,自动模拟出在该动作的作用下,身体其余关节的正确反应。

同样用于动作制作的 AI 驱动功能还有 Kinematica。在传统做法下,开发者需要在 Blend Tree 或状态机安排两个动作之间的切换,才能够模拟出逼真的人物动作。而基于 Kinematica,开发者只要给予一个骨骼姿势和所需的轨迹运动,系统就会去演算出惯性的动作位移。

AI 与虚拟场景生成

在元宇宙中,除了虚拟人之外,场景也是重要的组成部分,而且其体量也比数字人要大得多。现在创作数千甚至数万平方公里的虚拟世界,已经无法用纯人工的方式去摆放和设计更每一寸土地了,程序化和规则化的生成世界成为开放大世界的一个关键技术,AIGC 在这个方面也发挥着至关重要的作用。

Unity 在场景创作中也已经引入了 AI 功能,例如 Unity World Generation 是由 AI 技术驱动的美术辅助工具,可以看出开发者只是简单地“扫”了几下,就有一座高山凭空而起,并且实时模拟出了真实的光影效果。

AI引领元宇宙时代的生产力革命

由AI技术驱动的美术辅助工具World Generation

如果想要更多细节,也可以借助机器学习快速生成。例如在下图中,用户通过可视化的方式在左侧的小区域内“放置”树木、地皮等资产,同时,机器学习模型就会根据山体的坡度、水流、侵蚀等表面特征,实时模拟出植被的正确状态。

AI引领元宇宙时代的生产力革命

通过机器学习,可快速生成植被

此外,Unity 还推出了 Smart Assets。在这种资产里的每一个元素都由 AI 驱动,用户通过可视化的方式控制每一个元素在场景中所占的比重,系统就会自动生成符合物理真实的场景。所有的计算都通过 AI 自动完成,不需要再去手动调整参数。

AI引领元宇宙时代的生产力革命

由AI驱动的Smart Assets

AI 与虚拟物品生成

在人与场景之外,物体也是元宇宙世界必不可少的构成要素。逐一地建模复刻设计无疑是一个效率低下的方式,通过 3D 扫描技术和人工智能则可以大幅提高效率。目前 Unity 已经推出了一些 AI 驱动的功能,通过可视化的方式与 3D 扫描把现实世界中的对象进行三维重建。

比如 Unity ArtEngine,利用 AI 改进了表面摄影制图工作流程,可以通过 AI 来根据照片自动生成模型资产中的材质数据,并快速去光照、去接缝,消除不需要的伪影,从而快速将照片转换为基于物理的渲染素材。形象地说,通过 ArtEngine,用户可以轻松地将猫毛提取为 PBR 材质,然后应用于任何物品,比如做成一张独一无二的地毯。

近期,Unity ArtEngine 推出了全新的 Style Transfer 功能,可进一步释放设计师、独立制作者的创作潜力。Style Transfer 可以帮助用户以图像为基础,生成不同的气氛与色调的图像,将一张参考图像的艺术风格转移到另一张图像上,效果如下图所示:

AI引领元宇宙时代的生产力革命

ArtEngine 可以快速生成不同风格的图片

ArtEngine 可以生成 PBR 材质,而 Unity 的 RestAR 能够为任何产品或实体创建 3D 模型。RestAR 借助计算机视觉和深度学习,让没有技术背景的用户使用移动设备即可对产品进行高质量的 3D 扫描和渲染。用户只需用手机拍摄 1 分钟的视频,然后将其上传至云端,视频就会在 AI 技术的辅助下进行处理和压缩,从而成为高质量的 3D 模型。

UGG、Off-White 等领先的时尚品牌和电商平台都已经率先使用了 RestAR,应用场景包括 3D 预览、AR 试穿等等。在未来,这项技术可以成为用户在元宇宙世界的好帮手,比如把生活中的摆件、书籍等物品扫描成 3D 模型。

AI引领元宇宙时代的生产力革命

RestAR可以快速生成3D模型

AI行为模拟与AI交互:让元宇宙“活”起来

通过 Unity 的技术,开发者可以高效创作出元宇宙里的人、场、物,但元宇宙并不仅仅是一个静态的画面而已,“交互性”、“社交属性”同样是元宇宙不可忽视的基本特征。

元宇宙世界中的数字人,就如同游戏中的 NPC,需要能够与用户对话、给出实时反应与与反馈,不仅仅要有精美灵动的外表,还需要有近乎于人的智能,甚至是“灵魂”。

这涉及到两个部分,交互设计与行为模拟。

其中,交互设计包括语音驱动、动作捕捉、面部捕捉、以及物体追踪,这更多涉及到的是现实世界向虚拟世界转换与移植的问题, 比如在召开虚拟会议的时候,可以实现变脸,通过 Unity 的 AR Foundation 就可以在 Unity 中以多平台方式进行面部捕捉。在不久的将来,用户可以用一个普通的摄像头,就可以实现非常精细、准确的面部捕捉,而不再需要非常专业的设备。

对于元宇宙世界而言,更重要的是 AI 在行为模拟方面的作用,也就是如何让元宇宙中的 NPC 能够与用户交互、如何让它们看起来如同拥有自主意识和“灵魂”。

AI引领元宇宙时代的生产力革命

元宇宙是生机勃勃的世界,NPC能够自然地与人“交谈”

针对这个问题,Unity 已经拥有了成熟的工具。比如 ML-Agent,这个工具给开发者提供了强化学习和模仿学习框架,以及游戏虚拟仿真环境,能够大大降低游戏 AI 领域各种行为模拟算法的训练,和测试成本。

训练与测试是一个方面,推理则是另一条根本捷径。只有这样,才可以让这些原住民不仅能够在预设的条件中灵活应对,还可以自己推理演算,满足与真人接触时不可预测的种种情况。

Unity 为基于 Compute graph 结构开发的 AI 算法模型,提供了一个跨平台的推理引擎 Unity Influence Engine。任何 AI 开发框架,如 Tensorflow, PyTorch, Keras 等等,只要将训练结果导出成 Open Neural Network Exchange (ONNX) 格式的都可以导入到 Unity 的推理引擎中,直接使用该 AI 模型的功能。

基于 ML Agent 与 Influence Engine 这两项技术,Unity 让元宇宙中的 NPC 可以像一个真正的人一样与用户的数字分身进行交互,给他们更好的生活体验。

AI 技术:拉近我们与元宇宙的距离

虽然我们已经可以在技术层面构建出虚拟的人、场、物,并且让元宇宙中的原住民 NPC 看上去仿佛拥有了“灵魂”。但是,元宇宙离我们依然还很遥远。

首先,Unity 认为元宇宙其实就是一个广泛的实时 3D 版本的互联网,其特征为始终实时、3D 为主、高度交互、高度社交和持续稳定。从这个定义来看,现在很多主打元宇宙概念的产品,要么是纯静态展示无法互动、要么互动是由设定好的程序按部就班执行,无法对设定程序以外的行为做出反应,其实还不能被称之为真正意义上的元宇宙,因为他们无法满足“实时性”与“交互性”的特点。

真正的“实时”状态,应该就像我们的日常生活一样——没人知道接下来会发生什么,而是完全取决于你现在做了什么,以及你周围的环境,而这只能由可以像人一样思考、甚至超过人的人工智能来实现。

AI引领元宇宙时代的生产力革命

其次,只有通过 AI 实现的流水线式批量生产,才能确保有足够多的数字资产来打造一个丰富的元宇宙。

Unity 认为,元宇宙并不是一个空间概念,而是一个时间概念。也就是说,当人们在虚拟世界里花的时间越来越多,直到超过现实世界时,才可以说我们进入了元宇宙时代。这就需要元宇宙世界有足够多的、丰富有趣的内容,能够给人以比现实世界更多元的体验,才能让人更愿意在虚拟空间而非物质世界里花费时间。

但要想实现这一点,就需要海量的虚拟人、场景、资产等等素材。如果再想要追求 3A 级内容,就更需要大量的时间成本、金钱成本、人力成本,按照现在这种相对传统的生产模式,是必然无法满足海量的内容需求的。所以,能够指数级降低数字资产制作成本的AI技术,就成为了实现元宇宙必不可少的先决条件。

AI 的引入可以从根本上改变虚拟人、虚拟场景、虚拟物品等数字资产的生产方式,让打造数字资产的生产流水线成为可能,从而实现规模化、批量化生产。而我认为,这恰恰也是实现未来元宇宙世界的必经之路。

AI未来的发展趋势:NeRF

近期,Unity 非常关注的一个关键技术方向是 NeRF。

根据 UC Berkeley、Google Research、UC San Diego 团队在 ECCV2020 发表了一篇里程碑式的论文, NeRF 实现了神经场(Neural Field)与图形学体渲染(Volume Rendering)的有效结合,首次利用神经网络隐式场景表示实现了照片级(photo-realistic)的渲染效果。

NeRF 是有可能完全改变虚拟世界表达方式的一种技术。无论是画面的产生,还是数字资产的表达方式,都可以参数化到一个隐式空间。

NeRF 这个技术具有很强的使用价值,比如,通过神经网络渲染等技术,不仅可以生成较好的视觉效果,还能控制生成结果的风格和语义结构。通过 NeRF,我们可以让用户自主输入颜色、纹理等细节信息、制定并修改内容,进而将用户指定的语义图映射为逼真的图像。

还有这其中涉及到的神经网络渲染,也在很多方面改进了传统的渲染方式。神经网络渲染可以预设在特定环境下的所有渲染效果,但这就对算力与存储有很高要求,但如果采用神经元网络渲染技术,就可以通过 AI 解决算力与存储压力,以一种类似于查表的机制去获得描述性表达。以员工走进办公室的场景为例,在这个场景中,随着员工的位移,光影也会随之变动。

AI引领元宇宙时代的生产力革命

传统模式上,是会预设一些根据光影变化而呈现出的画面,但是通过神经网络渲染,就可以提前渲染出更多种甚至无数种情况,在实际运行的过程中,系统就会根据员工所在的位置实时调取出正确的光影配置,而且这个过程也更加准确可控。

如果 NeRF 与神经元网络渲染能够实现,将取代当前 GPU 光、声、画的影视化表达,就能够完全颠覆呈现虚拟 3D 世界的方式。

当然,目前的 NeRF 如果要完全替代相较传统 GPU 渲染和数字资产的表达上还存在效率问题,对于工具厂商来说,Unity 一直在为开发者用最小的算力存储代价获得最好的虚拟交互体验而努力,所以目前的 NeRF 的数字表达无论是生产阶段,还是使用阶段的算力效率上,还是和传统方式的协同上都存在一些问题。但无疑是一个很值得关注的技术方向。

接下来,Unity 会将 NeRF 等 AI 相关技术集成、纳入到更多的创作流程中去,让工具真正成为创作者的大脑,让在现实世界中的所见成为元宇宙世界中的所得。

来自 Unity Unity官方平台