me前沿

数字人元宇宙?是元语宙!

作者:点金手丰年

今天我分享的主要内容是数字人应用方案的一些理解。

目前数字人元宇宙还处于第一阶段——元语宙。我认为数字人是个元宇宙,但是它的第一个阶段是元语宙,语言的语。

整个数字人我们可以从场景上来看这四个方向。

1.数字人短视频口播

数字人短视频口播,我把它总结为矩阵内容放大器做覆盖。

比如说,我今天在工厂里,我把我的音频录制下来,但是场景会变成我坐在绿幕前面或者坐在办公室里。声音还是我的声音,但是把我的场景变掉了,变到了别的地方。

还有人问,是不是可以把字打到屏幕里面,让系统念出来?可以,但这个事我个人是不满意的,因为数字合成的声音有点假。

这个事情对于女装有用吗?

有用!我有一个卖羊绒大衣的客户,他们家爆量的短视频基本上都是口播视频贡献的,所以他们家就可以通过这个事情,把场景、内容文字换掉,只通过录音频就可以随时更新出新的内容。

我现在的内容已经是音频跟不同的画面在搭配了。我晚上直播的音频、我在办公室口播的音频、我打电话的音频,都被配上了我讲课的视频,但我的口型是不对的,不过数字人可以完美解决这个问题。

因为我确实没有那么多的时间单独拿出来拍视频,但我每天都在持续的输出,所以通过这种方式,做到了利益矩阵内容的放大。

2.数字人直播带货

数字人直播带货其实分两种,一种云端,费用相对便宜一些,不用弄服务器。另一种叫本地端,你弄一台他们的台式机到你的直播间,大家注意,数字直播带货又分两种,一种是云端渲染,一种是本地渲染。

云端渲染要求你需要非常好的网速,因为直播是实时的,所以对网速和清晰度有要求。

你可以理解为,直播的是小助理,对外展示的脸不是我,但是我可以驱动他,我说什么话,他的嘴型就是什么样。

大家可以去看一下张琦的直播,她的直播间也是录像。他们录一段视频,张琦讲 3 分半,开始挠挠头看屏幕,接下来小助理就在一边疯狂输出,回复公屏的内容,张琦又讲一会,小助理又说会话。其实本质上它是把无人直播录播那套东西放进来,但是它后面放了个人。

机器识别这些东西的时候很简单,治理的同学就看两件事,第一公屏有没有及时回复,第二是你的公屏互动度。

3.数字人实时换脸

数字人直播带货跟数字人实时换脸不一样。比如我让莎莎在直播间播,但脸被换成七七的脸,用户看到的是七七在直播,但实际上是莎莎在播。

这个功能在达人身上用的比较多,把素人主播的脸换成大主播。现在有几个大家都知道的不能直播的大主播,现在都在想办法用这种方式重新回到直播间。

我对这个事情的理解,就是一个燃烧型主播的永动机。

我们换主播带来的转化是非常差的,所以就可以让燃烧型主播先上三个小时,后面的第二个三小时就可以让他自己驱动自己,这个阶段依然是原声驱动,但是人已经不站在那里了。

如果还有第三个三小时,我可能会让他应用录音驱动,但是我不会让他们选择用 TTS 合成音,因为 TTS 合成音对燃烧型主播来讲,我认为效果不好。

这套模型比较适合店播主播。前两天我在视能会群里分享了一个视频,主播播的很差,我觉得一个真人主播在非常高的成本下,播成这样还不如数字人。所以我们2023年想做的一件事就是通过数字人提高直播带货的下限,而且成本低到你想象不到。

4.数字人和自然人协同

怎么理解呢?就是整个视频里面你得有活人。

那么,有意思的来了,数字人秀场女主播,来收割大哥们了!

图片

我们在抖音包括抖音国际版TikTok上已经看到了很多秀场实时换脸的女主播。

你感觉这些主播的眼睛像王祖贤,嘴型像张柏芝,这种是有人在播的,但是面部的动作会被实时捕捉反馈到新的五官变化上,以假乱真YYDS。

这里面有个小细节,你使用明星的面部特征是不可以超过一定比例的,国际上是30%,我们国家的标准应该更严格一些,可能是25%,这就是说,你只能用一小部分他人的面部特征,而不能完全换脸,所以安全的方式都是去做一个“究极缝合怪”混装人造美女。

所以我们现在在做类似的方案——数字人丰年,后面跟一个小助理,变成日不落直播间。

我对他的总结是真实付费和本地生活的工业化。

我们合作的一个本地生活直播间,现在用数字人一场已经可以卖到60w,他这两天在做大厂,准备要破 100 w,这已经是里程碑了。

抖音本地生活,对于电商的治理管理有点严,但是你把数字人用在本地生活上,也不是不管,但是他们可能会更看重GMV。

所以为什么是知识付费和本地生活工业化,因为我认为这两个行业可以出现纯数字人直播。

所以这四个方案,你会选哪一步?

接下来就是数字人直播带货的关键节点。

第一个是话术循环节奏。大家可以看一下张琦的直播,录一下她的5分钟直播节奏。为啥是五分钟,因为这是话术循环。

第二个是副播配合时机,就是副播插话,我认为有三个时机。

· 1 · 有重立刻插入,你不用管,数字人说没说话,直接插。

· 2 · 评论区有问题,打字插进去。

· 3 · 在主播停顿的时候插进去,因为他会留一分半的气口,留个break,在那个时候插。

第三是音频拟人水平。TTS 合成音满足不了要求,但是我们让主播录了几段极具个人特色的话,翻车的概率会降低很多。

举个例子,我的直播间有人设,所以如果是七七在播,大概率可能会翻车,但是我录了几段我的话,在旁边准备放,比如说录一个“我看你们谁在里面得瑟?”;“我看谁又不挂灯牌?”假装我也是在的,这种情况翻车的概率就很小了。

而这些声音我们也可以用来应对人工循环。

因为当时抖音治理的人跟我说,机器提醒了这几个直播间音频接近,画面接近是用图像帧去查重的,音频接近是直接拿声线读过去。如果你的直播间被判定录播,那么人工就会介入,他们会在里面最少待5分钟,多的话可能是15分钟,这是治理的要求。

但是有一个问题,如果直播间被处罚过一次,他以后经常秒死,经常做客,

第五个是场景停留穿透

我给大家准备了很多的KT板,但现在已经升级成一批动态视频背景。我们录了一批仓库卸货、商场走廊的动态背景,就是为了便于匹配绿幕调换背景的。

数字人对团队模型的改变

我们公司最近干的一件事情是,把直播助理裁掉了70%。我先解释一下我为什么能裁掉 70% 的助理,是因为我们每一个直播间里面回公屏的人已经不在直播间了,而是在办公室,在屏幕里面打字就好。

我们公司的每个直播间都配置了一个简易DJ台,录了几段助播说话的声音,如果这个人不在主播旁边,也可以通过这种方式,让音响说话。这种方式把助理的工作量减少了 2/ 3,声音基本上现在直播间里就主播自己了。为了让主播不寂寞,我们给他立了个镜子,可以实时让主播看到自己。

助理的本质就是帮忙上架,通过“3、2、1,上连接。”营造直播间氛围,除此之外就没有其他特别的事了,所以如果主播都被数字化了,那么助播为什么不能呢?

我们现在接了几个本地的客户,他们想让我们在中台总部给所有的账号播,但是经过我们跟抖音沟通之后,发现一个问题,如果不在 POI 位置下播,流量少 2/ 3。

举个例子,如果你在河南新马驻马店的火锅店里直播,你的流量就多。但如果你的中台总部在广州,在广州播河南的这个账号,你没办法吃到流量,哪怕你用虚拟定位的方式都不可以。所以这个事儿还是要分布式部署。

但如果在每个地区都放一台本地设备,费用会很高。所以我们选择录一段15分钟的录像。

讲三遍话术,中间留一分到一分半切口,工作人员每半个小时去屏幕里看一下我们在中台控直播间里的回复。直播和所在地点还在当地,但助理场控上下架和后台操作给到中台。

最后希望大家思考一个问题:如果数字人可以作为合规的应用用到直播间里去,哪些工作会被替代?哪些动作,哪些人不会被替代?