距离成为有情感的数字人主播，AI刘强东还要迈过这些坎

时间：2024-04-25 23:22:48来源：界面新闻

用数字人做直播常常会提及“120秒战斗”的说法，指的是如果120秒内，用户不觉得这是一个让他感到别扭的数字人，就会跨过“恐怖谷”效应（当人类看到类似人类的物体，特别是机器人时所表现出的积极和消极反应）。

在京东内部看来，AI刘强东做到了这一点。

自近日刘强东变身AI数字人坐镇京东采销直播间后，市场上对数字人直播的讨论也再度热了起来，核心聚焦在直播数字人如何能做到更像真人，有哪些更实际的应用场景和商业化方向等。

目前行业将直播数字人划分为三级。第一级数字人主要扮演辅助角色，填补真人主播忙碌或休息时的直播空缺，力争像真人。此类数字人将商品详情转化为视频内容参与直播，与真人主播形成互补，可利用闲时提升转化率。

第二级数字人可媲美真人，能在重要时刻独立承担直播任务。

第三级数字人更像一个真正的数字分身，而非替代关系，能深入理解并展现个体的思想、文化等深层特质，实现深度交流。

“京东云言犀数字人已经达到第二档，通过图灵测试，并可在短时间内代替真人直播。”京东云言犀负责人对界面新闻表示。

该负责人认为，虽然AI刘强东在形象、声音、动作等方面已尽可能接近本人，但要完全替代尚有难度，特别是宿迁话口音也增加了一些挑战。

从第一级到第二级的过渡，与背后的技术路线选择密切相关。

早在2020年，京东云言犀便开始了数字人相关的尝试，彼时业界普遍遵循分步构建的方式：先建模型，调整动作驱动，添加语音，适配实际动作，最后渲染。

尽管这种方法逻辑清晰，但成本高昂，也无法满足实时性要求，实际效果有限，因为每走错一步，下一步都无法修补。于是团队开始思考转向基于大模型的“端到端”直接渲染技术，即一次性输出渲染完成的视频。该技术理论上能实现更高的效果上限。

这种“端到端”的技术路线有两种应用方法，根据究竟场景灵活运用：一是完全跳过中间态建模，无需3D Mesh（即三维网格，计算机图形学中的一个核心概念）；二是仅通过一张照片就能构建出人脸的3D Mesh模型，实现表情、唇形的精细控制和纹理渲染。

目前京东云言犀数字人已经能做到大姿态（包括头部、躯体、手部动作）和实时交互，下一步计划实现更为复杂的实时对话交互。而实时的难度非常大，即使是Sora，生成五分钟的视频，也要在英伟达H100芯片上推理一个小时才可以做到。

谈及与Sora的对比，该负责人指出，两者虽思路相似，但在应用场景上存在显著差异。Sora属于通用的视频应用生成，京东云言犀数字人则偏重人物视频生成，并看好后者在商业价值和社会影响力上的潜力。

二者的差别还在于，Sora目前的视频生成暂不支持有声，而数字人则要求极强的音视频同步，并投入情绪，这是一大挑战。

相关文章

距离成为有情感的数字人主播，AI刘强东还要迈过这些坎
用数字人做直播常常会提及“120秒战斗”的说法，指的是如果120秒内，用户不觉得这是一个让他感到别扭的数字人，就会跨过 “ 恐怖谷”效应（当人类...: 万千气象看上海 | Temu狂飙新传：助力中国制造打造中国品牌 | 万千气象看上海 | 超60家大模型企业入驻，“模速空间”构建起 “评价数量”挂钩门店“绩效考核”？平台与商家共建“合规促【独家】涉赌停运的“伴伴”又上线了新的应用科技早报｜英伟达一夜崩跌10%；马斯克发文反对美国禁止TikTok

近期热点

距离成为有情感的数字人主播，AI刘强东还要迈过这些坎 04-25

万千气象看上海 | Temu狂飙新传：助力中国制造打造中国品牌 | 04-25

万千气象看上海 | 超60家大模型企业入驻，“模速空间”构建起 04-25

“评价数量”挂钩门店“绩效考核”？平台与商家共建“合规促 04-25

【独家】涉赌停运的“伴伴”又上线了新的应用 04-25

热门文章