“更大的焦虑，更大的想象力”：音视频厂商如何闯入AI时代？(2)

时间：2024-04-10 00:45:43来源：新媒体

以声网为例，在凤鸣AI引擎中集成的大部分技术都源于多年的积累。产业家向声网CTO钟声了解到，“空间音频”是凤鸣AI引擎中集成的技术。利用AI算法来模拟头部球面区域的立体声场，在更细微处，甚至能捕捉到人的喜怒哀乐，将这种三维信息提取出来再放到AR增强的场景。从技术处理的细节便可以感知到，它是一种“厚积薄发”的产物。

实际上2023年，大模型在国内“狂飙”的同时，音视频厂商更是不可能错过这波风口。技术的长期投入，这一年给音视频厂商的机会是在服务场景上更深化、更细致。

最为常见的便是AIGC解决方案的发布，这也是在市场层面能够迅速引发关注的方式。比如声网在去年发布RTE X AIGC 一站式产品能力解决方案；百家云发布全新AIGC产品“市场易”；腾讯云在音视频产品矩阵上的智能化升级；保利威发布AI智能教育解决方案；即构推出AI视频生成应用“即构数智人”等等。

而在无数的声音背后，大模型给音视频带来的实际价值是什么？

技术、落地场景和“大小模型”方案

“到了今天这个时代，客户不会关注噱头，而是更切实地关注提高了多少效率，降低了多少成本。”这是保利威全国售前总经理王建成近两年的感受。

技术不断进步的同时，服务场景也正在进一步深化。

抛开底层技术，在大模型时代，如果说真正能在效率上提升，以及成本上有所降低，用户一定会在操作体验层面有更强的感知。

那么，更为细致的应用场景，便是结合AI大模型，来解决曾经几乎“不可能”的事情。

以金融领域为例，其监管十分严格。一种常见的情况是，在直播过程中需要人为干预，进行监听。所以这种情况下，实时生成字幕对于大部分的金融客户就很难满足。

王建成告诉产业家，保利威的做法是结合金融客户的特殊需求和行业特点，做出一种专为金融行业打造的特殊模型。

这是一种将直播技术与业务结合的最佳例证。而在AI大模型时代，在技术高度不断刷新的当下，真正去解决用户的实际问题，对于音视频SaaS厂商，或许是一个更为务实的谜底。

为什么说焦虑与现实有时并不成正比？

一方面，技术高度的不断刷新确实会带给人更大的焦虑，但另一方面，从现实的角度来讲，技术高度的不断刷新却并未真正下沉到产业，发挥真正的价值。

根据艾瑞咨询报告显示，在目前实时音视频领域，领跑场景依旧停留在C端，在实际生产过程中，产业数字化的价值微乎其微。

那么，从技术的角度出发，音视频技术现在具体发展到什么程度了？

可以看到的是，腾讯云已经能够实现在煤矿、港口场景里，实时控制无人驾驶卡车运营。这是近两年较为新鲜的尝试。在这些场景同样有所布局的还有声网。除了更深入产业侧的工业领域，声网也在IoT行业、医疗健康行业持续发力。

而在大模型未到来之前，远程的音视频连接和操作，无论是技术还是应用场景方面都远未达到成熟。

站在技术的角度，更究竟来讲，大模型给音视频领域带来的是更大的想象力。

2023年，阿里云智能高级算法专家刘国栋在深圳的一席演讲中提到了一种大模型与小模型结合的技术。

在大模型还未出现的时候，只有小模型。其实，大模型与小模型都有各自的局限。小模型的局限在于其泛化能力比较差。而泛化能力差，通俗来讲，就是小模型的理解和生成能力不好。但其优点在于，小模型、传统算法在算法开发、工程优化方面已相对比较成熟，小模型的训练资源占用少且训练速度快，部署容易，端侧落地性强。

而大模型出现后，这些问题都一一遭解决了。而大模型的局限性在于，细粒度的问题还不能完美处理、容易出现幻觉现象、推理训练成本都比较高等。

因此，大小模型协同便是最好的解决方案。通过让大模型和小模型并联和相互引导的方式，来优化各自的问题。

而对于大模型与小模型的“协同”方面，声网也有自己的理解。对此，钟声向产业家解释道，“大模型的参数很大，需要巨量的数据包括高质量的数据来训练。一个符合常理的逻辑是，最领先的大模型，其推理能力较强，可以通过蒸馏等方法来训练小模型。大模型产生的结果，具备一定的质量，可以用来训练小模型。未来，大小模型应该以‘联合行动’的方式来共同完成任务，在算力、延时、隐私保护等方面实现一种更好的融合。”

共3页:

【2】

【3】