时间:2024-04-10 00:45:43来源:新媒体
2024年初,国内的大模型公司还未从上一波“GPT4”的焦虑当中缓过来,Sora就已经席卷而至。紧接着,所有互联网大厂几乎都“停下手头工作”,开始在新的领域做出一点成绩,从而尽快在市场上发声。
但在近期阿里蔡崇信的采访中,他说道,“中国AI技术可能要落后美国两年”。在这种不断追赶的焦虑背后,一个引人思索的问题是,国内大模型公司追赶的具体是什么?
站在更为究竟的赛道上来看这一问题,作为离Sora最近的赛道——音视频而言,这种焦虑也在不断放大。
从GPT3.5到GPT4.0,从Runway、Pika到Sora,当大模型的价值链不断升级,那些暂未爬到顶端的企业,还剩下多少‘生存空间’?
实际上,于音视频厂商而言,当“追逐技术”变为“追逐用户”,这种价值就变得更加究竟、更加实际。从近两年音视频厂商的发力趋势可以看出,AI虽然是不可错过的大趋势,但企业要解决的难题是,如何将技术与用户连接在一起。让大模型发挥想象力的同时,更要解决用户的实际问题。
AI时代,不断进击的“音视频”2022年,先是钉钉的一套“组合拳”,紧接着,音视频PaaS/SaaS厂商也纷纷跟进,不仅大手笔投入研发,还在AI方向补充弹药进行长远布局,自此,围绕音视频赛道的“混战”也正式打响。
音视频PaaS公司“拍乐云”遭收购一事在2022年受到广泛关注,收购方正是阿里钉钉。一石激起千层浪,音视频赛道迅速成为焦点。更为炸裂的消息是,有着视频会议开创者Webex架构师、网易云信CTO和拍乐云创始人等多个显赫头衔的“赵加雨”,也携团队空降钉钉音视频事业部的一号位。
而跟随赵加雨的这伙人,个个都是音视频领域的得力干将。其中,李备是拍乐云音频专家,曾有5年WebEx音频专家工作经验;章琦,拍乐云首席科学家,8年WebEx音视频引擎架构师工作经验。
所有信号都指向了阿里布局音视频赛道的决心。实际上,阿里在音视频的布局更早就开始了。2021年11月,钉钉内部成立了独立的音视频事业部,该事业部成立的初衷便是聚焦在“研究音频技术及算法创新,以及探索下一代音视频会议形态”。
钉钉这一枪打响后,长年深耕在音视频赛道的腾讯云,以及其他PaaS和SaaS厂商,也纷纷从研发、解决方案、应用场景和AI方面增添自己的弹药库。
同样身为互联网厂商,音视频于腾讯而言,可以算是一种“与生俱来”的基因。到2022年,腾讯云的步伐早已到了在技术侧实现突破,以及在行业应用上更加细分的程度。
比如腾讯云将一种能够远程实时控制的音视频技术方案,应用在煤矿、港口场景里的无人驾驶卡车运营当中。而在此之前,在传统行业里实现远程的音视频连接和操作,无论是技术还是应用场景方面都远未达到成熟。
对于其他音视频PaaS/SaaS厂商而言,增加研发投入则是一种更为直接的方式。
在2022年,除了阿里钉钉的一套“组合拳”,音视频赛道里的另一个重磅消息是,音视频SaaS第一股“百家云”在纳斯达克敲钟上市。其2022上半年营收就达到了6860万美元,实现同比增长65.5%。在2023年其更是净利润达480万美元,实现扭亏为盈。而其研发费用更从2021财年的580万美元大幅增加到2022财年的1300万美元。
实际上,这种研发费用的骤增不仅仅是底层技术方面的发力,还有定制化和AI方面的投入。从财报中看,在2022财年的全年营收中还增加了一项“定制平台开发服务”,全年该业务的营收达到了1030万美元;而AI解决方案的收入也增加了760万美元。
而与SaaS厂商不同,音视频PaaS厂商的研发投入则更重。以声网为例,根据其2022年的财报显示,当年的全年总营收是1.61亿美元,而单是研发费用就达到了1.1亿美元。
那么,这1.1个亿的费用究竟体现在哪些方面?
2023年,声网推出“凤鸣AI引擎”,将AI降噪、AI回声消除、空间音频等技术进行了集成;在视频方向,推出了超高清能力的超分、画质提升、感知编码、虚拟背景和AR特效等增强观看体验、临场感和互动表达能力的实时AI技术;也开发了语音转文字、内容审核等AI功能来增加信息提取、传递和保存的维度。
这是在AI时代、大模型时代下对智能化的一种响应。但罗马不是一天建成的。于音视频厂商而言,推出AI相关的技术或应用场景需要长期的投入。
无论是声网,还是保利威、百家云等其他音视频PaaS/SaaS厂商,对于AI的积累都要追溯到几年前。只是从外界声音来看,2023年是集中发力的一年。