时间:2024-04-27 09:06:04来源:互联网
吴炳坤也告诉数智前线,大模型迭代太快了,但企业内部又基本没有专门的AI人才。这就要求服务商要形成一种新的思维——大模型时代的项目不再是交钥匙工程,而是需要提供教练式的陪跑服务,“陪着客户不断优化它自有的模型”。
04 大模型落地成本在下降企业一旦在某个场景验证模型的价值后,第二步关心的就是如何降低成本。
“现在最常见的成本区间,主要有两级。”宽客进化CTO王舸告诉数智前线,一些简单应用,比如个性化写作、在传统BPM流程中串接大模型能力等,一般可以直接调用API,成本较低,二三十万元即可实现落地。另一极则是一些需要与专家经验深度绑定的项目,会有私有化部署要求,成本普遍在百万元起,甚至四五百万。
“二三十万元的市场,今年会非常卷,而跟业务深度绑定的市场,是大家想做,但目前做起来还比较困难的市场。”王舸说,尤其是需要私有化的项目,算力会是一个比较大的困难。
实际上,为了解决算力难和成本过高的问题,业界目前已经探索了一些方法。比如,企业除了使用纯私有化的模式,也可以选择“公有云的私有化”模式,即在公有云上开一个私有化的环境,达到节省成本的目的。
“目前,像银行等有着严格数据不出域要求的金融企业,基本都还是采用前一种私有化,而在零售、酒店和文旅等数据管控没那么严格的行业,则有不少企业倾向于选用后一种模式。”新致软件曹玺告诉数智前线。
算力不足的情况下,通过CPU进行推理,也遭不少人视为一个可选方案。“7B以下的模型,一般的推理场景,CPU目前是能够满足的。模型再大一点,30B~70B,速度会明显变慢,但一些不需要实时交互的场景,CPU也是一个比较好的解决方案。”王舸说。
更重要的是,模型轻量化的趋势,以及MoE概念的火热,也降低了企业客户对算力资源的诉求。
可以看到,通用大模型参数虽然已从上千亿走到万亿级,但究竟到行业落地上,却不是参数规模越大越好。在海外,Meta发布的Llama系列模型,从70亿、130亿、330亿到700亿不等。在国内,百度、阿里、百川等都发布轻量级大模型。
“很多场景其实并不需要全知全能的能力,而是需要一个行业专家来解决一些专业的问题。”吴炳坤说。根据他的经验,在很多垂类场景中,通过剪枝蒸馏等手段,压缩出一个百亿级的基础模型,最大程度保留行业通识和能力,再结合企业的私有数据,也能实现千亿级的效果,推理成本更低,使用也更简单,是目前企业欢迎的做法。
“在行业中,我们认为7B-70B性价比最佳。”浪潮云CEO颜亮透露。
吴炳坤告诉数智前线,通过模型轻量化,他们已将包含算力、模型、应用等在内的落地成本做到几十万到小一两百万元的成本。这也是不少中腰部企业普遍能接受的价格区间。智振则透露,现在做大模型私有化部署,成本已降到百万元起,一些小的嵌入式产品,比如1.6B参数、能放到一台单机上的模型,甚至可以做到5万元起。
一些企业探索MoE(混合专家系统),以实现用更合适的性价比。MoE的全称是Mixture of Experts,遭认为十分符合人类社会的分工概念,它通过“专家+路由”的机制,将不同问题交给对应领域的专家来解决,理论上能在算力成本不增加的前提下,显著提升Transformer模型的性能。
去年年中,GPT-4曾一度遭传由8或16个MoE构成,这一概念随之在业内引起关注。几天前,腾讯混元宣布完成架构升级到MoE。
智振告诉数智前线,大模型会和第二次工业革命中兴起的电器一样,“最终并非一个电器通用,而是会涌现出各种各样的电器,从灯泡到电饭煲,它只会取决于不同场景下怎么样的性价比最高,怎么样的功能最强,客户接受度最高。”
李彦宏则在此前的一场演讲中指出,未来大型的AI原生应用基本都是 MoE 架构。
值得关注的是,多位业内人士告诉数智前线,MoE目前仍处于发展早期,还存在不少挑战。一些人士认为,它的技术复杂性太高,投入产出比不太匹配。也有人士表示,MoE需要资源较多,在响应速度和算力占用方面还有较大提升空间。
过去半年,大模型的技术进步速度极快,也推动行业落地的大潮在快速演进。