时间:2023-03-20 00:47:02来源:界面新闻
进入 2023 年,ChatGPT的火爆仿佛是一次预热,这个智能聊天工具的技术很简单,它真正让所有人都感到吃惊的是背后大模型的创建和学习能力。它将人们对AI的期待提升到了一个高度,大模型成为全球科技竞赛兵家必争之地。百度还义无反顾站了出来,作为中国公司第一个站在全球AI科技赛场上。
3月16日,百度在北京总部召开新闻发布会,百度创始人、董事长兼首席执行官李彦宏宣布百度大语言模型“文心一言”开始邀请测试。
中国有了自己的大AI模型,这也是“大厂”向Open AI这样的创业公司的宣战。但为什么是百度?文心一言的诞生对百度乃至中国互联网意味着什么?
文心一言有什么不一样?有ChatGPT的火爆在前,大家对文心一言的期待也很高。而文心一言做到似乎也不负众望,在第一次正式亮相的时候就向大家展示了其不仅具备其它AI大模型所具备的典型能力,也同样做到“人有我有,人有我优,以及人有我待优”。
从新闻发布会现场演示来看,文心一言在文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等方面有突出能力。
在文学创作能力上,文心一言可以做到总结、分析、内容、检索,延伸至检索增强。而这得益于百度多年以来成熟的搜索业务提供的丰富数据库。基于搜索业务积累,百度有世界上最大的知识图谱,融易新媒体,一直致力于给用户提供唯一答案。这一切让文心一言回答准确性及生成结果的可信度得到提升。
在这个能力的基础上,文心一言在起名字、写新闻稿、写标语等能力上的延伸智能涌现。文心一言大模型的训练数据包括万亿级网页数据,数十亿搜索数据和图片数据,百亿级语音日均调用数据,及5500亿事实的知识图谱。因此百度在中文语言的处理上,处于独一无二的位置。
有研究表明,数据规模大,参数达到千亿级,大模型就可能发生“智能涌现”,涌现出知识和逻辑推理能力。不仅仅是数据规模,百度的数据形态也最贴合回答和生成需求。在百度搜索中,问答和生成类的搜索请求占比很高。因此文心一言大模型,在自然语言问答和创意内容生成上有突出表现。
当然,作为一个大语言模型的生成式AI产品,文心一言也具备的复杂推理,把问题拆分为子问题解决的能力。
如果说以上都是一个AI模型的必备能力,那文心一言作为诞生出中国的AI模型,还具备了其独特之处。
文心一言的中文语言处理上独一无二,扎根中国市场,理解中国文化,最先进的自然语言处理能力。同时,文心一言具备图片、音频及视频等多模态生成能力。多模态是生成式AI一个明确的发展趋势。未来随着百度多模态统一大模型的能力增强,文心一言的多模态生成能力,也会不断提升。
为什么是百度?文心一言是全球所有大厂中第一个做出来的基于大语言模型的生成式AI产品。谷歌、Meta及中国众多互联网大公司都觊觎AI领域已久,为何只有百度能够最终实现它的诺言?
发布会上,这个问题得到了解答。
文心一言的诞生源自百度从市场与合作伙伴身上发掘的需求。百度的很多产品,从搜索到智能云,再到自动驾驶,市场和合作伙伴都有明确需要。
此前百度财报中数据显示,百度AI产业化成果初显,百度智能云已连续四年居AI公有云市场第一。也有数据显示目前已有超400家企业宣布加入文心一言生态圈,同时百度多项主流业务将接入文心一言,包括百度搜索,以及基于百度智能云的智能语音助手小度、智能驾驶阿波罗(Apollo)等。
作为中国技术创新的领导者之一,百度在自然语言处理领域的能力领先中国互联网。让机器做到像人一样理解和运用自然语言,是人工智能的核心问题之一,这个背后也需要大量的资源与技术投入。
文心一言的诞生并不是朝夕之间,它是百度多年大量投入、累积研究的结果。
2014年百度开始涉足智能驾驶领域,2015年上线世界首个大规模神经网络机器翻译系统,比Google早了一年多。2016年百度正式发布“百度大脑”并开源中国第一个深度学习框架飞桨。飞桨的出现打破了Google和Meta的垄断,现已跻身全球前二。
目前已经有数百万开发人员将飞桨用于AI开发。AI预训练成本高昂,框架层和模型层之间的协同作用,以及全栈AI能力能够构建最高效的大模型,并支持从搜索到内容生成的各类应用,或任何可以显著提高生产力的垂直领域。