时间:2023-03-15 21:14:01来源:新媒体
海内外互联网大厂与创业者,正陷入一场有关ChatGPT的竞赛中。
3月15日凌晨,OpenAI推出GPT-4多模态预训练大模型,除语言文本外,还支持图像识别输入,以文本形式输出。
在发布会上,官方人员演示GPT-4可以识别手绘网页草图,并仅用十秒钟左右,就根据草图写出网站代码。
在OpenAI发布会前几个小时,谷歌刚刚宣布推出一系列生成式AI功能,用于其各种办公软件中,包括谷歌Gmail、Docs(文档)、Sheets(表格)和 Slides(幻灯片)。
在外界看来,这是谷歌意图抢在微软3月16日预期官宣GPT接入Office之前,展现自己的成果。
作为直接竞争对手,谷歌已走在“对抗”微软与OpenAI的最前列。但随着OpenAI空降官宣GPT-4,谷歌又陷入下一场追逐战中。
ChatGPT是AIGC领域的颠覆性产品,在上线后吸引了全球关注。将ChatGPT嵌入微软Bing搜索引擎后,Bing日活首次突破1亿,直接影响到谷歌的用户基础。
面对微软的步步紧逼,苹果、Meta和亚马逊等公司也正计划重新评估其人工智能的开发策略。
3月16日,百度将率先发布“中国版ChatGPT”文心一言。国内创业公司和互联网大厂,都迅速跟进,不愿成为新技术掉队者。在王兴、王慧文再度携手、开启AI领域创业的同时,快手前AI核心人物李岩也投身“多模态大模型”创业。
随着OpenAI发布GPT-4,多模态大模型已成为最新的技术变革方向,人工智能正迈入“iPhone 时刻”。正如iPhone带来的智能手机变革,GPT模型的出现又将影响未来AI领域的发展方向。
如今,微软与谷歌竞争的不只是当前的市场,还有未来AI时代的定义标准与话语权。
GPT-4:多模态变革面对ChatGPT的步步紧逼,海外大厂都在追赶和阻击微软,以动摇其目前在人工智能领域的领先地位。
在“对抗”微软与Open AI方面,谷歌已经走在前列。知情人士透露,谷歌高级管理层已经宣布“红色指令”,其中要求在几个月时间里将“生成式人工智能”技术集成到谷歌的所有重要产品中。
去年12月,谷歌母公司Alphabet就曾发布“红色警告”,已处于半退休状态的创始人拉里·佩奇和谢尔盖·布林重新回到公司,商讨制定了人工智能后续战略,并决定将聊天机器人纳入搜索引擎,以应对ChatGPT的威胁。
但从微软和OpenAI近期举动来看,单纯的文本交互已无法满足其在生成式AI方向的野望,包含文本、图像、视频处理等在内的多模态大模型已成为其最新的技术变革发力点。
在GPT4.0发布前,今年3月初,微软发布了多模态AI大模型Kosmos-1。微软AI技术专家Holger Kenn表示,多模态AI不仅能够将文本转变成图像,还可以转变成音乐和视频,尤其在编程领域,AI模型能够更轻松的生成样板代码。
在微软发布Kosmos-1后,3月7日,谷歌和柏林工业大学的团队推出了PaLM-E视觉语言模型,参数量高达5620亿,约为GPT-3参数量的三倍。
据悉,PaLM-E大模型是在语言类模型PaLM(5400亿参数)和视觉类模型ViT(220亿参数)的基础上开发的。其不仅可以理解图像,还能理解、生成语言,以及将两者结合,处理复杂的机器人指令。
谷歌与微软的较量不仅体现在生成式AI的场景应用层面,也聚焦于大模型底层实力。但随着GPT4.0的发布,多模态大模型的能力得到进一步展现,谷歌的声量又再度落于下风。
今天凌晨,OpenAI发布最新GPT4.0多模态大模型,引爆全网讨论。与前一代相比,最新的GPT4.0可以识别图片输入;文字输入上限提升至2.5万字;回答深度和专业性、推理和风格变化能力也显著提高。
OpenAI称,GPT-4在各种专业学术基准上有着人类水平表现。在最新测试中,GPT-4通过了模拟律师考试,融易新媒体,得分约为前10%,而GPT-3.5得分约为倒数10%。GRE、SAT数学考试成绩也有大幅提升,击败了80%以上的人类答题水平。
GPT-4也拥有更高级的推理能力。用户在GPT上传了一张梗图,问这张图为什么会引人发笑:
GPT4.0一一给出回答:
在官方的示例中,GPT-4.0可以10秒钟编写网站代码,可以编写剧本、计算物理题、速读专业论文、分析数据图表,甚至可以解读搞笑图片与漫画。
在业内人士看来,生成式AI的产生本质上是一种生产力革命,其不仅是工具,而是直接成为生产要素的重要部分。以文本、音频、图像和视频为处理对象的多模态大模型和生成式AI,势必会对未来的内容创作、数据处理等相关行业带来巨大冲击。
AI对传统工作方式的革命和颠覆或许即将到来,未来最核心的竞争力和技能可能不再是编程,计算,甚至分析能力,而是和大模型的对话能力。