时间:2024-05-24 18:44:43来源:互联网
北京时间5月14日凌晨,OpenAI在春季发布会上重磅推出首个原生多模态模型GPT-4o,模型可以实时对音频、视觉以及文本进行推理,同时在响应速度和生成质量方面取得显著进步,模型易用性的大幅提升也标志着AI大模型应用向更自然的人机交互持续迈进。
业内人士表示,国内外大模型有望在未来一段时间实现模型性能以及用户交互体验方面的双重迭代,随着模型输出质量、响应时间等维度的不断优化,AI应用有望真正实现用户体验和效率提升的赋能,AI有望在各细分行业中持续加速商业化落地。
事件驱动 OpenAI发布GPT-4o模型
近日,人工智能大模型和应用又迎新进展,OpenAI于春季发布会上公布了多项与ChatGPT相关的更新,包括发布GPT-4o多模态大模型。
GPT-4o模型可在音频、视觉和文本中进行实时推理,可输入或输出文本、音频和图像的任何组合。模型可以最短在232ms内响应音频输入(平均为320ms),响应速度与人类对话接近,相比GPT-3.5(平均延迟2.8s)和GPT-4(平均延迟5.4s)实现大幅迭代。在模型基准能力方面,GPT-4o在文本、推理以及代码理解方面达到GPT-4Turbo级别的能力,而在多语种、音频以及视频理解能力方面相比于业界其他模型表现优异。
在OpenAI春季发布会的现场演示环节,工作人员操作ChatGPT并用语音模式VoiceMode演示,GPT-4o可以察觉到说话者的情绪并给出实时反馈,同时,模型能够识别实时视频内容指导用户解方程,以及完成口译、代码分析、图表理解等任务。
相比于GPT-4Turbo,此次发布的GPT-4o实现了2倍以上的推理速度,融易新媒体消息,同时,API价格降低50%,并且消息限制提升5倍。GPT-4o对于多种语言采用更高效的token表达(以中文为例,表达同一语句需要的token数减少到原来的约70%),结合模型在多模态实时交互方面的颠覆式提升,模型易用性的大幅提升有望推动AI在各类应用场景中的加速渗透。
行业现状 国内外AI多模态模型及工具持续突破
年初以来,海内外大模型特别是多模态大模型持续迭代,应用底层支持能力不断提升。海外方面,OpenAI在2023年发布GPT4.0Turbo之后,年初发布文生视频大模型SoraGoogle上线Gemini1.5,长文本、情景学习等能力大幅提升;Meta开源Lla-ma3,多模态版本随后将上线;SunoAI引发产业界对音乐GPT时刻到来的畅想。
国内方面,Kimi为代表的国产大模型长文本能力提升显著,阶跃星辰、商汤科技、昆仑万维等国内厂商纷纷发布全新能力的多模态大模型;此外,国内大模型能力快速提升,在以Kimi、阶跃星辰、秘塔等为代表的新势力鲇鱼效应带动之下,国产大模型从能力到应用进展均有望超预期推进。
另外,垂直领域落地丰富应用。比如,商汤科技通过集成大模型,赋能产业升级,并在金融、编码、医疗保健和政府服务等关键领域实现丰富应用。其大模型以低CPU利用率和高效率降低推理成本,与金山办公合作提供智能办公平台,与海通证券合作推动金融行业数智化转型。同时,应用于小米汽车SU7的智能车舱,提升智能化交互体验。商汤科技还发布了基于昇腾原生的行业大模型,打造大模型产业生态。这些举措展示了商汤科技在垂直领域的深厚实力和应用前景,为企业和行业提供智能化解决方案,推动产业升级和发展。
投资思路 AI持续赋能游戏、教育、影视等行业
广发证券认为,GPT-4o突破了此前大模型在人机交互中的诸多瓶颈,大幅提升了大模型的易用性,为AI应用带来了更多可能性,成本进一步降低,或将加速AI应用的繁荣。GPT-4o的能力提升对效率向和娱乐向产品都有望带来产品功能和形态的突破。效率向方面,关注AI办公产品的能力升级、端侧AI智能助手的突破;娱乐向方面,关注AI情感陪伴、AI社交等,产品的“人格化”和情感属性增强后,用户体验的大幅提升。持续关注AI对游戏、营销、教育、影视等行业的赋能。
对于究竟投资标的,广发证券表示,游戏行业有望进一步将游戏内容精品化,提升优质游戏产能,关注三七互娱、恺英网络、完美世界、神州泰岳、巨人网络、盛天网络、姚记科技、吉比特、电魂网络、游族网络等。营销行业提升广告内容的生成效率和效果,关注有AI工具产品布局的蓝色光标、易点天下、分众传媒等。GPT-4o在知识理解与问答上展现出优异能力,可以通过视觉能力识别并理解代码、数学题等,在教育领域有诸多应用可能,关注佳发教育、视源股份、世纪天鸿、南方传媒等。此外,AI有望助力影视行业工业化、精品化,关注华策影视、博纳影业、光线传媒等。