融易新媒体
快捷导航 融易新媒体
主页 > 科技 > 自媒体 >

别跟马斯克扯头花了,“叛徒”Anthropic解决了困扰OpenAI的难题

时间:2024-03-07 21:28:19来源:互联网

2024年LLM竞赛正式拉开,遭称为OpenAI“最强竞争对手”的大模型公司Anthropic带着Claude 3系列闪亮登场。而它的对手们,一个正和马斯克“扯头花”;另一个因为Gemini政治过分正确而焦头烂额。

一时间,“完整碾压GPT-4”“全球最强模型易主”等字眼铺满屏幕,似乎一年前由OpenAI开辟的盛世终于转交给了Anthropic。

别忘了,GPT-4已经是一年前的产物,GPT-5还在路上;谷歌也不是Anthropic的“对手”,是其背后第二大“金主爸爸”。有消息称,去年12月,谷歌对Anthropic的投资扩大到了20亿美元。

而在这场“你追我赶”的游戏中,还有微软“小儿子”Mistral AI已经发布的Mistral Large,以及遭Meta列为2024年重点任务的Llama 3等等。只不过,无论是Mistral AI还是Meta目前都是遭GPT-4压着打,只有“脱胎”于OpenAI的Anthropic拿出了可以与之一战的“杀器”。

这也表明了,暂时的排名只是先来后到,今年的LLMs将完整开花,。因此,铺天盖地的“Open AI遭追平比分”仅仅是Anthropic新品发布的一个噱头,重点应该放在人工智能公司选择的商业化路径上——当Inflection、Character.AI,甚至OpenAI等公司进一步探向to C消费者用例时,Anthropic却一头扎向了to B。这条思路在其刚刚发布的Claude 3系列的突出性能、定价策略上均有所体现。

一、“田忌赛马”式定价,瞄准to B领域

Claude 3系列包含三个模型——Opus、Sonnet、Haiku,性能从高到低。

别跟马斯克扯头花了,“叛徒”Anthropic解决了困扰OpenAI的难题

根据Anthropic公布的技术报告,Opus在知识测试MMLU、推理测试 GPQA、基础数学测试 GSM8K 等一系列基准测试中,均优于GPT-4。Sonnet的性能与GPT-4不相上下;Haiku则略逊于GPT-4。不过,这项测试中没有包含刚刚更新的GPT-4 Turbo和Gemini 1.5 Pro。

别跟马斯克扯头花了,“叛徒”Anthropic解决了困扰OpenAI的难题

值得注意的是,MMLU(本科常识)/ GSM8K (小学数学)/ HumanEval (计算机代码)等指标上已严重饱和,几乎所有的模型都表现相同。真正有区分度的为MATH(数学问题解答能力)和GPQA(领域专家能力),后者可以体现模型在企业服务方面的能力。

据悉,Claude3 选择了金融、法律、医学和哲学作为专家领域。其中,Opus的GPQA准确率达到了60%,这意味着其能力接近于同一领域且能够上网的人类博士准确率(65%—75%)。Sonnet达40.4%;Haiku达33.3%。而GPT-4仅为35.7%。

对此,英伟达资深AI科学家JimFan指出:我建议所有LLM的模型卡都应该效仿这种做法,这样不同的下游应用就能知道可以期待什么。

同时,考虑到企业客户需要处理很多PDF、PPT、流程图,Claude3 系列在视觉能力、准确性、长文本输入和安全方面,均有所进步。

例如,在准确性方面,Anthropic 使用了大量复杂的事实问题来针对当前模型中已知的弱点,将谜底分为正确谜底、错误谜底(幻觉)、承认“不知道”。相应地,Claude3 可以表示自己不知道谜底,而不是提供不正确的信息。除了更准确的回复,Claude 3甚至还能“引用”,指向参考材料中的精确句子来验证他们的谜底。

在定价策略上,以GPT-4 Turbo的40美元/1M tokens;GPT-3.5 Turbo的2美元/1M tokens为对比。

最强能力Opus——90美元/1M tokens,适合最尖端的企业和机构。其接近人类的理解能力,适用于需要高度智能和复杂任务处理的场景,如企业自动化、市场分析和制定策略、复杂的数据分析和金融预测、生物医学研究和开发等。

最高性价比Sonnet——18美元/1M tokens,适合大多数企业客户规模化使用,消费者客户也可以负担。其纯文本任务表现与Opus相当,更适用于数据处理、代码生成、个性化营销,图文解析等中等复杂度的工作。

最快速度Haiku——1.5美元/1M tokens,适合消费者客户使用。其具备近乎即时的响应能力,在大多数纯文本任务上表现仍然相当出色,且包含多模态能力(比如视觉),适用于与用户实时互动、内容管理、物流库存管理、文本翻译等工作任务。

综合来看,Claude 3的高端线Opus比OpenAI(GPT-4 Turbo)更贵,低端线Haiku比OpenAI(GPT-3.5 Turbo)更便宜。

如此一来,成败似乎集中在了中端线Sonnet上。如果“更少的幻觉”“更专业的领域行家”“更高的性价比” 更吸引企业客户。那么,GPT-4 Turbo的地位将会变得不尴不尬,直到局势遭GPT-5打破。

目前,用户可以免费体验中等性能的Sonnet,最强版Opus仅供Claude Pro付费用户使用(20美金/月),性能稍弱的Haiku即将推出。


近期热点

微盟终止潜在业务重组后又瞄上了短剧赛道,是否能挖到新业务 03-07

《猎冰》无法“狂飙”,姚安娜并不是问题的关键 03-07

低价商家,玩不转TikTok 03-07

别跟马斯克扯头花了,“叛徒”Anthropic解决了困扰OpenAI的难题 03-07

腾讯音乐失去版权顶梁柱 03-07

热门文章
热点 热点追踪 网站首页 热点 观点