时间:2023-07-10 05:35:02来源:界面新闻
界面新闻记者 | 陆柯言
7月7日,在华为开发者大会(Cloud)期间,华为正式发布盘古大模型3.0。华为云CEO张平安表示,不同于时下流行的ChatGPT,盘古大模型3.0是一个完全面向行业的大模型系列,包括“5+N+X”三层架构:
L0层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型,提供满足行业场景中的多种技能需求;
L1层是N个行业大模型,华为云可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等大模型;也可以基于行业客户的自有数据,在盘古大模型的L0和L1层上,为客户训练自己的专有大模型;
L2层则提供了更多细化场景的模型,专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,提供“开箱即用”的模型服务。
张平安介绍,盘古3.0为客户提供100亿参数、380亿参数、710参数和1000亿参数的系列化基础大模型,同时提供全新能力集,包括NLP大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,客户和合作伙伴能够直接调用。
根据华为现场展示的气象行业案例,过去预测台风未来10天的路径,要花费5小时、在3000台服务器的高性能计算机集群进行仿真。而在预训练盘古气象大模型的支持下,只需单台服务器上单卡配置,10秒内就可以获得更精确的预测结果。
张平安在接受媒体采访时表示,融易新媒体,不想拿盘古大模型和ChatGPT相比。“Chat意为聊天,但我们没有时间聊天。参数再多、对话能力做得再好,但如果解决不了实际问题,也没有多大用处。AI最不应该替代的就是作诗作画,这是人类应该呈现的东西,为什么要把它交给机器?”
华为之所以切入行业大模型,一方面是基于过去在To B领域的经验,另一方面也将得益于华为在算力基础设施上的布局。算力是大模型必不可少的“发动机”,盘古大模型的算力则来自华为昇腾AI集群。
华为公布的数据显示,目前基于昇腾AI澎湃算力,原生研发、适配的大模型超过30个,占据中国大模型近一半数量。
受制裁影响,华为并不能使用行业主流的GPU架构,而是基于其自研的达芬奇架构推出了AI训练芯片昇腾系列。2019年,华为宣布昇腾910芯片正式商用。华为在当时形容,昇腾910是业界“算力最强”的AI处理器。
在近日举办的世界人工智能大会上,华为宣布昇腾AI集群全面升级。集群规模从最初的4000卡集群扩展至16000卡。华为称,这是业界首个万卡AI集群,拥有更快的训练速度和30天以上的稳定训练周期。
发布会上,华为昇腾AI云服务也正式推出。据介绍,昇腾AI云服务提供2000P FLOPS的算力,支持主流AI框架和90%以上的算子,训练效率高于业界主流GPU的1.1倍。
华为昇腾计算业务总裁张迪煊在接受界面新闻等媒体采访时表示,现在国内算力需求旺盛,许多大厂能拿到算力,但许多小企业拿不到。张平安也提到,目前英伟达芯片货期长、价格高昂,华为希望为行业提供另一种选择。
华为在算力基础设施上投入颇高。目前,华为已在上海、武汉、西安等25个城市,基于昇腾AI建设了人工智能计算中心,提供算力基础设施服务。
张平安表示,华为在算力方面的投入非常大。“如果用(算力)的人少,我们就会亏。但不能因为现在亏损,我们就不投入。相信我们把AI的生成算力做好了之后,中国很多AI算力都会用我们,现在谈收益还为时太早。”