百度沈抖:面向10万卡算力集群升级计算平台能力 文心大模型日调用量超7亿次
瞬间遗失梢
发表于 2024-9-26 13:34:19
1122
0
0
据沈抖观察,过去一年,已经感受到客户的模型训练需求猛增。他介绍,“2024年大模型的产业落地正在加速,目前在千帆大模型平台上,文心大模型日均调用量超过7亿次,累计帮助用户精调了3万个大模型,开发出70多万个企业级应用。”
大模型训练需求增加,意味着所需要的算力集群规模越来越大,与此同时,对模型推理成本的持续下降的预期也越来越高。沈抖表示,这些都对GPU管理的稳定性和有效性提出了更高要求。9月25日,百度升级AI异构计算平台百舸4.0,具备了10万卡集群部署和管理能力。
沈抖介绍,GPU算力集群有三个特征——极致规模、极致高密和极致互联,建一个万卡集群,仅仅是GPU的采购成本就高达几十亿元。沈抖强调,构建算力资源,并不是简单地买来GPU,把GPU连接上就好了,而是需要很多技术,“比如,GPU芯片的型号更多样,管理更复杂;GPU需要执行大量并行计算;数据的传输量变大、对速度的要求更高”,他介绍,因此,百舸计算平台需要支持异构芯片、高速互联、高效存储。
沈抖也表示,管理10万卡的集群与管理万卡集群也有着本质不同。首先,在物理层面,部署10万卡规模的集群,要占据大概10万平方米的空间,相当于14个标准足球场的面积,其次,在能耗方面,这些服务器一天就要消耗大约300万千瓦时的电力,相当于北京市东城区一天的居民用电量。10万卡集群对于空间和能源的巨大需求,远远超过了传统机房部署方式所能承载的范畴,若考虑跨地域部署机房,就又在网络层面带来巨大挑战。此外,十万卡集群中的GPU故障将会非常频繁,有效训练时长占也将迎来新的挑战。
沈抖介绍,针对这些难题,百舸4.0已经构建了十万卡级别的超大规模无拥塞HPN高性能网络、10ms级别超高精度网络监控,以及面向十万卡集群的分钟级故障恢复能力。“百舸4.0正是为部署十万卡大规模集群而设计的。今天的百舸4.0,已经具备了成熟的十万卡集群部署和管理能力,就是要突破这些新挑战,为整个产业提供持续领先的算力平台。”沈抖说。
不仅是百度,越来越多的科技巨头正面向AI大模型需求,提升自身的算力基础设施能力。9月初,马斯克宣布,旗下AI初创公司xAI 打造的超级AI训练集群Colossus已经正式上线,共搭载10万块英伟达H100 GPU加速卡,而在未来几个月将再翻倍增加10万块GPU。9月19日2024年云栖大会上,阿里云也表示,以GPU为主的AI算力将是未来计算范式的主导,阿里云正在从芯片、服务器、网络、存储到散热、供电、数据中心等方面,升级面向未来的AI基础设施。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
-
知名做空机构香橼研究(Citron Research)周四(11月21日)在社交媒体平台X上发布消息称,该公司已决定做空“比特币大户”微策略(Microstrategy)这家公司,并认为该公司已经将自己变身成为一家比特币投资基金 ...
- caffycat
- 11 小时前
- 支持
- 反对
- 回复
- 收藏
-
每经AI快讯,11月20日,文远知行宣布旗下自动驾驶环卫车S6与无人扫路机S1分别在新加坡滨海湾海岸大道与滨海艺术中心正式投入运营。据介绍,这是新加坡首个商业化运营的自动驾驶环卫项目。 ...
- star8699
- 前天 19:48
- 支持
- 反对
- 回复
- 收藏
-
上证报中国证券网讯(记者王子霖)11月20日,斗鱼发布2024年第三季度未经审计的财务报告。本季度斗鱼依托丰富的游戏内容生态,充分发挥主播资源和新业务潜力,持续为用户提供高质量的直播内容及游戏服务,进一步 ...
- goodfriendboy
- 前天 20:09
- 支持
- 反对
- 回复
- 收藏
-
人民网北京11月22日电 (记者栗翘楚、任妍)2024广州车展,在新能源汽车占据“半壁江山”的同时,正加速向智能网联新能源汽车全面过渡,随着“端到端”成为新宠,智能驾驶解决方案成为本届广州车展各大车企竞 ...
- 3233340
- 5 小时前
- 支持
- 反对
- 回复
- 收藏