首页 신문 正文

바이두 심떨림: 10만 카드 계산력 클러스터를 대상으로 계산 플랫폼 능력 문심 대모델 하루 조정량 7억 회 초과

蜜桃成熟时
196 0 0

큰 모델의 매개변수 규모가 점점 커짐에 따라 계산력에 대한 수요는 기하급수적인 증가 추세를 보이고 있다.9월 25일 열린 2024 바이두 클라우드 대회에서 바이두 그룹 집행부총재, 바이두 스마트 클라우드 사업군 총재 선떨은 대형 모델 분야의 유명한 법칙인 Scaling Law (척도 법칙) 가 여전히 지속되고 있으며, 이 법칙은 모델 성능이 매개변수, 계산력, 데이터 세트의 규모가 증가함에 따라 향상될 것이며,"곧 더 많은 10만 카드 계산력 클러스터가 나타날 것"이라고 지적했다.
심떨의 관찰에 따르면 지난 한해동안 이미 고객의 모형훈련수요가 급증하고있음을 느꼈다.그는"2024년 대형 모델의 산업 착지가 가속화되고 있다"며"현재 천범대 모델 플랫폼에서 문심대 모델의 하루 평균 호출량은 7억 회를 넘고, 누적 사용자를 도와 3만 개의 대형 모델을 정교하게 조정하고 70여만 개의 기업급 응용을 시작했다"고 소개했다."
큰 모델 훈련 수요가 증가한다는 것은 필요한 계산력 클러스터 규모가 점점 커지고 있다는 것을 의미하며, 이와 동시에 모델 추리 비용의 지속적인 하락에 대한 기대도 점점 높아지고 있다.심떨림은 다음과 같이 표시했다. 이런 것들은 모두 GPU 관리의 안정성과 유효성에 대해 더욱 높은 요구를 제기했다.9월 25일, 바이두는 AI 이기종 컴퓨팅 플랫폼 바이4.0을 업그레이드하여 10만 카드 클러스터 배치와 관리 능력을 갖추었다.
심떨은 다음과 같이 소개했다. GPU 계산력클러스터에는 세가지 특징이 있다. 즉 극치규모, 극치고밀과 극치상호련결, 만카클러스터를 건설하는데 GPU의 구매원가만 해도 수십억원에 달한다.심떨림은 다음과 같이 강조했다. 계산력자원을 구축하는것은 단순히 GPU를 사서 GPU를 련결하면 되는것이 아니라 많은 기술이 필요하다."례를 들면 GPU칩의 모델이 더욱 다양하고 관리가 더욱 복잡하다.GPU는 많은 병렬 컴퓨팅을 수행해야 합니다.데이터의 전송량이 커지고 속도에 대한 요구가 더 높아졌다"고 소개했다. 따라서 바이컴퓨팅 플랫폼은 이기종 칩, 고속 상호 연결, 고효율 스토리지를 지원해야 한다.
심떨도 10만 카드를 관리하는 클러스터는 만 카드 클러스터를 관리하는 것과도 본질이 다르다고 말했다.우선, 물리적 차원에서 10만 카드 규모의 클러스터를 배치하면 약 10만 평방미터의 공간을 차지해야 하는데, 이는 14개의 표준 축구장 면적에 해당하며, 둘째, 에너지 소모 방면에서 이 서버들은 하루에 약 300만 킬로와트시의 전력을 소모해야 하는데, 이는 베이징시 둥청시의 하루 주민 전력 사용량에 해당한다.10만 카드 클러스터의 공간과 에너지에 대한 거대한 수요는 전통적인 기계실 배치 방식이 감당할 수 있는 범주를 훨씬 능가한다. 만약 지역 간 기계실 배치를 고려한다면 또 네트워크 차원에서 큰 도전을 가져올 것이다.또한 10만 카드 클러스터의 GPU 장애가 매우 빈번할 것이며, 효과적인 훈련 시간도 새로운 도전을 맞이할 것이다.
심떨은 다음과 같이 소개했다. 이런 난제에 대해 백4.0은 이미 10만카드급의 초대규모무체증HPN고성능네트워크, 10ms급 초고정밀도네트워크감시 및 10만카드클러스터를 대상으로 하는 분급고장회복능력을 구축했다."백 4.0은 바로 10만 카드 대규모 클러스터를 배치하기 위해 설계된 것이다.오늘의 백 4.0은 이미 성숙한 10만 카드 클러스터 배치와 관리 능력을 갖추고 있다. 바로 이러한 새로운 도전을 돌파하고 전체 산업에 지속적으로 앞선 계산력 플랫폼을 제공하려는 것이다."라고 심 떨림은 말했다.
바이두뿐만 아니라 점점 더 많은 과학기술 거두들이 AI 대형 모델 수요를 정면으로 향하여 자신의 계산력 인프라 능력을 향상시키고 있다.9월 초, 머스크는 AI 스타트업 xAI가 만든 슈퍼 AI 훈련 클러스터 Colossus가 이미 정식으로 출시되어 총 10만 개의 엔비디아 H100 GPU 가속 카드를 탑재했으며, 향후 몇 달 동안 10만 개의 GPU를 두 배로 늘릴 것이라고 발표했다.9월 19일 2024년 클라우드 서대회, 알리 클라우드도 GPU 위주의 AI 계산력은 미래 컴퓨팅 패러다임의 주도가 될 것이며, 알리 클라우드는 칩, 서버, 네트워크, 스토리지에서 방열, 전력 공급, 데이터 센터 등 방면에서 미래를 향한 AI 인프라를 업그레이드하고 있다고 밝혔다.
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

  •   知名做空机构香橼研究(Citron Research)周四(11月21日)在社交媒体平台X上发布消息称,该公司已决定做空“比特币大户”微策略(Microstrategy)这家公司,并认为该公司已经将自己变身成为一家比特币投资基金 ...
    caffycat
    8 小时前
    支持
    反对
    回复
    收藏
  •   每经AI快讯,11月20日,文远知行宣布旗下自动驾驶环卫车S6与无人扫路机S1分别在新加坡滨海湾海岸大道与滨海艺术中心正式投入运营。据介绍,这是新加坡首个商业化运营的自动驾驶环卫项目。 ...
    star8699
    前天 19:48
    支持
    反对
    回复
    收藏
  •   上证报中国证券网讯(记者王子霖)11月20日,斗鱼发布2024年第三季度未经审计的财务报告。本季度斗鱼依托丰富的游戏内容生态,充分发挥主播资源和新业务潜力,持续为用户提供高质量的直播内容及游戏服务,进一步 ...
    goodfriendboy
    前天 20:09
    支持
    反对
    回复
    收藏
  •   人民网北京11月22日电 (记者栗翘楚、任妍)2024广州车展,在新能源汽车占据“半壁江山”的同时,正加速向智能网联新能源汽车全面过渡,随着“端到端”成为新宠,智能驾驶解决方案成为本届广州车展各大车企竞 ...
    3233340
    3 小时前
    支持
    反对
    回复
    收藏
蜜桃成熟时 注册会员
  • 粉丝

    0

  • 关注

    0

  • 主题

    37