주가가 폭등하고 시가가 애플에 육박하면 누가 엔비디아에 도전할 수 있겠는가?

현지시간으로 목요일 미국주가 파장되였다. 엔비디아의 주가는 사상 최고치를 기록했고 시가는 2조 3000억딸라를 초과했으며 3월 8일 장전에 또 3% 를 초과했다. 비록 장중에 갑자기 다이빙을 당했지만 최신 파장까지 엔비디아는 875.28딸라로 5.55% 하락했지만 이 회사의 시가는 여전히 2조 1900억딸라에 달해 애플과의 격차가 갈수록 작아졌다.
최근 생성식 AI의 GPU 계산력에 대한 대량의 수요를 등에 업고 엔비디아의 주가는 거의 폭등하여 여러 차례 사상 최고치를 기록했다.그러나 수면 아래에는 엔비디아에 대한 도전이 그치지 않고 일부 변화가 일어나고 있다.
OpenAI의 최대 경쟁자로 꼽히는 Anthropic은 최근 Craude3 모델을 발표했는데, 최고 버전은 여러 벤치마크 테스트에서 GPT-4보다 성능이 뛰어나다.Anthropic 뒤에는 아마존이 서 있고, 아마존의 투자를 받은 후 Anthropic은 자체 연구 AI 칩인 Trainium과 Inferentia를 사용하여 훈련하고 배치했다는 점에 거의 주목하지 않을 것이다.구글 등 거물들도 AI 칩을 자체 개발하는 데 힘을 쏟고 있다.
파란을 일으킨 또 다른 사건은 얼마 전 AI 칩 스타트업인 그로크가 LPU (언어프로세서) 추리 성능이 엔비디아 GPU의 10배, 비용은 10분의 1에 불과하다고 공언했다는 점이다.한 AI 창업자는 Groq가 개방한 제품을 시용한 뒤 기자에게"초당 520개의 token (텍스트 유닛) 으로 놀라웠다"고 감탄했다.이 칩은 기존 GPU의 폰 노이만 아키텍처와 완전히 동등하지 않은 존산 일체형 (근존 컴퓨팅) 아키텍처를 채택하고 있다.이 칩 출시의 영향으로 최근 융자를 받은 한 국내 예산 일체형 기업 책임자도 기자에게 AI를 겨냥한 이런 새로운 아키텍처 칩에 대한 업계의 관심이 눈에 띄게 높아졌다고 말했다.
칩 아키텍처 혁신과 AI 거물들의 자체 연구 동력은 엔비디아에 도전하는 두 가지 암류를 구성한다.전복에 대해 언급하는 것은 시기상조일 수도 있지만, 여러 이익이 얽히고설키면 도전은 멈추지 않을 것이다.
Groq의 아키텍처 "혁명"
2016년, 엔비디아 CEO 황인훈은 첫 DGX-1 슈퍼컴퓨터를 OpenAI에 넘겨주었다. 이 슈퍼컴퓨터는 8개의 P100칩을 통합하여 OpenAI의 1년간의 훈련시간을 한달로 압축했다.이것은 GPU가 대형 모델의 성형을 추진하는 절호의 사례이다.이전에 큰 모형이 갑자기 용솟음쳤을 때 고성능계산을 배치하고 CUDA소프트웨어생태를 다년간 구축해온 엔비디아는 손을 뻗어 풍구를 받아 통용성과 소프트웨어생태를 보완하여 AI칩의 가장 큰 승자로 되였다.
그러나 그 칩 구조가 AI 연산에 가장 적합한지에 대해서는 답이 아닐 수도 있다.엔비디아를 대표로 하는 주류 GPU는 높은 공정에 의존하여 성능 향상을 가져오지만, 볼 수 있는 것은 무어의 법칙이 한계에 접근하여 더 높은 공정 칩을 만드는 비용이 상승하고, 계산, 저장이 분리된 폰 노이만 아키텍처 칩은 메모리 벽과 전력 소비량 벽에 직면해 있으며, 메모리 유닛과 처리 유닛 사이에 데이터 전송이 필요하며, 저장 대역폭은 계산 시스템의 유효 대역폭을 제약한다.기자가 이전에 참가한 업종회의에서 한 종사자가 20년간 메모리와 프로세서의 성능성장상황을 통계한데 따르면 량자의 심연은 매년 50% 의 속도로 확대되였는데 계산력성장보다 데터운반능력의 성장속도가 느린것이 큰 모형의 발전을 더욱 제약한다.업계에서는 폰 노이만 아키텍처의 폐단을 피하는 방법을 논의하고 있다.
저장과 처리 단위의 데이터 전송에 손실이 존재하는 이상 양자 사이의 거리를 단축한다. 엔비디아의 방법은 D램 (동적 임의 액세스 메모리) 으로 쌓인 HBM (고대역폭 메모리) 을 GPU와 함께 패키지하여 저장과 계산 단위를 더욱 가깝게 하고, 저장 밀도를 증가시키는 동시에 전송 손실을 줄이고 대역폭을 높이는 것이다. 이것이 바로 SK하이닉스 등 스토리지 거두들의 주력 방향이다.그러나 이 방안은 HBM의 공급 부족으로 제한되고 TSMC 등 첨단 패키지에 의존하고 있다.
메모리 벽을 해결하려면 폰 노이만 아키텍처를 바꾸고 GPU, LPU 등 다양한 종류의 칩에 사용할 수 있는 컴퓨팅 유닛과 스토리지 유닛을 하나로 합치는 존산 일체형 아키텍처를 사용하는 방법도 있다.Groq의 LPU 추리 칩은 메모리 일체형 아키텍처에 접근하는 방안으로, HBM 대신 SRAM (정적 랜덤 액세스 메모리) 을 사용하여 SRAM의 높은 액세스 속도의 장점을 확대하고, 칩 공정 14nm의 경우 큰 모델의 생성 속도를 500token/s 가까이 하며, GPU 구동 GPT-3.5의 40token/s 이상으로 한다.
"엔비디아 H100의 경우, 그 안에도 SRAM이 하나 있다. HBM에서 들어온 데이터는 SRAM까지 한 번 더 가야 한다. 대역폭은 약 3.25Tb/s이다.Groq 이 칩은 더 이상 HBM을 따로 연결하지 않는 것과 같다. 내부 대역폭은 80Tb/s에 달할 수 있다. GPU HBM에 비해 30배 가까이 확대됐다."천신테크놀로지 회장 천웨이는 제일재경 기자에게 Groq팀이 구글 TPU 팀에서 장량 (장) 을 처리했다고 말했다.원래의 TPU 아키텍처 사고방식, 근접 메모리 컴퓨팅 및 데이터 흐름 아키텍처를 결합하여 클러스터 컴퓨팅에서 비교적 좋은 성가비를 나타낸다.
이 칩이 출시된후 전 알리기술 부총재 가양청을 대표로 하는 일부 인사들은 Groq LPU의 비교적 낮은 메모리용량에 근거하여 엔비디아 H100과 비교하면서 동등한 처리량상황에서 Groq LPU의 하드웨어원가와 에너지소모가 H100보다 높다고 인정했다.천웨이는 평균 계산 원가에 초점을 맞추고, 계량화 계산 후 Groq LPU 서버의 token/s, TOPS BOM 모듈/계산 카드당 원가가 모두 엔비디아 H100보다 낮다는 것을 발견했다. 이는 Groq LPU 공정이 5nm 엔비디아 H100에 크게 못 미치는 상황에서 나온 것이다.천웨이는 기자에게 Groq LPU는 이미 근접 메모리 컴퓨팅에서 비교적 성숙한 아키텍처를 채택하고 있으며, 북미에서는 2019년, 2020년에 GPGPU를 대체할 수 있는 새로운 아키텍처가 속속 나왔다는 소식이 있으며, Groq의 이 칩 출시는 기본적으로 예상 내에 있다고 말했다.일반적으로 메모리 일체형 아키텍처 계산력은 동등한 공정 논리 칩이나 GPU 4세대를 앞설 수 있다고 생각하며, 12nm 또는 16nm 메모리 일체형 칩은 약 7nm 또는 5nm 기존 아키텍처 GPU의 계산력에 달한다.미래 존산 일체와 기존 GPU 기술의 융합은 하나의 발전 방향이거나 기존 기존 GPU에 대한 대체를 형성한다.
국내에서도 AI 수요에 맞추어 존산 일체형 구조를 배치하고 있다. 기자가 알아본데 따르면 천심과학기술 관련 칩은 인터넷회사의 내측을 통해 큰 모형을 달리고있으며 관련 기업에는 억주과학기술, 아리다모원, 지존과학기술, 팽심과학기술, 후모지능 등이 포함되는데 이런 기업들은 클라우드, 차량단 또는 기타 변두리장면에 초점을 맞추고있다.Groq가 채택한 SRAM 외에도 업계에서는 ReRAM과 같은 밀도가 높은 저장 미디어 방안을 모색하고 있다.
일부 해외 거물들은 입장 배치 존산 일체를 시도했다.지난해 9월 미국 AI 칩 스타트업인 디매트릭스가 1억1천만 달러의 B라운드 융자를 받아 마이크로소프트와 삼성이 투자자 명단에 이름을 올렸고, 마이크로소프트는 디매트릭스가 올해 칩을 출시할 때 이 칩을 평가해 자체 사용하겠다고 약속했다.디지털 메모리 내 컴퓨팅 칩을 개발하는 또 다른 AI 스타트업 비 AI는 앞서 샘 알트만 (Sam Altman) OpenAI CEO에게 100만 달러를 투자받았고, 2019년 5100만 달러를 들여 비 AI의 AI 칩을 구매하겠다는 의향서에 서명했다.
실리콘밸리 거물들이 힘을 내다
"엔비디아의 혜택을 받고 엔비디아의 제약을 받는다"는 것은 실리콘밸리의 거물들이 지난 한 해 동안 큰 모형을 쫓을 때의 모습일 것이다.AI 칩 시장이 선두를 달리고 있는 가운데 엔비디아가 대형 모델 훈련 추리에 사용할 수 있는 GPU 생산능력은 한때 제한되고 싸지 않았다.
메타 창업자 저커버그는 올해 초 올해 말까지 회사 컴퓨팅 인프라에 H100 그래픽 카드 35만 장이 포함될 것이라고 언급했다.레이먼드 제임스 애널리스트는 앞서 엔비디아 H100이 2만5천∼3만 달러에 판매된다고 밝혔다.H100 한 장당 2만 5천 달러로 계산하면 메타의 이 그래픽 카드 가격은 수십억 달러에 달할 것이다.샘 알트만은 AI 칩 수급 문제를 여러 차례 언급하며 최근 전 세계에 필요한 인공지능 인프라에는 웨이퍼 공장 생산능력, 에너지 등이 현재 사람들이 계획하는 것보다 더 많다고 밝혔다.
엔비디아를 제외한 다른 업체들은 최근 더 많은 코어 제조 소식을 전했다.샘 알트먼은 지난 2월 OpenAI의 7조 달러 코어 제조 계획설에 대해"우리는 세계가 더 많은 AI 칩을 필요로 할 것이라고 생각한다.AI 칩은 우리가 상상하는 것 이상으로 전 세계에 많이 투입되어야 한다"고 말했다.소프트뱅크그룹 창업자 손정의가 1000억 달러의 자금을 모아 한 칩 기업을 지원할 계획이라는 소식도 있다.
실리콘밸리의 거대 기술 기업들이 더 일찍 출발했다.엔비디아의 오랜 라이벌인 AMD는 GPU 분야에서 추격하고 있다.아마존에는 AI 훈련을 위한 커스텀 칩 트레니움과 AI 추리 칩 인펜티아가 있는데, 지난해 메타가 1세대 AI 추리 커스텀 칩 MTIA v1을 발표했고, 구글은 2017년 TPU를 출시해 이를 바탕으로 AI 제품을 구축했다.구글은 AI 훈련 작업의 90% 이상이 TPU를 사용하고 있으며, 메타도 데이터센터에 자체 AI 칩을 배치해 엔비디아 칩에 대한 의존도를 줄일 계획이라는 소식이다.
엔비디아가 GPU를 기반으로 구축한 CUDA 소프트웨어 생태는 그 해자이지만, 일부 하드웨어 성능만 놓고 보면 엔비디아 GPU가 추월할 수 없는 것은 아니다. 여러 실리콘밸리의 거대 기업들이 GPU 분야를 우회한 후 이미 다른 경로를 탐색하고 있다.상하이교통대학 컴퓨터과학 및 공학과 교수 량샤오는 한 업계 포럼에서 엔비디아 AI 시대의 계산력 기틀을 다진 V100은 Tensor Core 유닛을 채용하여 4 × 4 매트릭스 블록 연산을 통과하였고, 어떤 업체는 더 큰 매트릭스 블록 연산을 사용하여 더 높은 효율과 계산력을 달성하였으며, 구글 TPU와 테슬라 FSD 칩은 펄스 어레이를 사용하여 칩을 더 효율적으로 만들었다고 언급했다.
구글 TPU, 메타의 MTIA v1, Groq LPU는 모두 ASIC(전용 집적회로)에 속한다.기자가 알아본데 따르면 GPU는 프로세서로서 통용성과 신축성이 비교적 강하지만 하드웨어는 프로그래밍성이 비교적 약하고 ASIC는 계산법을 하드웨어에 고정시켜 신축성이 비교적 낮지만 리론적으로 에너지소모표현과 성능이 GPU보다 높을수 있다.근존 컴퓨팅으로 메모리 대역폭 병목 현상을 극복하는 것 외에도 Groq 공식 홈페이지는 LPU가 컴퓨팅 밀도의 병목 현상을 극복하기 위한 것이며, 큰 언어 모델의 경우 GPU와 CPU보다 LPU의 컴퓨팅 능력이 크다고 언급했다.
이러한 ASIC의 실제 성과는 어떻습니까?파이토치는 엔비디아 CUDA를 이용해 GPU 컴퓨팅을 가속할 수 있는 딥러닝 프레임워크다.구글 TPU와 엔비디아 GPU를 사용하는 한 연구자는 기자에게 TPU는 JAX 프레임워크를 사용하며 JAX 자체의 소프트웨어 오픈 소스 생태는 여전히 PyTorch보다 떨어지며 일부 PyTorch가 이미 실현한 기능은 JAX에서 한 번 더 실현해야 한다고 말했다.정상적으로 연산할 때 기계규모가 크지 않은 상황에서 엔비디아 GPU와 구글 TPU의 효과차이는 그리 크지 않지만 기계규모가 커지면 TPU의 우세가 두드러지고 더욱 간결하고 능률적이며 추가로 많은 공정최적화를 할 필요가 없다.
선발 우위가 있는 엔비디아를 상대로 이전도 다른 AI 칩 업체들이 직면한 도전이다.대형 모델이 GPU를 달리면 다른 AI 칩으로 이전하려면 이전 비용이 필요하지만 다른 업체들도 어쩔 수 없는 것은 아니다.이상의 연구자들은 Pythorch로 작성된 CUDA에만 적용되는 코드는 이전에는 마이그레이션하기 어려웠지만 PyThorch1.3이 Pythorch XLA 컴파일러를 통해 TPU에 비교적 빨리 적응할 수 있도록 지원하기 시작했다고 밝혔다.이는 엔비디아 GPU에서 달리는 대형 모델이 TPU로 마이그레이션하려면 모든 코드를 다시 쓸 필요가 없다는 것을 의미한다.그러나 현재 제한은 마이그레이션된 코드가 대규모 클러스터 훈련 때 일부 문제가 발생할 수 있다는 것이다.
엔비디아 소프트웨어의 우세를 타파하고 더욱 많은 AI 칩제조업체를 입장시켜 경쟁하게 하는 길에서 OpenAI도 노력하고있다.OpenAI는 2021에 CUDA 경험이 없는 연구자들이 GPU 코드를 효율적으로 작성할 수 있도록 파이썬과 유사한 오픈 소스 Triton 1.0을 발표했다.작년 말 AMD 발표회에서 OpenAI는 Triton이 다음 3.0 버전부터 MI300과 같은 AMD 생태계를 지원한다고 발표했다.
주가가 급등한 것은 시장이 엔비디아에 대해 여전히 긍정적으로 보고 있다는 것을 어느 정도 설명하지만, 경쟁은 멈추지 않을 것이며, 미래를 바라보면 AI 칩은 여전히 많은 가능성을 가지고 있다.

马斯克最新访谈：“全球最强AI”年底发布否认给特朗普巨额捐款

理想汽车发布OTA 6.0无图NOA全量推送

日系车企上半年在华销量下滑超12% 本田汽车将关停中国两家工厂

Meta据悉因违反竞争规则面临欧盟134亿美元罚款

주가가 폭등하고 시가가 애플에 육박하면 누가 엔비디아에 도전할 수 있겠는가?

马斯克最新访谈：“全球最强AI”年底发布 否认给特朗普巨额捐款

理想汽车发布OTA 6.0无图NOA全量推送

日系车企上半年在华销量下滑超12% 本田汽车将关停中国两家工厂

Meta据悉因违反竞争规则面临欧盟134亿美元罚款

马斯克最新访谈：“全球最强AI”年底发布否认给特朗普巨额捐款