"99% 의 사용 장면을 해결할 수 있다!"마이크로소프트, 엔비디아는 잇달아 작은 모델의 큰 모델이 향기롭지 않다는 것에 베팅하고 있다?
tring
发表于 2024-8-22 19:42:33
5437
0
0
인공지능이 발전하는 길에서 과학기술거두들은 일찍 경쟁적으로 규모가 방대한 언어모형을 개발하였지만 지금은 새로운 추세가 나타났다. 소형언어모형 (SLM) 이 점차 두각을 나타내고있으며 과거의"클수록 좋다"는 관념에 도전하고있다.
8월 21일 (현지 시간) 마이크로소프트와 엔비디아는 잇달아 최신 소형 언어 모델인 Phi-3.5-mini-instruct와 Mistral-NeMo-Minitron 8B를 발표했다.이 두 모델의 주요 판매 포인트는 컴퓨팅 리소스 사용과 기능 표현 사이에서 좋은 균형을 이루었다는 것입니다.어떤 면에서 그것들의 성능은 심지어 대형 모델에 필적할 수 있다.
인공지능 스타트업 허깅페이스의 CEO 클렘 델랑구는 최대 99%의 사용 장면을 SLM으로 해결할 수 있다고 지적하며 2024년이 SLM의 해가 될 것으로 전망했다.불완전한 통계에 따르면 메타, 마이크로소프트, 구글을 포함한 과학기술거두들은 올해 이미 9종의 소형모형을 발표했다.
대형 모델 훈련 비용 상승, 성능 향상은 제한적
SLM의 부상은 우연이 아니라 성능 향상과 자원 소비에 대한 대형 모델 (LLM) 의 도전과 밀접한 관련이 있습니다.
AI 스타트업 벨룸(Vellum)과 허깅페이스(Hugging Face)가 지난 4월 발표한 성능 비교에 따르면 LLM 간의 성능 격차는 빠르게 줄어들고 있다. 특히 여러 선택 문제, 추리, 수학 문제 등 특정 임무에서 최상위 모델 간의 차이는 극히 적다.예를 들어, 여러 선택 문항에서 Claude 3 Opus, GPT-4 및 Gemini Ultra는 83% 이상의 점수를 받았으며 추론 작업에서는 Claude 3 Opus, GPT-4 및 Gemini 1.5 Pro가 92% 이상의 정확도를 보였습니다.
Uber AI 전 책임자 Gary Marcus는 LLM의 최신 연구 논문은 모두 같은 방향을 가리키고 있으며 십여 개의 LLM은 GPT-4와 한 분야에 있다며"그 중 일부는 GPT-4보다 성능이 약간 낫지만 질적인 비약은 없다.모든 사람들이 GPT-4가 GPT-3.5보다 한 걸음 앞섰다고 말할 것 같지만 이후 1 년 이상 질적 인 비약은 없었다"고 말했다.
제한된 성능 향상에 비해 LLM의 훈련 비용은 계속 상승하고 있습니다.이 모델들을 훈련하는 데는 엄청난 데이터와 수억 개, 심지어 조 개의 매개 변수가 필요하기 때문에 매우 높은 자원 소모를 초래했다.LLM을 훈련하고 실행하는 데 필요한 컴퓨팅 능력과 에너지 소비는 혀를 내두르게 하며, 이로 인해 소규모 조직이나 개인이 핵심 LLM 개발에 참여하기 어렵게 된다.
국제에너지기구는 데이터센터, 암호화폐, 인공지능 관련 전력이 2026년까지 소비되면 대체로 일본 전국의 전기사용량과 맞먹을 것으로 추정했다.
OpenAI CEO Sam Altman은 MIT의 한 행사에서 GPT-4를 훈련하는 비용이 최소 1억 달러라고 밝힌 바 있으며, Anthropic의 CEO Dario Amodei는 향후 훈련 모델의 비용이 1000억 달러에 이를 수 있다고 예측했다.
또한 LLM을 사용하는 데 필요한 도구와 기술의 복잡성은 개발자의 학습 곡선을 증가시킵니다.훈련에서 배치에 이르기까지 전 과정이 오래 걸리고 개발 속도가 느려졌다.케임브리지 대학의 한 연구에 따르면 회사는 기계 학습 모델을 배포하는 데 90 일 이상 걸릴 수 있습니다.
LLM의 또 다른 중대한 문제는 모델이 생성하는 출력이 합리적으로 보이지만 실제로는 정확하지 않다는'환각'을 일으키기 쉽다는 것이다.이는 LLM의 훈련 방식이 데이터의 패턴에 따라 정보를 실제로 이해하는 것이 아니라 다음 가능한 단어를 예측하기 때문입니다.따라서 LLM은 거짓 진술을 생성하거나 사실을 조작하거나 관련되지 않은 개념을 터무니없는 방식으로 조합할 수 있다고 자신할 수 있습니다.이러한"환각"을 감지하고 줄이는 방법은 신뢰할 수 있고 신뢰할 수있는 언어 모델을 개발하는 지속적인 과제입니다.
확장 매개 변수는 성능을 향상시키는 유일한 경로가 아닙니다.
LLM의 거대한 에너지 수요에 대한 우려와 기업에 더 다양한 AI 옵션을 제공할 수 있는 시장 기회는 기술 회사들로 하여금 점차 SLM으로 관심을 돌리게 했다.
매일경제신문 기자는 Arcee, Sakana AI, Hugging Face 등 AI 스타트업이나 거대 기술 기업들이 SLM과 더 경제적인 방식으로 투자자와 고객을 끌어들이고 있다는 점에 주목했다.
앞서 구글, 메타, 오픈AI, 앤트로픽은 플래그십 LLM보다 더 컴팩트하고 유연한 소형 언어 모델을 발표했다.이는 개발 및 배포 비용을 절감할 뿐만 아니라 비즈니스 고객에게 더 저렴한 솔루션을 제공합니다.투자자들이 AI 기업의 높은 비용과 불확실한 수익을 점점 더 우려하고 있다는 점을 감안할 때 더 많은 기술 회사들이이 길을 선택할 수 있습니다.마이크로소프트와 엔비디아조차도 현재 자사의 소형 모델 (SLM) 을 차례로 출시하고 있다.
SLM은 LLM의 씬 버전으로, 더 적은 매개변수와 더 간단한 설계로 몇 분 또는 몇 시간만 필요한 데이터와 훈련 시간이 줄어듭니다.이를 통해 SLM은 더욱 효율적이고 소형 장치에 쉽게 배포할 수 있습니다.예를 들어, 슈퍼컴퓨팅 리소스를 사용하지 않고 휴대폰에 내장하여 비용을 절감하고 응답 속도를 크게 향상시킬 수 있습니다.
마이크로소프트는 소형 모델 기술 보고서에서 Phi-3.5-mini-instruct는 휴대폰 로컬 배포를 위해 설계된 고성능 언어 모델이라고 밝혔다.
SLM의 또 다른 주요 장점은 특정 애플리케이션에 대한 전문화입니다.SLM은 특정 작업이나 영역에 집중되므로 실제 응용 프로그램에서 더욱 효율적입니다.예를 들어, 정서 분석, 명명 실체 식별 또는 특정 분야의 문답에서 SLM은 종종 일반 모델보다 우수하다.이러한 맞춤화를 통해 기업은 특정 요구 사항을 효율적으로 충족하는 모델을 만들 수 있습니다.
SLM은 일반적으로 더 좁고 목적성 있는 데이터 세트에서 훈련하기 때문에 특정 영역에서도"환각"이 잘 나타나지 않습니다. 이는 모델이 작업과 가장 관련된 패턴과 정보를 학습하는 데 도움이 됩니다.SLM의 집중은 연관성이 없거나 예기치 않거나 일관성이 없는 출력을 생성할 가능성을 낮춥니다.
비록 규모가 작지만 SLM은 어떤 면에서는 큰 모델에 뒤지지 않는 성능을 가지고 있다.마이크로소프트가 최근 출시한 Phi-3.5-mini-instruct는 38억 개의 매개변수만 보유하고 있지만 Llama3.18B와 Mistral 7B와 같은 매개변수보다 성능이 훨씬 뛰어나다.미국 노스이스턴대학 언어모형연구전문가 Aaron Mueller는 다음과 같이 지적했다. 매개 변수의 수량을 확장하는것은 모형의 성능을 제고하는 유일한 경로가 아니며 더욱 높은 품질의 데터를 사용하여 훈련해도 류사한 효과를 산생할수 있다.
OpenAI CEO Sam Altman은 4 월 행사에서 현재 거대한 모델 시대의 말기에 있다고 믿는다며"우리는 다른 방식으로 그들의 표현을 향상시킬 것"이라고 말했다.
그러나 SLM의 전문화가 큰 장점이지만 한계가 있다는 점에 유의해야 한다.이러한 모델은 특정 훈련 영역 외에서 잘 작동하지 않을 수 있으며, LLM에 비해 광범위한 주제에 대한 관련 내용을 생성할 수 없는 광범위한 지식 라이브러리가 부족할 수 있습니다.이 제한은 조직이 여러 SLM을 배치하여 서로 다른 수요 영역을 커버할 수 있도록 해야 하며, 이는 AI 인프라를 복잡하게 할 수 있다.
AI 분야의 급속한 발전에 따라 소형 모델의 표준은 계속 변화할 수 있다.도쿄의 소형 모델 스타트업 사카나의 공동 창업자 겸 최고경영자 데이비드 하는 몇 년 전 방대해 보였던 AI 모델이 지금으로서는"적중해 보인다"고 말했다."크기는 항상 반대입니다."라고 David Ha가 말했습니다.
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
猜你喜欢
- ParTec, 뮌헨에서 엔비디아 특허침해 소송 제기
- 미국 주식 거래액 상위 20: 마이크로소프트 실적 후 6% 이상 하락, 2년 만에 최대 하루 하락폭 기록
- 마이크로소프트는 인공지능 분야에서 CoreWeave 데이터 센터를 사용할 것으로 알려졌다
- 사모 선두 경림 미국 주식 보유 폭로: 엔비디아, 마이크로소프트 추가 창고 애플, 텐센트 음악 등
- '트럼프 2.0'은 엔비디아에 어떻게 영향을 미칠까?월가의 공감대: 더 많은 것은 호재이다!
- 극크립톤 7X 모델 인도량 2만 초과
- 황인훈 중대발표!엔비디아, 소프트뱅크와 합작 소프트뱅크, AI 배치 가속화
- 큰 모델 재창조 산업 스마트 엔진 바이두 공유 문심 큰 모델 최신 진전
- 극크립톤 7X 모델 인도량 2만 5000대 초과
- 월스트리트, 엔비디아 목표가 잇달아 인상: Blackwell 열풍이 곧 도래할 것이다!
-
人民网北京11月22日电 (记者栗翘楚、任妍)2024广州车展,在新能源汽车占据“半壁江山”的同时,正加速向智能网联新能源汽车全面过渡,随着“端到端”成为新宠,智能驾驶解决方案成为本届广州车展各大车企竞 ...
- 3233340
- 3 天前
- 支持
- 反对
- 回复
- 收藏
-
美东时间周五,美股三大指数集体收涨,截止收盘,道指涨0.97%,本周累涨1.96%;纳指涨0.16%,本周累涨1.73%;标普500指数涨0.35%,本周累涨1.68%。 大型科技股涨跌不一,特斯拉涨近4%,微软涨1%,苹果、奈飞 ...
- budingmm
- 前天 10:41
- 支持
- 反对
- 回复
- 收藏
-
新华财经上海11月23日电默沙东与中国癌症基金会23日签署中国低卫生资源地区宫颈癌综合防控项目捐赠协议,将聚焦加速消除宫颈癌这一目标,计划在未来两年由默沙东向中国癌症基金会捐赠共计8.1万支HPV疫苗。 ...
- 逸风宝宝
- 前天 18:00
- 支持
- 反对
- 回复
- 收藏
-
11月21日港股收盘后,百度(9888.HK)发布了三季度的业绩报告。财报显示,百度今年第三季度总收入达335.6亿元,同比下滑3%,录得两年多来最大跌幅。归属净利润为76.3亿元,同比增长14%;但非公认会计准则(Non-GA ...
- rodi
- 3 天前
- 支持
- 反对
- 回复
- 收藏