오픈 소스 커뮤니티 분기점: Meta 대형 모델 Llama 3 출시 매개변수 최대 또는 최대 4000억
真不是我干的的
发表于 2024-4-19 16:12:28
253
0
0
소셜 거물 메타는 AI (인공지능) 오픈 소스 대형 모델 분야에서 회사의 지위를 유지하기 위해 자사의 최신 오픈 소스 모델을 선보였다.
4월 18일 (현지 시각) 메타는 공식 홈페이지를 통해 자사의 최신 대형 모델인 Llama 3를 발표했다고 밝혔다.현재 Llama 3는 80억 (8B) 과 700억 (70B) 의 두 개의 이터레이션 버전을 개방했으며 컨텍스트 창은 8k입니다.메타는 더 높은 품질의 훈련 데이터와 명령 미세 조정을 사용하여 Llama 3가 이전 세대 Llama 2보다"크게 향상되었다"고 밝혔다.
앞으로 메타는 4000억 개 이상의 매개변수를 보유하게 될 Llama 3의 더 큰 매개변수 버전을 출시할 것이다.메타도 더 긴 컨텍스트 창과 Llama 3 연구 논문을 포함한 Llama 3를 위한 다중 모드 등 새로운 기능을 후속으로 출시할 예정이다.
메타는 공지문에서 "Llama 3를 통해 오늘날 최고의 독점 모델에 필적할 수 있는 오픈 소스 모델 구축에 전념하고 있다"며 "개발자의 피드백을 처리하고 Llama 3의 전반적인 실용성을 높이는 동시에 LLM(대형 언어 모델)을 책임감 있게 사용하고 배치하는 데 선도적인 역할을 계속하고자 한다"고 밝혔다.
18일 이날 메타주가(Nasdaq: META)는 주당 501.80달러로 1.54% 오른 1조2천800억 달러에 거래를 마쳤다.
"현재 시장에서 가장 좋은 오픈 소스 모델"
메타에 따르면 Llama 3는 이미 다양한 업계 벤치마킹에서 최첨단 성능을 보여주며 개선된 추리력을 포함한 새로운 기능을 제공해 현재 시장에서 가장 좋은 오픈 소스 모델이다.
아키텍처 측면에서 Llama3는 128K token 어휘표를 포함하는 디코딩 전용(decoder-only) 방식의 표준 Transformer 아키텍처를 선택했습니다.Llama 3는 Meta가 자체 제작한 2개의 24K GPU 클러스터에서 사전 훈련을 실시하여 15T 이상의 공개 데이터를 사용하였는데, 그중 5% 가 비영문 데이터로 30여 개 언어를 포함하며, 훈련 데이터량은 이전 세대 Llama 2의 7배, 포함된 코드 수는 Llama 2의 4배이다.
메타의 테스트 결과에 따르면 Llama 3 8B 모델은 MMLU, GPQA, HumanEval 등 여러 성능 기준에서 젬마 7B와 미스트랄 7B 인스트럭트를 앞질렀고, 70B 모델은 명성이 자자한 폐원 모델인 Claude 3의 중간 버전인 Sonnet을 제치고 구글의 제미니 프로 1.5에 비해 3승 2패를 기록했다.
Llama 3는 여러 성능 벤치마크에서 뛰어난 성능을 발휘합니다.출처: 메타 홈페이지
메타는 일반적인 데이터 세트 외에도 실제 장면에서 Llama 3의 성능을 최적화하기 위해 고품질의 인공 테스트 세트를 전문적으로 개발했습니다.이 테스트 세트에는 1800 개의 데이터가 포함되어 있으며 제안 요청, 폐쇄적 인 질문 답변, 브레인스토밍, 코딩, 쓰기 등 12 개의 주요 사용 사례를 포함하고 있으며 개발 팀에게는 비밀을 유지합니다.
이 테스트집에서 결과를 보면 Llama 3의 성적은 Llama 2를 크게 앞질렀고 Claude 3 Sonnet, Mistral Medium, GPT-3.5 등 유명 모델도 앞질렀다.
Llama 3는 인공 테스트 세트에서 우수한 성적을 거두었습니다.출처: 메타 홈페이지
Llama 3의 400B + 모델은 여전히 훈련 중이지만 Meta는 Claude 3의 가장 강력한 버전인 Opus를 표적하기 위한 것으로 보이는 테스트 결과의 일부를 보여준다.그러나 메타는 Llama 3의 더 큰 매개변수 모델과 GPT-4와 같은 사양 선수들의 비교 성과를 발표하지 않았다.
여전히 훈련 중인 Llama 3의 400B+ 모델.출처: 메타 홈페이지
Llama 3 모델은 곧 아마존 AWS, Databricks, 구글 클라우드, Hugging Face, Kaggle, IBM WatsonX, 아마존 Azure, 엔비디아 NIM 및 Snowflake에서 개발자에게 제공되며 AMD, AWS, Dell, 인텔, 엔비디아, 퀄컴이 제공하는 하드웨어 플랫폼 지원을 받게 됩니다.Llama 3가 책임 있게 개발될 수 있도록 Meta는 Llama Guard 2, Code Shield 및 CyberSec Eval 2를 포함한 새로운 신뢰 및 보안 도구도 제공합니다.
이와 함께 메타는 Llama3 기반의 공식 웹 버전인 메타 AI를 발표했다.현재 이 플랫폼은 여전히 초급 단계에 있으며 대화와 회화 두 가지 기능만 있다.사용자가 대화 기능을 사용하려면 등록을 통과할 필요가 없고, 그림 기능을 사용하려면 사용자가 로그인 계정을 등록해야 한다.
오픈 소스 커뮤니티에 활력 불어넣기
메타의 AI 도로는 줄곧 오픈 소스와 밀접하게 연결되어 있으며, Llama 3가 출시되자 오픈 소스 커뮤니티의 열렬한 환영을 받았다.
Llama 3의 8k 컨텍스트 창이 너무 작다는 일부 구설도 있지만, 곧 Llama 3의 컨텍스트 창을 확충할 것이라고 메타 측은 밝혔다.이메일 스타트업 오더사이드 AI의 CEO 겸 공동 창업자인 매트 슈머도 이를 낙관하며 "우리는 새로운 세계로 나아가고 있다. 여기서 GPT-4 수준의 모델은 오픈 소스이며 무료로 접근할 수 있다"고 말했다.
엔비디아의 수석 연구 과학자 짐 판 (Jim Fan) 은 곧 출시 될 더 큰 매개 변수 인 Llama 3 모델은 많은 학술 연구와 신생 기업의 의사 결정 방식을 바꿀 수있는"분수령"을 상징하며"전체 생태계에서 활력이 급증 할 것으로 예상된다"고 말했다.
그러나 메타는 Llama 3의 훈련 데이터를 공개하지 않고 모두 공개 데이터에서 나왔다고 밝힌 점에 주목할 필요가 있다.그리고 엄격한 의미에서 말하자면, 이른바'오픈 소스'소프트웨어는 개발과 배포 과정에서 소프트웨어 제품을 포함한 소스 코드, 훈련 데이터 등 내용을 대중에게 완전히 개방해야 한다.앞서 데이터 회사 Databricks가 발표한'최강 오픈 소스 모델'DBRX는 일반 컴퓨터를 훨씬 뛰어넘는 표준 구성을 보유하고 있는 것 외에도 이런 문제가 있었다.
Llama 3의 출시는 Meta의 자체 연구 칩이 진보한 후에 뒤따랐다.바로 지난주, 메타는 자체 개발 칩인 MTIA의 최신 버전을 발표했다.MTIA는 메타가 AI 훈련과 추론 작업을 위해 특별히 설계한 맞춤형 칩 시리즈다.작년 5월 관선의 메타 1세대 AI 추리 가속기 MTIA v1과 비교했을 때, 최신 버전 칩은 메타 산하 소셜 소프트웨어의 순위와 추천 시스템을 위해 특별히 설계된 성능에서 현저하게 향상되었다.메타의 목표는 엔비디아와 같은 칩 제조업체에 대한 의존도를 낮추는 것으로 분석됐다.
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
猜你喜欢
- DeepMind 오픈 소스 생체 분자 예측 모델 노상 성과는 AI 제약 물결을 일으킬 것인가?
- 바이두 리언굉: 지난 24개월간 AI 업종의 가장 큰 변화는 큰 모형이 기본적으로 환각을 제거한것이다
- "AI 신세대"대모형제조업체 일제히"권"지능체, 리언굉은"생각으로 돈을 벌수 있는 시대"를 맞이하게 된다고 말했다.
- 알리 통의 천문 코드 모델 Qwen2.5-Coder 전 시리즈 정식 오픈 소스
- 극크립톤, 전계차종과 함께 광주모터쇼 첫 광대한 지운전 2.0 종단간 Plus 구조 선보여
- 문심일언 사용자 수 4억 돌파, 바이두 오단: 큰 모형이 산업 스마트 엔진을 재창조하고 있다
- 올해 10월 테슬라 모델 Y가 일선, 신일선 도시 모델 판매 1위를 차지했다
- 알리바바 CEO 오영명: AI 발전은 부동한 규모, 부동한 령역의 개원대모형이 필요하다
- 바이두 Q3 핵심 순이익 17% 증가 예상 초과 문심대 모델 하루 조정량 15억
-
知名做空机构香橼研究(Citron Research)周四(11月21日)在社交媒体平台X上发布消息称,该公司已决定做空“比特币大户”微策略(Microstrategy)这家公司,并认为该公司已经将自己变身成为一家比特币投资基金 ...
- caffycat
- 12 小时前
- 支持
- 反对
- 回复
- 收藏
-
每经AI快讯,11月20日,文远知行宣布旗下自动驾驶环卫车S6与无人扫路机S1分别在新加坡滨海湾海岸大道与滨海艺术中心正式投入运营。据介绍,这是新加坡首个商业化运营的自动驾驶环卫项目。 ...
- star8699
- 前天 19:48
- 支持
- 反对
- 回复
- 收藏
-
上证报中国证券网讯(记者王子霖)11月20日,斗鱼发布2024年第三季度未经审计的财务报告。本季度斗鱼依托丰富的游戏内容生态,充分发挥主播资源和新业务潜力,持续为用户提供高质量的直播内容及游戏服务,进一步 ...
- goodfriendboy
- 前天 20:09
- 支持
- 反对
- 回复
- 收藏
-
人民网北京11月22日电 (记者栗翘楚、任妍)2024广州车展,在新能源汽车占据“半壁江山”的同时,正加速向智能网联新能源汽车全面过渡,随着“端到端”成为新宠,智能驾驶解决方案成为本届广州车展各大车企竞 ...
- 3233340
- 6 小时前
- 支持
- 反对
- 回复
- 收藏