首页 报纸 正文

オープンソースコミュニティ分水嶺:Meta大モデルLlama 3の発表パラメータは最高または4000億に達する

SOGO
197 0 0

AI(人工知能)のオープンソース大モデル分野での会社の地位を維持するため、ソーシャル大手Metaは傘下の最新オープンソースモデルを発売した。
Metaは現地時間4月18日、傘下の最新ビッグモデルLlama 3を公式サイトで発表した。現在、Llama 3は80億(8 B)と700億(70 B)の2つの小パラメータバージョンをオープンしており、コンテキストウィンドウは8 kである。Metaによると、より高品質なトレーニングデータと命令微調整を使用することで、Llama 3は前世代Llama 2よりも「大幅に向上した」という。
将来的には、Metaは4000億を超えるパラメータを持つLlama 3のより大きなパラメータ・バージョンを発売する。MetaもLlama 3のために、より長いコンテキストウィンドウやLlama 3の研究論文を含むマルチモーダルなどの新機能を発表する。
Metaは公告の中で、「Llama 3を通じて、現在最も優れた専有モデルに匹敵するオープンソースモデルの構築に力を入れている。開発者のフィードバックを処理し、Llama 3の全体的な実用性を向上させるとともに、LLM(大言語モデル)の使用と配置を担当する上でリードする役割を続けたい」と書いている。
18日当日、Meta株価(Nasdaq:META)は1株当たり501.80ドルで1.54%上昇し、時価総額は1兆2800億ドルだった。
「現在市場で最も優れたオープンソースの大モデル」
Metaによると、Llama 3はすでにさまざまな業界ベンチマークテストで最先端の性能を示しており、改良された推論能力を含む新機能を提供しており、現在市場で最も優れたオープンソースの大モデルとなっている。
アーキテクチャレベルでは、Llama 3は128 K token用語集を含む分詞器を用いた標準的なデコードオンリー(decoder-only)式Transformerアーキテクチャを選択した。Llama 3はMetaが自作した2つの24 K GPUクラスタで予備訓練を行い、15 Tを超える公開データを使用した。そのうち5%は非英語データで、30以上の言語をカバーし、訓練データ量は前世代Llama 2の7倍、含まれるコード数はLlama 2の4倍である。
Metaの試験結果によると、Llama 3 8 BモデルはMMLU、GPQA、HumanEvalなど多くの性能基準でGemma 7 BとMistral 7 B Instructを上回っており、70 Bモデルは有名な閉源モデルClaude 3の中間バージョンSonnetを超えており、グーグルのGemini Pro 1.5に比べて3勝2敗となっている。
Llama 3は複数の性能基準で優れている。出典:Meta公式サイト
通常のデータセットに加えて、Metaは実際のシーンにおけるLlama 3の性能の最適化にも力を入れており、そのために高品質の人工試験セットを開発した。このテストセットには1800件のデータが含まれており、提案を求める、クローズドな質問への回答、頭脳嵐、コーディング、作文など12の重要な用例をカバーし、開発チームに秘密にしている。
このテストセットでは、結果的にLlama 3の成績はLlama 2を大幅に上回り、Claude 3 Sonnet、Mistral Medium、GPT-3.5などの有名モデルにも勝った。
Llama 3は人工試験集で優れた成績を収めた。出典:Meta公式サイト
一方、Llama 3の400 B+モデルはまだ訓練中であるが、MetaもClaude 3の最強バージョンOpusをターゲットにすることを目的としたテスト結果の一部を示しているようだ。しかし、MetaはLlama 3のより大きなパラメータモデルとGPT-4同等規格の選手の比較成果を公表していない。
訓練中のLlama 3の400 B+モデル。出典:Meta公式サイト
Llama 3モデルは、開発者にアマゾンAWS、Databricks、グーグルクラウド、Hugging Face、Kaggle、IBM WatsonX、アマゾンAzure、英偉達NIM、Snowflakeで提供され、AMD、AWS、デル、インテル、英偉達、クアルコムが提供するハードウェアプラットフォームのサポートを受ける予定です。Llama 3を責任を持って開発するために、Metaはまた、Llama Guard 2、Code Shield、CyberSec Eval 2を含む新しい信頼とセキュリティツールを提供します。
同時に、MetaはLlama 3ベースの公式WebバージョンMeta AIをリリースした。現在、このプラットフォームはまだ初期段階であり、対話と絵画の2つの機能しかありません。ユーザはダイアログ機能を使用して登録する必要はなく、ペイント機能を使用するにはユーザがログインアカウントを登録する必要があります。
オープンソースコミュニティに活力を注ぐ
MetaのAI道路は従来からオープンソースと密接につながっており、Llama 3が発売されると、オープンソースコミュニティから熱烈な歓迎を受けた。
Llama 3の8 kコンテキストウィンドウが小さすぎるというツッコミもいくつかあったが、Meta側は、すぐにLlama 3のコンテキストウィンドウを拡張すると述べている。電子メールベンチャー企業Otherside AIのCEOで共同創業者のマット・シューマー(Matt Shumer)氏も楽観的で、「GPT-4レベルのモデルはオープンソースで無料でアクセスできる新世界に入っている」と述べた。
英偉達高級研究科学者の範麟熙(Jim Fan)氏によると、間もなく発売されるより大きなパラメータLlama 3モデルはオープンソースコミュニティの「分水嶺」を示し、多くの学術研究とベンチャー企業の意思決定方式を変えることができ、「生態系全体における活力が急増すると予想される」という。
しかし、注目すべきは、MetaはLlama 3のトレーニングデータを公表せず、すべてが公開データから来ていると主張していることだ。厳密な意味では、いわゆる「オープンソース」ソフトウェアは、開発と配布の過程で、ソフトウェア製品のソースコード、トレーニングデータなどを含む内容を一般に完全に公開しなければならない。これまで、データ会社Databricksが発表してきた「最強オープンソース大モデル」DBRXには、通常のコンピュータをはるかに上回る標準構成があるほか、この問題もあった。
Llama 3の発売はMeta自己研究チップが進歩した後に続いている。先週、Metaは独自開発チップMTIAの最新版を発表した。MTIAはMetaがAI訓練と推理作業に特化して設計したカスタムチップシリーズである。昨年5月に発表されたMeta初代AI推理加速器MTIA v 1と比べて、最新バージョンのチップはMeta傘下のソーシャルソフトウェアのランキングと推薦システムのために設計され、性能が大幅に向上した。分析によると、Metaの目標は、インテルなどのチップメーカーへの依存を減らすことだという。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

  •   知名做空机构香橼研究(Citron Research)周四(11月21日)在社交媒体平台X上发布消息称,该公司已决定做空“比特币大户”微策略(Microstrategy)这家公司,并认为该公司已经将自己变身成为一家比特币投资基金 ...
    caffycat
    8 小时前
    支持
    反对
    回复
    收藏
  •   每经AI快讯,11月20日,文远知行宣布旗下自动驾驶环卫车S6与无人扫路机S1分别在新加坡滨海湾海岸大道与滨海艺术中心正式投入运营。据介绍,这是新加坡首个商业化运营的自动驾驶环卫项目。 ...
    star8699
    前天 19:48
    支持
    反对
    回复
    收藏
  •   上证报中国证券网讯(记者王子霖)11月20日,斗鱼发布2024年第三季度未经审计的财务报告。本季度斗鱼依托丰富的游戏内容生态,充分发挥主播资源和新业务潜力,持续为用户提供高质量的直播内容及游戏服务,进一步 ...
    goodfriendboy
    前天 20:09
    支持
    反对
    回复
    收藏
  •   人民网北京11月22日电 (记者栗翘楚、任妍)2024广州车展,在新能源汽车占据“半壁江山”的同时,正加速向智能网联新能源汽车全面过渡,随着“端到端”成为新宠,智能驾驶解决方案成为本届广州车展各大车企竞 ...
    3233340
    2 小时前
    支持
    反对
    回复
    收藏
SOGO 注册会员
  • 粉丝

    0

  • 关注

    0

  • 主题

    37