首页 报纸 正文

オープンソースコミュニティ分水嶺:Meta大モデルLlama 3の発表パラメータは最高または4000億に達する

SOGO
192 0 0

AI(人工知能)のオープンソース大モデル分野での会社の地位を維持するため、ソーシャル大手Metaは傘下の最新オープンソースモデルを発売した。
Metaは現地時間4月18日、傘下の最新ビッグモデルLlama 3を公式サイトで発表した。現在、Llama 3は80億(8 B)と700億(70 B)の2つの小パラメータバージョンをオープンしており、コンテキストウィンドウは8 kである。Metaによると、より高品質なトレーニングデータと命令微調整を使用することで、Llama 3は前世代Llama 2よりも「大幅に向上した」という。
将来的には、Metaは4000億を超えるパラメータを持つLlama 3のより大きなパラメータ・バージョンを発売する。MetaもLlama 3のために、より長いコンテキストウィンドウやLlama 3の研究論文を含むマルチモーダルなどの新機能を発表する。
Metaは公告の中で、「Llama 3を通じて、現在最も優れた専有モデルに匹敵するオープンソースモデルの構築に力を入れている。開発者のフィードバックを処理し、Llama 3の全体的な実用性を向上させるとともに、LLM(大言語モデル)の使用と配置を担当する上でリードする役割を続けたい」と書いている。
18日当日、Meta株価(Nasdaq:META)は1株当たり501.80ドルで1.54%上昇し、時価総額は1兆2800億ドルだった。
「現在市場で最も優れたオープンソースの大モデル」
Metaによると、Llama 3はすでにさまざまな業界ベンチマークテストで最先端の性能を示しており、改良された推論能力を含む新機能を提供しており、現在市場で最も優れたオープンソースの大モデルとなっている。
アーキテクチャレベルでは、Llama 3は128 K token用語集を含む分詞器を用いた標準的なデコードオンリー(decoder-only)式Transformerアーキテクチャを選択した。Llama 3はMetaが自作した2つの24 K GPUクラスタで予備訓練を行い、15 Tを超える公開データを使用した。そのうち5%は非英語データで、30以上の言語をカバーし、訓練データ量は前世代Llama 2の7倍、含まれるコード数はLlama 2の4倍である。
Metaの試験結果によると、Llama 3 8 BモデルはMMLU、GPQA、HumanEvalなど多くの性能基準でGemma 7 BとMistral 7 B Instructを上回っており、70 Bモデルは有名な閉源モデルClaude 3の中間バージョンSonnetを超えており、グーグルのGemini Pro 1.5に比べて3勝2敗となっている。
Llama 3は複数の性能基準で優れている。出典:Meta公式サイト
通常のデータセットに加えて、Metaは実際のシーンにおけるLlama 3の性能の最適化にも力を入れており、そのために高品質の人工試験セットを開発した。このテストセットには1800件のデータが含まれており、提案を求める、クローズドな質問への回答、頭脳嵐、コーディング、作文など12の重要な用例をカバーし、開発チームに秘密にしている。
このテストセットでは、結果的にLlama 3の成績はLlama 2を大幅に上回り、Claude 3 Sonnet、Mistral Medium、GPT-3.5などの有名モデルにも勝った。
Llama 3は人工試験集で優れた成績を収めた。出典:Meta公式サイト
一方、Llama 3の400 B+モデルはまだ訓練中であるが、MetaもClaude 3の最強バージョンOpusをターゲットにすることを目的としたテスト結果の一部を示しているようだ。しかし、MetaはLlama 3のより大きなパラメータモデルとGPT-4同等規格の選手の比較成果を公表していない。
訓練中のLlama 3の400 B+モデル。出典:Meta公式サイト
Llama 3モデルは、開発者にアマゾンAWS、Databricks、グーグルクラウド、Hugging Face、Kaggle、IBM WatsonX、アマゾンAzure、英偉達NIM、Snowflakeで提供され、AMD、AWS、デル、インテル、英偉達、クアルコムが提供するハードウェアプラットフォームのサポートを受ける予定です。Llama 3を責任を持って開発するために、Metaはまた、Llama Guard 2、Code Shield、CyberSec Eval 2を含む新しい信頼とセキュリティツールを提供します。
同時に、MetaはLlama 3ベースの公式WebバージョンMeta AIをリリースした。現在、このプラットフォームはまだ初期段階であり、対話と絵画の2つの機能しかありません。ユーザはダイアログ機能を使用して登録する必要はなく、ペイント機能を使用するにはユーザがログインアカウントを登録する必要があります。
オープンソースコミュニティに活力を注ぐ
MetaのAI道路は従来からオープンソースと密接につながっており、Llama 3が発売されると、オープンソースコミュニティから熱烈な歓迎を受けた。
Llama 3の8 kコンテキストウィンドウが小さすぎるというツッコミもいくつかあったが、Meta側は、すぐにLlama 3のコンテキストウィンドウを拡張すると述べている。電子メールベンチャー企業Otherside AIのCEOで共同創業者のマット・シューマー(Matt Shumer)氏も楽観的で、「GPT-4レベルのモデルはオープンソースで無料でアクセスできる新世界に入っている」と述べた。
英偉達高級研究科学者の範麟熙(Jim Fan)氏によると、間もなく発売されるより大きなパラメータLlama 3モデルはオープンソースコミュニティの「分水嶺」を示し、多くの学術研究とベンチャー企業の意思決定方式を変えることができ、「生態系全体における活力が急増すると予想される」という。
しかし、注目すべきは、MetaはLlama 3のトレーニングデータを公表せず、すべてが公開データから来ていると主張していることだ。厳密な意味では、いわゆる「オープンソース」ソフトウェアは、開発と配布の過程で、ソフトウェア製品のソースコード、トレーニングデータなどを含む内容を一般に完全に公開しなければならない。これまで、データ会社Databricksが発表してきた「最強オープンソース大モデル」DBRXには、通常のコンピュータをはるかに上回る標準構成があるほか、この問題もあった。
Llama 3の発売はMeta自己研究チップが進歩した後に続いている。先週、Metaは独自開発チップMTIAの最新版を発表した。MTIAはMetaがAI訓練と推理作業に特化して設計したカスタムチップシリーズである。昨年5月に発表されたMeta初代AI推理加速器MTIA v 1と比べて、最新バージョンのチップはMeta傘下のソーシャルソフトウェアのランキングと推薦システムのために設計され、性能が大幅に向上した。分析によると、Metaの目標は、インテルなどのチップメーカーへの依存を減らすことだという。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

  • 【科技记者古尔曼:苹果计划于12月第一周发布iOS 18.2系统更新 带来更多人工智能功能】科技记者古尔曼透露,苹果计划于12月第一周发布iOS 18.2系统更新。iOS 18.2将为iPhone 15 Pro机型和所有iPhone 16机型带来更多 ...
    cristianna
    昨天 17:32
    支持
    反对
    回复
    收藏
  •   为期超七周的大罢工终于落下帷幕。   当地时间11月4日,波音美国西海岸工厂工人们就改进后的合同提案投票。   随后,代表着波音超过33000名西雅图地区机械师的IAM工会经表决,以59%的同意票决定接纳波音提 ...
    cristianna
    1 小时前
    支持
    反对
    回复
    收藏
  •   近日,爱立信中国区总裁方迎在接受《经济参考报》记者采访时表示,5G技术在全球范围内得到了迅速发展,但面临商业潜力未能充分挖掘、网络运营难度较以往更高两大挑战。因此,运营商在继续5G网络部署的同时,应关 ...
    blueskybb
    昨天 15:05
    支持
    反对
    回复
    收藏
  •   “新四化”的时代浪潮下,新能源汽车行业百家争鸣。伴随着自主品牌不断崛起,合资品牌当下的生存状况备受外界关注,如何打好电动化时代的突围战,成为合资品牌的新课题。   作为国内合资车企的代表之一,上汽 ...
    mbgg2797
    4 小时前
    支持
    反对
    回复
    收藏
SOGO 注册会员
  • 粉丝

    0

  • 关注

    0

  • 主题

    37