マスクはオープンソースの自宅トップクラスの大モデルの圧力をOpenAIに対して行動で反撃
布衣小贩2017
发表于 2024-3-18 13:13:46
1324
0
0
AIモデルのオープンソースにこだわり続けていることをアピールするためらしく、マスクはアルトマンとは全く異なる選択をした。3月17日、マースクはオープンソースGrok-1を発表し、これによりGrok-1は現在のパラメータ量が最大のオープンソース大言語モデルとなり、3140億パラメータを持ち、OpenAI GPT-3.5の1750億をはるかに上回った。
興味深いことに、Grok-1がオープンソースを発表した表紙図はMidjourney生成で、「AI helps AI」と言える。
OpenAIをopenしないとツッコミを入れてきたマースク氏は、「OpenAIの開放的な部分をもっと知りたい」と、ソーシャルプラットフォームに影を含まなければならないのは当然だ。
Grok-1はApache 2.0プロトコルに従ってモデル重みとアーキテクチャを開放する。これは、個人的にもビジネス的にも、ユーザーが自由にソフトウェアを使用、修正、配布できるようにすることを意味します。この開放性はより広範な研究と応用開発を奨励した。プロジェクトが発表されてから現在まで、GitHubで6.5 k星印を獲得し、熱は増加し続けている。
プロジェクトの説明では、Grok-1は規模の大きい(314 Bパラメータ)モデルであるため、サンプルコードテストモデルを使用するには十分なGPUメモリを持つマシンが必要であることを明確に強調した。ネットユーザーは、628 GBのGPUメモリを持つマシンが必要かもしれないと話している。
また、リポジトリ内のMoEレイヤの実装効率は高くありません。この実装を選択したのは、モデルの正確性を検証するためにカスタムカーネルが必要にならないようにするためです。
現在オープンソースされている人気の大モデルには、MetaのLlama 2、フランスのMistralなどが含まれています。一般的に、オープンソースモデルをリリースすることは、コミュニティが大規模なテストとフィードバックを展開するのに役立ち、モデル自体の反復速度も速くなることを意味します。
Grok-1はハイブリッド専門家(Mixture-of-Experts、MOE)の大モデルで、マースク傘下のAIベンチャー企業xAIが過去4カ月間に開発した。モデルの開発過程をレビューする:
xAIの設立を発表した後、関係研究者はまず330億パラメータのプロトタイプ言語モデル(Grok-0)を訓練した。このモデルは標準言語モデルの試験基準でLLaMA 2(70 B)の能力に近いが、より少ない訓練資源を使用した。
その後、研究者はモデルの推論と符号化能力を大幅に改善し、最終的にGrok-1を開発し、2023年11月に発表した。これはより強力なSOTA言語モデルであり、HumanEval符号化タスクで63.2%の成績を達成し、MMLUで73%に達し、その計算クラスの他のすべてのモデルを超え、ChatGPT-3.5とInflection-1を含む。
他の大きなモデルと比べて、Grok-1の優位性はどこにあるのでしょうか。
xAIは特に、Grok-1は彼ら自身が一から訓練する大きなモデルであることを強調している。つまり、2023年10月からカスタム訓練スタックを用いてJAXとRustで訓練を開始し、特定のタスク(会話など)に対して微調整を行っていない、
Grok-1のユニークで基本的な利点は、Xプラットフォームを通じてリアルタイムに世界を知ることができ、他のAIシステムの多くに拒否されている辛い質問に答えることができることです。Grok-1リリースで使用されたトレーニングデータは、2023年第3四半期までのインターネットデータとxAIのAIトレーナーが提供したデータから、
3140億パラメータのMixture-of-Expertsモデルは、tokenごとにアクティブな重みの割合が25%であり、この膨大なパラメータ量は強力な言語理解と生成能力を提供します。
xAIはこれまで、Grok-1をGrokの背後にあるエンジンとして、問答、情報検索、クリエイティブライティング、コーディング支援を含む自然言語処理タスクに使用することを紹介してきた。将来的には、長いコンテキストの理解と検索、マルチモーダル能力は、モデルが探索する方向の1つである。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
猜你喜欢
- 奇富科技費の浩峻:金融大モデルはより広範なビジネスシーンで深い融合を実現する
- 蔚来は電気交換サービス料の料金モデルを調整する:度によって料金を徴収し、楽道の後続の電気交換もそのまま使用する
- アップルの公式サイトが奪われた!iPhone 16の一部モデルは「秒没」
- 百度呉甘:知識強化大モデルが産業デジタルエンジンを再構築
- アップル、インドのiPhone各機種の販売価格を引き下げ
- 欧州プライバシー規制当局、グーグルが人工知能モデルにデータを活用した状況を調査
- 百度沈震:10万カード計算力クラスターアップグレード計算プラットフォーム能力文心大モデルの日調整量が7億回を超える
- Metaが重量ポンドの新製品を発表:299ドルのクエス3 Sヘッドディスプレイ、ARメガネプロトタイプ、マルチモーダルAIモデル
- 香港株アップル産業チェーンが急騰!iPhone 16 Proモデルの需要は依然として堅調ですが、将来の販売台数はどうでしょうか。
- マースク・Cybercabのリリースが間近!国内の多くの大手企業がRobotaxi中国モデルを模索している
-
随着“银十”结束,各家造车新势力都交出了一份亮眼的成绩单。 理想领跑10月新势力交付榜,鸿蒙智行重回4万辆,零跑、深蓝、极氪、小鹏等单月交付量均创新高,岚图、阿维塔、智己等实现破万,但哪吒却消失在 ...
- fanadam
- 半小时前
- 支持
- 反对
- 回复
- 收藏
-
【科技记者古尔曼:苹果计划于12月第一周发布iOS 18.2系统更新 带来更多人工智能功能】科技记者古尔曼透露,苹果计划于12月第一周发布iOS 18.2系统更新。iOS 18.2将为iPhone 15 Pro机型和所有iPhone 16机型带来更多 ...
- cristianna
- 昨天 17:32
- 支持
- 反对
- 回复
- 收藏
-
为期超七周的大罢工终于落下帷幕。 当地时间11月4日,波音美国西海岸工厂工人们就改进后的合同提案投票。 随后,代表着波音超过33000名西雅图地区机械师的IAM工会经表决,以59%的同意票决定接纳波音提 ...
- cristianna
- 3 小时前
- 支持
- 反对
- 回复
- 收藏
-
近日,爱立信中国区总裁方迎在接受《经济参考报》记者采访时表示,5G技术在全球范围内得到了迅速发展,但面临商业潜力未能充分挖掘、网络运营难度较以往更高两大挑战。因此,运营商在继续5G网络部署的同时,应关 ...
- blueskybb
- 昨天 15:05
- 支持
- 反对
- 回复
- 收藏