北京時間12月7日未明、グーグルは突然、自分の「今までで最も強く、最も汎用的なモデル」であるGeminiを放出した。Geminiモデルは、グーグルおよび世界で最初に発表されたマルチモーダルモデルとして、クラウドおよびエッジでのテスト運用をサポートしています。
関連テストデータ表面では、Gemini UltraはMMLU(大規模マルチタスク言語理解)において人間専門家のモデルより優れており、横方向比較では複数のタスク性能がGPT-4を上回っているため、GPT-4の最も強力なライバルともされている。
業界内では、Geminiの登場により、大モデルの応用シーンがさらに広がる一方で、計算力需要の持続的なアップグレードをもたらすことができると同時に、GPT-5を含む大モデルの発売にもより多くの触媒をもたらすことができる。
リリース3つのバージョン
Geminiはグーグルが1年以上準備してきたGPT-4の真の競合品であり、現在グーグルが手に入れることができる機能が最も強く、フィットが最も柔軟な大モデルでもあることが分かった。GeminiはTransformer decoderに基づいて構築されたマルチモーダルモデルで、ビデオ、オーディオ、テキストなどの異なるコンテンツ形式の情報を処理することができる。
最新のGeminiモデルは、これまでの技術と比較して、より複雑な推理を行い、より細かい情報を理解することができます。今回、初のバージョンGemini 1.0では、Ultra、Pro、Nanoの3つの異なるサイズモデルが発売されました。
1)Ultraバージョンは最も性能の強いバージョンであり、対応するTPUインフラストラクチャの中で最高効率を示すことができ、複数のテストの中でUltraバージョンの性能はGPT-4 Vを上回る、
2)Proバージョンは性価比最適化バージョンであり、推理、多モードなどの面でも強い能力があり、Proバージョンは良好な延性を持ち、数週間以内に予備訓練を完了することができ、複数のテストの中でGPT-4 Vに次いで、PaLM 2、Claude 2、LLaMA 2、GPT 3.5などの主流の大モードタイプより強い、
3)Nanoバージョンは他のモデルを蒸留して得られた4ビットモデルで、1.8 Bと3.25 Bの2つのバージョンがあり、それぞれ低メモリと高メモリデバイスに対して、ローカル配置をサポートしている。
現在、Gemini 1.0はチャットロボットBardやスマートフォンPixel 8 Proにアクセスするなど、さまざまなグーグル製品やプラットフォームで発売されている。今後数ヶ月、GeminiはSearch、Ads、Chrome、Duet AIなど、グーグルのより多くの製品とサービスに応用されるだろう。
性能転圧GPT-4?
Geminiモデルは、グーグルおよび世界で最初に発表されたマルチモーダルモデルとして、クラウドおよびエッジでのテスト運用をサポートしています。関連テストデータ表面では、Gemini UltraはMMLU(大規模マルチタスク言語理解)において人間専門家のモデルより優れており、横方向比較では複数のタスク性能がGPT-4を上回っている。
自然画像、音声、ビデオから数学的推論まで、大型言語モデルの研究と開発に広く使われている32の学術基準のうち、Gemini Ultraの性能は30項目で現在の最先端レベルを超えていることが紹介された。
このうち、MMLU(大規模マルチタスク言語理解)テストにおけるGemini Ultraの得点率は90.0%で、人類の専門家を超えた最初のモデルであり、GPT-4の得点率は86.4%であった。画像理解では、新しいMMMUベンチマークテストでもGemini Ultraの表現がより優れており、その得点率は59.4%に達し、GPT-4 Vの得点率は56.8%だった。
また、Gemini 1.0は複雑な推理能力を持ち、情報を読み、フィルタリングし、理解することで、数十万件のファイルから見解を抽出する。Googleエンジニアは、Geminiが「20万件の科学研究文献」の重要な情報を抽出する例を示した。
2021年以降、同研究分野には20万件以上の研究論文が追加され、従来の研究に更新する必要がある。従来、科学研究者は手動で処理するしかなかったが、今ではGeminiは研究分野に関連する文献情報を自動的に区別し、フィルタリングすることができ、昼食の時間だけが必要で、Geminiは科学者に20万件の論文を読み終えてもらい、データ情報を更新した後の新しい画像を描いた。
Gemini Ultraは現在、大規模な信頼とセキュリティチェックを完了しており、モデルの改善過程で、グーグルは一部の顧客、開発者、パートナー、およびセキュリティと責任の専門家にGemini Ultraを提供し、早期の試験とフィードバックを提供する。来年初めに開発者や企業の顧客にモデルを提供する。
ハードウェア、アルゴリズム、データセットの革新
民生証券の研究報告書の評価では、50を超える基準テストの中でGeminiモデルシリーズを評価することにより、モデル規模の増加に伴い、推理、数学/科学、長いテキストの面でGeminiモデルの品質が向上し続けている。すべての6つの能力の中で、Gemini Ultraは最も優れたモデルです。
Gemini ProはGeminiモデルファミリーの中で2番目に大きいモデルとして、性能的にも非常に競争力があり、サービスを提供する際により効率的である。
同機構によると、Gemini訓練プロセスはインフラストラクチャ、アルゴリズム、データセットを革新することもできるという。注目すべきは、グーグルが今回「最も強力な機能」を誇るTPUシステムCloud TPU v 5 pを発表したことだ。訓練最前線のAIモデルを支援することを目的としている。グーグル側によると、前世代のTPU v 4性価格比は2.3倍上昇した。
一方、次世代TPUはGeminiの開発を加速させ、開発者と企業の顧客が大規模な生成型AIモデルをより迅速に訓練し、新製品と新機能をより迅速に発売するのを支援する。
アルゴリズムの面では、グーグルは単一制御アルゴリズム、XLAコンパイラなどの技術を用いて訓練過程を最適化し、SDCなどの問題を予防することで安定した訓練を実現した。データセットの面では、グーグルは分詞技術を通じてGemini訓練と推論速度を高め、一連のフィルタリング方法を通じて訓練に用いられるデータの高品質を保証している。
GPT-5などのモデルに触媒を与える
グーグルGeminiの発表は、他のAIビッグモデルの反復的なアップグレードに新たな触媒をもたらすに違いない。
中信証券の分析によると、現在の検索シーンでは、Geminiは約40%の遅延を減らすことができるという。産業全体にとって、グーグルの製品化、商業化の推進も業界全体の変化をもたらすだろう。同機構は、今後ますます多くのAIシーンと製品の出現が予想され、ハードウェアのアップグレード、アルゴリズムの最適化によるコスト最適化が重なり、To C製品の進展が期待される。
同時に、同機構は、Geminiの発表は多モードモデルに対するより多くの期待をもたらし、産業にとって、多モード材料は計算力需要の向上を牽引し、同時に後続のGPT-5などのモデルの発表により多くの触媒をもたらすと考えている。
現在無視できないのは、Open AIの月間ユーザー数が5月から低下し、10月には17億人に回復したことだ。グーグルの検索エンジンBardを比較したユーザー数は2億6000万人。では、Open AIユーザーはグーグルに転向するのだろうか。
この問題について、国内のあるヘッドモデルメーカーは、短期Open AIは依然として優位性があるが、長期的にはグーグルが備える大量のユーザーと製品生態が強大なポテンシャルになると分析している。
OpenAIに比べて、グーグルは大量のPCと携帯電話端末ユーザーを蓄積し、大量のリアルタイムデータを保有している(一方、OpenAIのデータはグーグルを含むインターネットに依存している)。そして、ユーザーの携帯電話統合GPTに地下鉄ナビゲーションなどの提供を通じて大量のユーザー情報を保有している。「Open AIに圧力がかかり、製品生態を補完する必要がある」という人は分析している。