国内開発者はグーグルのGeminiを見る：「偽造」論争に陥っているが、OpenAIを超える道を見つけた

グーグルが独自の最強モデルGeminiを発売してから1週間近くが経ち、多くの国内AI会社がこの大型モデルがどれだけ威力を持っているのかを探究しようとしている。
これまで業界で発売されてきた多くの大モデルとは異なり、グーグルのGeminiは今回、文字のコーナーを回避し、視覚と音声で世界を理解しているが、デモの実演には偽造や誇張能力が疑われていた。
Geminiのデモ動画は、Geminiがリアルタイムで動画情報を読み取ることができると多くのユーザーに誤解させ、さらに理解を通じてユーザーの質問に答えるようにさせたが、実際には、グーグル社員は提示語を通じてGeminiにこれらの返信を生成させた。ソース：Google
Geminiの出現がOpenAIや他のAI会社にどのような影響を与えるかを知るために、インタフェースニュースはこのほど、Geminiの最大の特色は「ネイティブ」のマルチモーダルモデルだと考えている複数のヘッドジェネレーションAI会社の業務責任者や開発者を訪問した。
「理論的には、原生多モードは『スプライン』多モード大モデルよりも効果が高い。後者は訓練段階でボトルネックに遭遇しやすいからだ」と、循環知能のAI責任者である陳虞君氏はインタフェース新聞記者に語った。まだ深く使用したことがないため、Geminiの実際の利点はさらに理解する必要がある。
複数の大モデルの草創開発者によると、Geminiシリーズ最大サイズのUltraが正式に発売されていなくても、Geminiはテキスト面でGPT-4と同レベルの能力を示しているという。
Googleが公式にリリースしたベンチマークテストセットでは、Gemini UltraはほとんどのテキストテストでGPT-4よりも優れており、ほとんどのマルチモーダルタスクテストでGPT-4 vよりも優れています。GPT-4の試験条件を基準にすると、MMLU上でのGemini UltraのパフォーマンスはGPT-4よりも弱いが、他の主流大モデルよりも優れている。図源：Gemini Technical Report中信建投研報
Geminiのデモ動画では、この大きなモデルは人間の行動をリアルタイムで観察し、フィードバックを与えることができるように見えます。例えば、アヒルがスケッチから塗りつぶされるまでの過程を完璧に記述することができます。コップ交換ゲームで紙塊を追跡し、数学、物理の問題解決を支援することができます。ジェスチャーを判別したり、教室の手遊びのインタラクティブをしたり、惑星のスケッチを並べ替えることができます。　　
開発者たちは、偽造成分の幾何学にかかわらず、Geminiはすでに強い理解、推理、創作とリアルタイムの相互作用能力を示し、OpenAIマルチモーダルモデルGPT-4 vの全面的な超越を実現したと考えている。グーグルの対応もほぼ業界に受け入れられており、「すべてのユーザーのヒントと出力は真実であり、簡潔のために短縮されただけだ」としている。
3ヶ月前にOpenAIが低調に発表したGPT-4 vは、理解や画像生成などの多モードタスクを行うことができたが、効果はあまりよくなく、他のモデルと協力して完成することが重要な推論能力だった。抽象推論能力自体は、大きなモデルの最も重要な能力である。
図源：中信建投
尹伯昊氏はインタフェースニュースに対し、GPT-4 vとGeminiは2つの全く異なる訓練ロジックに基づいていると説明し、「GPT-4 vは近視眼で、物がはっきり見えないため、性能も悪く、典型的な外掛け式の方案だ。Geminiは複数のモダリティを混ぜて訓練する」と述べた。
しかし、マルチモーダルモデル企業のアルゴリズム責任者によると、GeminiはまだGPT-4を全面的に超えていないはずで、「評価時、GPT-4とGeminiはテキスト生成上で完全に公平な対比を形成していなかった」という。
また、Gemini Proは物を探す能力と正確な図を探す能力で簡単にGPT-4に勝ったというネットユーザーの実測も少なくない。この状況について、追一科技の劉雲峰氏は、グーグルの検索業務には文字とその他のモダリティ整列のデータが天然にあり、原生多モダリティ大モデルの訓練に有利であると考えている。
Geminiは学生の手書きの答えを正確に識別し、物理問題の推理過程を検証することができ、図源：Gemini Technical Report
グーグルは人工知能分野のいかなる大きな動きでも市場の新興探索方向をロック解除するが、Geminiが発表される前にAIモデルの全面的な多モーダル化の傾向が明らかになってきた。
3月のGPT-4リリース当初から、OpenAIはこの反復にマルチモーダル統合を加えることを表明していた。9月から、ランウェイ、Midjourney、Adobe、Stability AIなどのスター企業が続々とマルチモーダル製品を世に送り出している。
国内では、百度の文心大模型4.0がモーダル文生図分野にまたがって明らかに進展し、国内で公開融資が最も高い大模型は智譜AIを創始し、その生成式AIアシスタントの智譜清言は視覚分野で非常に優勢である。
複数の開発者は、マルチモーダルモデルは業界内で公認されている明確な発展方向であり、グーグルの大きな動きによって「ぱっと悟る」ことはないが、Geminiの到来は国内企業の研究開発の加速を刺激すると界面ニュースに語っている。前述のマルチモーダルモデル企業アルゴリズム責任者もGeminiの限界を指摘し、「画像生成における能力及びビデオ生成、画像生成における参照意義は限られている」と述べた。
今のところ、GeminiがGPT-4を全面的に超えるという結論は出にくいが、グーグルがOpenAIの最強のライバルになるのは間違いない事実だ。また、Geminiを用いて、真の多モードAIを実現するためには、どの多モード大モデルも大言語モデルの訓練過程に依存しなければならないことを証明した。

耐克上季度营收下滑10%：净利降近三成，中国区销售额降4%

“蔚小理”9月成绩单出炉！小米SU7连续4个月破万，雷军：交付周期已排到明年2月以后

纳斯达克金龙指数涨近5% 哔哩哔哩涨超10%

波音737飞机再曝安全问题！美国：超40家外国航司正使用！波音上半年仅获156架订单，今年股价已跌超40%