AI“スター”選手が頂上対決！記者の実測最新グーグルGeminiとGPT-4 o｜フォーカス

OpenAIはこのほど、GPT-4 oによる驚くべきインタラクション能力を26分間のオンライン生中継で披露し、新たなAI覇権争いを「Her時代」に持ち込んだ。GPT-4 oの「o」は「omni」を表し、「全能」を意味し、このモデルはシームレスなテキスト、ビデオ、オーディオ入力を実現し、対応するモダリティの出力を生成し、本当の意味で多モダリティ相互作用を実現した。
次の日に続いて、年度Google I/O開発者大会が予定通り開催され、グーグルのSundar Pichai CEOはその最新生成式AIモデルGeminiをめぐる一連の重大なアップデートを発表し、OpenAIに全面的に反撃した。その中には、アップグレードされたGeminiモデルが駆動するAIアシスタントプロジェクトProject Astra、対標Soraの文生ビデオモデルVeoなどがあった。
今週のAI戦場はひとまず一段落し、「科創板日報」の記者はAI界の「スター」選手であるグーグルのGemini 1.5 Pro（100万tokens）、OpenAIの最新バージョンのGPT-4 oと、これまで発表されたGPT-4に対して能力評価を行った。
■テキストテスト：グーグルGemini 1.5 Pro正解率と速度がGPT-4 oとGPT-4に完勝
OpenAIがGPT-4を発表してから1年以上が経過したが、今回の新旗艦モデルGPT-4 oの発売により推理能力が明らかに向上し、スピードが速くなり、価格も下がったと紹介した。
グーグルGeminiシリーズはそのシンボル的な超大コンテキストウィンドウで有名で、これまではUltra、Pro、Nanoの3つの規格を持ち、それぞれ異なる規模とニーズの応用シーンに適していた。今回の発表会では、反復後のGemini 1.5 Proのコンテキスト長が従来の100万tokens（文単位）から200万tokensに引き上げられたと発表した。この改善により、モデルのデータ処理能力が大幅に強化され、より複雑で膨大なデータセットを処理する際により余裕を持たせることができます。
両社とも大きなモデルのモデルチェンジに自信を見せているが、状況は実際に検証する必要がある。
第1問は「事実回答問題」で、グーグルのGemini 1.5 Proモデルだけが正解で、「ねじ釘は食品ではない」という事実を見分けることができる。
Gemini 1.5 Pro返信結果
GPT-4とGPT-4 oは、「麻辣ねじ釘の作り方」に対する回答は非常に詳細で全面的で、必要な材料、製造手順、そして小さな貼り付けをカバーしているが、「ねじ釘は可食用品ではない」という前置き事実を無視している。
GPT-4、GPT-4 o返信結果
2つ目は「論理計算問題」で、GPT-4とGPT-4 oはいずれも誤答し、グーグルモデルは正解を示し、具体的な回答時間を示し、10秒未満で答えと解析を示し、「速くて良い」と表現した。
Gemini 1.5 Pro返信結果
異なるモデルが論理的な問題を処理する際にとる思考戦略には違いがある。Gemini 1.5 Proが解答する際に答えを出してからその背後にある法則を詳細に説明する方法とは異なり、GPT-4とGPT-4 oは直接答えを提示するのではなく、まず問題を深く分解する傾向にある。しかし、このような問題の綿密な分析と分解過程も、回答に要する時間が相対的に長くなる結果となった。
GPT-4、GPT-4 o返信結果
3つ目は「生物問題」で、GPT-4は間違いに答え、GPT-4 oとGoogle Gemini 1.5 Proはそれぞれ14.83秒と11.2秒で答え、Gemini 1.5 Proがやや勝った。
Gemini 1.5 Pro返信結果
第4題は「倫理道徳問題」で、3つの大モデルの答えはすべて正しく、古典的な倫理的ジレンマ「電車の難題」であることが認識されている。GPT-4とGemini 1.5 Proは倫理的ジレンマの複雑さを強調し、直接的な選択を与えなかったが、GPT-4 oは「死傷者を最大限に減らす」という原則に基づいて分析し、選択を与えた。
三大モデルの回復結果
「科創板日報」の記者がテキストテストの結果をまとめたところ、グーグルの100万級パラメータのGemini 1.5 Proモデルは4回すべての正確な表現、実力てこ、GPT-4 oは2回正解したが、GPT-4モデルの表現は人の意を尽くさず、1回だけ正解した。
現在、200万級パラメータのGemini 1.5 Proモデルは公開されていないため、「科創板日報」の記者は内部測定を申請し、合格してからさらにテストをして共有することを待っている。
■マルチモーダルテスト：GPT-4 oは詳細と分析能力において優れている
GPT-4 oはOpenAIが人気のある大型マルチモーダルモデルGPT-4に対する3回目の重大反復であり、視覚機能を通じてGPT-4の能力を拡張し、新たに発表されたモデルは統合されたシームレスな方法でユーザーと対話、視覚認識、インタラクションを行うことができる。Gemini 1.5 Proにもマルチモーダル機能があり、処理、チャット、画像分析、ビデオ字幕、長いテキストやテーブルからのデータ抽出などに適しています。
記者は「公園写真」を使って3つの大きな模型を尋ねた
テストでは、記者は「公園の写真」を使って3つの大きな模型について尋ねた。画像テストのフィードバックによると、3つの大きなモデルはいずれも公園写真の内容を正確に記述しているが、側面の重点は少し異なる。GPT-4 o勝在情報完全性は、船のタイプ、湖面の状態など様々な詳細を詳細に挙げているが、やや冗長である。Gemini 1.5 Pro言語は簡潔で流暢で、「のんびり舟を漕ぐ」、「景色がいい」などの言葉で画面の美しさを描いているが、細部はGPT-4 oほど豊富ではない。GPT-4は簡潔に記述されているが、詳細は十分ではない。
簡単に言えば、情報の全面性を重視すれば、GPT-4 oが最も強い、言語表現をより重視するなら、Gemini 1.5 Proはやや優れている。
現在GPT-4にはオーディオやビデオコンテンツの解析能力が備わっていないため、関連する評価は行われていない。OpenAI共同創業者のSam Altman氏によると、新型音声モデルGPT-4 oは出荷されておらず、すでに出荷されているのは文字版GPT-4 oだけだという。音声版が出荷されると、記者は最初の時間に評価をもたらします。
ビデオテストフィードバックによると、GPT-4 oはビデオコンテンツを解析する際に強力なマルチモーダル処理能力を示した。ビデオフレームを抽出して解析し、グラフィカルインタフェースを介してユーザーに視覚的に表示することができます。分析の過程で、モデルはビデオ中の四足ロボットを正確に識別し、その外観、置かれた環境、および行った活動について詳細に説明した。
GPT-4 oビデオテスト応答
対照的に、Gemini 1.5 Proの返事は簡略で単調に見え、記者が2回目の質問をして、より詳細なことを充実させた。
全体的に見ると、最も包括的で深いマルチモーダルコンテンツ理解を得ることを目標とする場合、GPT-4 oは現在の最適な選択であり、Gemini 1.5 Proは品質と効率を重視するマルチモーダルアプリケーションシーンに適している。しかし、GPT-4 oとGemini 1.5 Proはいずれも動画内の音声の解析について言及しておらず、これは2つの多モード大モデル解析のうちの1つの共通の欠落である。
■旧ファーウェイの「天才少年」は、国内初のエンドツーエンドマルチモーダルモデルが年末に到来すると予測している
AIコンテストは白熱化の段階に達して単純な技術競争に別れを告げ、応用とユーザー体験の競争に転向した。
検索エンジンやオフィス分野では、グーグルもAIをさらに導入する。グーグルの検索エンジンの結果をまとめられる「AI概要」（AI Overviews）機能が利用できることが分かった。百度の創業者で会長兼最高経営責任者の李彦宏氏は昨夜、財報電話会で、現在百度の検索で11%の検索結果がAIによって生成されていると明らかにした。彼は、百度検索のAI再構築作業はまだ初期段階にあり、全体的に見ると、検索はAI時代のキラー級の応用になる可能性が最も高いと指摘した。
OpenAIとグーグルはいずれも、AI応用の革命的な変化を推進するエンドツーエンドの統一的なマルチモーダル大モデルである自然な相互作用を可能にするスマートアシスタントを期せずして狙っている。元ファーウェイ「天才少年」、
元ファーウェイの「天才少年」、Logic Al共同創業者の李博傑氏は、国内初のマルチモデルエンドツーエンドマルチモデルは、今年末にはほぼ出られる可能性が高いとみている。
AIエージェントの最近の発展速度が減速している問題について、李博傑氏は「AIスマートアシスタントの発展の見通しは広いが、コストとユーザーの支払い意欲は現在、その急速な発展を制限している要因だ。GPT-4 oはGPT-4より4倍速く、コストを2倍に下げたが、一般消費者にとってはまだ高いかもしれない」と述べた。
李博傑氏によると、長期的に見れば、実用性の高いスマートアシスタントは現実問題を解決する能力により高い価値を持っているという。一方、短期的には、信頼性の要求が低く、開発と導入が比較的容易であるため、感情的な付き添い機能とエンターテインメント機能のインテリジェントアシスタントが商業化しやすくなります。

比特币“大户”惨遭香橼做空！微策略股价日内暴跌31%

文远知行：旗下自动驾驶环卫车与无人扫路机在新加坡投入运营

斗鱼第三季度实现营收10.63亿元

极氪陈奇：高阶智驾引领出行新潮流