一日で驚いて転覆したのか。グーグル「ふたご座」の大模型の6分間の動画がカットされたことが明らかになった

年初めのバルド初のショー「リターンズ」後、北京時間12月7日、グーグルは大型モデルGemini（中国語名「双子座」）を発表し、目まぐるしいデモ動画を発表した。今回「ふたご座」はGPT-4と対決できるのか？
これらのデモ動画の中で、最も驚くべきことは、4分間のデモ動画の中で、テスターが絵画やマジックなどの操作を行うと、双子座は即時に観点を発表し、テスターとリアルタイムでやり取りし、動画の中の表現だけを見ることができ、双子座の理解力は人間のレベルに達していることだ。
「デモの内容だけを見ると、双子座のビデオ理解能力は現在最もリードしているレベルに達しているに違いない」と北京のある大モデルのアルゴリズムエンジニアは新京報の貝殻財経記者のインタビューに対し、「この能力は双子座が訓練の時に大量のビデオデータを自然に加え、構造的にビデオ理解をサポートしたことに由来する」と述べた。
しかし、リリースからわずか1日後、多くのユーザーがテストで、双子座のビデオ理解力はプレゼンテーションのように「滑らか」ではないことを発見しました。これに対して、グーグルはすぐにデモ動画におけるマルチモーダルインタラクションの過程を説明するブログ記事を発表し、静止画と多段プロンプト語のパッチワークを使用してこそ、このような効果を達成することができることをほぼ認めた。また、グーグルがデモ動画の中で重要な免責声明があることに気づいたネットユーザーもいる。デモ効果のために遅延を減らし、双子座の出力も簡略化された。
それでも、多くの専門家から見れば、グーグルはついにOpenAIと「2つの手を渡る」ことができる大きなモデルを発売し、人工知能の老舗メーカーとしてグーグルの「家柄」が厚く、双子座もGPTの有力なライバルになるだろう。
どこをカットしましたか。デモビデオと実際の差はどのくらいですか。
「グーグルの最新ビッグモデルのビデオを見てみましたか。マルチモードの切り替えは質的変化ですね。特にゲームの地図で遊んでいると、人が反応するとは限らない」12月7日、ウェブサイトの開発に携わった劉さんはシェル財経記者にデモ動画を送った。
多くの業者が興奮しているグーグルの大模型双子座のデモ動画では、試験者が紙を取り出し、双子座はすぐに「紙を出した」と答え、試験者が紙に曲線を描いたり、色を塗ったりするにつれて、双子座はすぐに「すぐにわかる」、「曲線を描いていて、鳥のように見えてアヒルのように見えますが、青いアヒルはあまり見られません。アヒルの多くは茶色で、中国語のアヒルの発音は『yazi』で、中国語には4つのトーンがあります」とテスターの動作に合わせて解説した。ふたご座はそれを見てすぐに「このアヒルは海の真ん中に放り出された。ここにはアヒルはあまりいない」と言いました。
その後、試験員はジェスチャーと双子座の「インタラクティブ」を使い始め、試験員がはさみと布の動作をしたとき、双子座は「石のはさみ布で遊んでいる」と「急いで答えて」、その後、手で真似したタカと犬のイメージを推測した。
しかし、貝殻財経記者はこの動画の中で、石のはさみ布の中など、検査者が拳を出す時の動作が明らかに切り取られているクリップの跡を発見した。これに対し、グーグルはブログで「質疑応答」を行った。双子座の「布出し」の画像をあげると、双子座の答えは「右手を見た。手のひらを5本の指を広げて分ける」、「拳を出す」という画像をあげると、双子座は「一人でドアをノックしている」、「ハサミを出す」という画像をあげると、双子座の答えは「人差し指と中指が差し出した手を見た」というもの。この3枚の画像を一緒にして、「私は何をしていると思う？」と聞くと、双子座は「あなたはハサミで遊んでいる」と答えます。
だから実際には、双子座の答えは真実のままだが、実際の応用はデモ動画のように「滑らか」に表現されていないかもしれない。
出典：グーグルが発表した「双子座」のデモ動画。
マルチモーダル能力はどのように「精製」されているのか。
今回のデモを通じて、多くの業界関係者もグーグルが確かにOpenAIを追いかける過程で一歩を踏み出したことを認めている。実際、ChatGPTが登場するまで、グーグルは人工知能の分野でリードしていたが、「既生瑜何生亮」、ChatGPTの一騎打ちの絶塵はグーグルを圧迫し、今年2月にChatGPTのbardを発売したが、初ショーが「転覆」した後、グーグルは士気を高めるのに十分な優れたモデルが不足していた。
「双子座」が登場した後、グーグルは少なくともマルチモーダル理解の分野で一定の特色を示した。「双子座は原生的な多モード大モデルであり、訓練の際には多モードである。グーグルは検索、長動画、オンラインドキュメントなどもともと強い生態を持っており、またグーグルはグラフィックスが多く、計算力はOpenAIの何倍もあり、今ではOpenAIを追いかけるために“家の底を焼く”ことになっている」。清華大化自動化専門を卒業した大モデル業者はシェル財経記者に語った。
具体的に見ると、双子座モデルには3つのバージョンが含まれています。Gemini Ultra（メガカップ）、規模が最も大きく、能力が最も強いバージョン、Gemini Pro（ビッグカップ）は、幅広いタスクに適用できます。Gemini Nano（ミッドカップ）は、特定のタスクやモバイルデバイスに使用されます。
マルチモーダル能力のほか、双子座はテキスト理解、コード演算など多くの面で俗っぽくなく、MMLUマルチタスク言語理解データセットテストでは、Gemini UltraはGPT-4を超えただけでなく、人間の専門家も超えた。シェル財経記者がグーグルのdeepmind公式サイトに登録したところ、「双子座を目撃する-私たちが最も有能な大きなモデル」という言葉がトップページに掲載されていた。
現在、ユーザーはGoogle bardのポートからGemini Proを体験する能力に入ることができるが、シェル財経記者のテストでは、この能力は一部の地域にしか提供されていないことが分かった。一部の海外ネットユーザーのテストにより、ユーザーは双子座に画像を入力することも、双子座にテキストを入力することもできるが、テスト結果によると、Gemini Proと同じマルチモーダル能力を持つGPT-4 Vは多くの質問の回答に「それぞれ長所がある」と答え、GTP-4 Vに轢かれていない。
「私の観察によると、現在の双子座のテキスト上の能力はGPT 4にやや劣っているが、グーグルの技術力は依然として第一段階に属している」と、上記の大モデルアルゴリズムエンジニアは述べた。
彼は貝殻財経記者に、大モデルに画像ビデオの音声を理解する「マルチモーダル能力」を持たせるには、技術的にLLaVA（マルチモーダル事前訓練モデル）の画像理解モジュールをビデオと音声に拡張したと見ることができ、訓練の際にビデオ、音声データを追加し、「実は、双子座が初めて動画と音声理解を大きなモデルに取り入れ、この2つの大きなモデルでの実現可能性を検証したことを証明しています」
「全体的に、今回のグーグルの大モデルの発表は予想通りで、双子座の各技術点は以前に学術界で検証され、相応の論文を見つけることができた。将来、パーソナルアシスタントは大きな言語モデルよりも、多モードの大モデルは、話すことができ、描くことができる助手を演じることができ、人間のようになる」と、この大モデルアルゴリズムエンジニアはシェル財経記者に語った。
新京報貝殻財経記者の羅亦丹

OpenAI“下一个重大突破” 首个AI助理产品或明年1月发布人机交互变革已至？

哔哩哔哩季度首次实现盈利公司股价为何反跌超13%？

小摩辣评“特朗普2.0”：关税大棒料打击经济、重燃通胀！

在线音乐付费用户达1.19亿腾讯音乐2024年第三季度持续高质量增长

一日で驚いて転覆したのか。グーグル「ふたご座」の大模型の6分間の動画がカットされたことが明らかになった

OpenAI“下一个重大突破” 首个AI助理产品或明年1月发布 人机交互变革已至？

哔哩哔哩季度首次实现盈利 公司股价为何反跌超13%？

小摩辣评“特朗普2.0”：关税大棒料打击经济、重燃通胀！

在线音乐付费用户达1.19亿 腾讯音乐2024年第三季度持续高质量增长

OpenAI“下一个重大突破” 首个AI助理产品或明年1月发布人机交互变革已至？

哔哩哔哩季度首次实现盈利公司股价为何反跌超13%？

在线音乐付费用户达1.19亿腾讯音乐2024年第三季度持续高质量增长