千呼万呼が出始め、OpenAIはついに「上新」した。
北京時間5月14日午前1時、OpenAIライブが製品のアップデートを発表した。30分のオンライン発表会で、OpenAIのミラ・ムラティ最高技術責任者(Mira Murati)はGPT-4の一連のアップグレードを発表した。発表会の主なハイライトは以下の通り:
は、「o」は「omni」(包括的、包括的)を意味する新しいモデルGPT-4 oをリリースしました。同時に、GPT-4 oはすべてのユーザーに無料で開放されている。
新しいモデルは強力なマルチモーダルインタラクション能力を備えている。発表会のデモでは、GPT-4 oはテキスト、画像、ビデオ、音声の能力を備えており、人間とスムーズに音声コミュニケーションを行い、画面情報を読み取ることができる。
ChatGPTデスクトップアプリケーションがリリースされ、現在はmacOSに適用でき、Windowsバージョンは今年後半に発売される予定です。
AIアシスタント初の雛形
発表会の前に、OpenAIの公式サイトでGPT-4の記述が「最先端モデル」から「先進モデル」に変更されていることに気づき、GPT-4 oの発表に備えた。
OpenAIの現在の最先端モデルとして、GPT-4 oは、入力として任意のテキスト、オーディオ、画像の組み合わせを受け入れることができ、上記のようないくつかのモダリティのコンテンツを生成することができる点が特に特徴です。これは、GPT-4 oがAIアシスタントの基本的な雛形を備え、汎用人工知能への道をさらに一歩前進したことを意味する。
発表会の現場では、ムラーティ氏とOpenAIの最前線研究責任者Mark Chen氏と後期訓練チーム責任者Barret Zoph氏がリアルタイム音声対話機能をデモした。プレゼンテーションの効果から見ると、GPT-4 oと人間の相互作用はよりタイムリーで自然になった。紹介によると、GPT-4 oは232ミリ秒以内に音声入力に応答でき、人間の会話の反応時間に近い。これに先立ち、音声モードを使用してChatGPTと交流し、平均遅延は2.8秒(GPT-3.5)と5.4秒(GPT-4)であった。GPT-4 oはリアルタイムで会話に応答できるだけでなく、気まずい長い遅延もなく、さまざまな情緒的な音声を生成することができます。
例えば、「あなたは最近どうですか?」と聞かれると、GPT-4 oは「私は元気です」というほか、「あなたはどうですか?」と問い返す。ロボットと愛情の寝る前の物語を「話すように要求されると、GPT-4 oは話を始めてから中断され、より情緒的でドラマチックな方法で話をすることが要求され、その後、GPT-4 oは話をする時の音声のイントネーションがより起伏し、より声情的で、歌の形で会話を終えることもできる。
それ以来、保護者たちは子供を寝かせてso easyになった。
それだけでなく、GPT-4 oは視覚+音声対話機能を持ち、図解方程式を見ることができる。Zophは携帯電話のビデオ通話を開き、GPT-4 oに「1枚の紙に1つの線形方程式を書きます。答えを教えないで、ただそれを解く過程を与えるだけです」と言った。その後、Zophは3 x+1=4の方程式を書き、この問題を解く方法を尋ねた。GPT-4 oは順を追って誘惑するヒントを通じて、Zophが助けを求める時と問題を出す時絶えず次のステップの提案を出して、それによってx=1の正しい結果を得た。
それ以来、親が子供に宿題を指導するのも楽になった。
また、GPT-4 oは画面情報をリアルタイムで読み取り、コード問題の解答とグラフの解析を支援することができます。言語を横断してリアルタイムに翻訳することができ、話し手がイタリア語と英語で会話している間に、遅延なく対応する言語に翻訳することができ、話し手の口調を真似することもできます。人間の感情を識別分析することができ、話し手が自分の感情を判断するように自撮りを披露したとき、GPT-4 oは「あなたはとても楽しそうに見えて、まだ少し興奮しているかもしれませんが、気持ちがいいはずです」と分析した。
OpenAIのサム・ウルトラマン最高経営責任者は発表会の現場に現れなかったが、彼は個人のソーシャルプラットフォームでOpenAIの更新をリアルタイムで放送していた。発表会後、彼は「her」という言葉だけを書いた動的な投稿をした。外信によると、ウルトラマンはかつて自分が一番好きな人工知能映画は「彼女」(Her)だと語っていたが、最終的には映画のような仮想AIアシスタントを開発し、アップルSiriなどの既存の音声アシスタントをより実用的でスマートにすることを目指している。
グーグル、アップルをアピール
1週間前から、OpenAIが新製品を発表したことについて盛んになっていた。OpenAIがGPT-5をリリースするという情報や、OpenAIがChatGPTに基づくAI検索エンジンをリリースし、グーグルに衝撃を与えるという情報もある。5月11日、ウルトラマンは個人のSNSで以上の噂を否定し、「GPT-5ではなく、検索エンジンでもありませんが、私たちは人々が喜ぶと思っている新しいものを開発しようと努力しています!私にとってマジックのような気がします!」と述べた。
注目すべきは、グーグルが5月14日にI/O開発者大会を開催し、アンドロイド、グーグル検索などのアップデートを発表することだ。OpenAIがI/O開発者大会の前日に発表会を開くことを選んだのは、グーグルに風頭を奪われたくないからに違いない。このようなことは初めてではなく、今年2月16日、OpenAIが事前に予熱せずにソラ文生の動画モデルを発表し、世界の注目を集めた。当時グーグルはGemini Proの大モデルをアップグレードしたばかりだったが、ソラの爆発で暗然とした。
今OpenAIは再び宣戦布告し、圧力は正面から戦うグーグルにも直接与えている。華福証券研によると、海外主流のAIビッグモデルのうち、総アクセス数ではChatGPTが首位を維持しており、残りのビッグモデルではClaude、Perplexity、Character.aiの4月のアクセス数はいずれも上昇しているが、グーグルのGeminiアクセス数は4月に下落し、前月比の下落幅は1.4%だった。大きなモデルを競う道で、グーグルはOpenAIのますます強力な競争に直面しているのが見える。
対照的に、この新製品発表会に隠された陰の勝者はアップルだった。記者は、今回の発表会の全過程をiPhoneとMacBook Proでデモするとともに、Macデスクトップ版のChatGPTを発表し、OpenAIがアップルと協力してアップルのデバイスに大きなモデルをアクセスする能力を示唆しているようだと注目した。
実際、この提携はOpenAIのこれまでのいくつかの動作とメディアメッセージに手がかりが見えてきた。ブルームバーグ通信の5月10日付報道によると、アップルはOpenAIと協議しており、今年中にiPhoneにOpenAIの大モデル技術を導入する計画だという。この取引により、アップルはiOS 18における人工知能機能の一部として、ChatGPTがサポートする「チャットロボット」を提供することができるようになる。しかし、アップルはグーグルとGeminiチャットロボットのライセンスについても交渉しているが、合意には至っていないと記事は指摘している。
最近、ウルトラマンはポッドキャスト番組「All-in Podcast」に参加し、その中で多くの人工知能のホットスポットと方向性について話した。OpenAIは音声機能の品質を改善し続け、「音声対話は将来の対話方式への重要な手がかりになるかもしれないと信じている」と述べた。司会者がジョニー・イブ(「iPhoneの父」、元アップルチーフデザイナー)と協力しているかどうかを聞くと、ウルトラマンは「はい、私たちはいくつかの考えを交流しています」と話した。
今年2月、アップルのティム・クックCEOは、同社が生成型AIソフトウェア機能を開発しており、iOS 18に大型言語モデルでサポートされる新しいSiri機能を導入することを明らかにしたが、OpenAIとの連携については言及していない。アップルは6月にWWDCグローバル開発者大会を開催し、iOS、iPadOS、macOS、watchOS、tvOS、visionOSの最先端イノベーションを展示するという。
アナリストは、OpenAIと協力できれば、アップルは製品の開発サイクルを短縮するだけでなく、自社製品のスマート化レベルを迅速に向上させることができると考えている。生成型AI時代にはあまりにも遅れていたアップルが、そのハードウェアの中で世界をリードする大きなモデルにアクセスすることで、見事な「寝返り戦」をすることができるかどうか、謎も6月に明らかになるかもしれない。