Pika融資、快手上線可霊アップルのAI製品はなぜ「冷かまどを焼く」のか。

アップル（AAPL.US）WWDC開発者大会でApple IntelligenceというAI製品が発売されたが、同日の株価終値は1.91%下落した。興味深いことに、6月11日のWindデータのソラ指数（8841756.WI）は1.55%上昇した。
なぜこのような違いがあるのでしょうか。
アップルは現在のブームを避けるビデオ大モデルを選び、発売されたAI関連アップデートは文字分野に重点を置いているが、国内の概念株の上昇幅は最近の文生ビデオ大モデルブームと密接に関連している。海外ではスターAIビデオ生成会社のPikaが新たな融資を完了し、総額8000万ドルのBラウンド融資を完了すると、会社の推定値は4億7000万ドルを超える。国内では快手（1024.HK）のような「可霊」動画生成大モデルが正式にオンライン化され、Soraと似た技術路線が採用されている。
複数の業界関係者から見ると、アップルはビデオ分野の統合ではなくAI文字に焦点を当てており、コストや実用性などの面で考慮していることが多い。
アップルはソラの「戦局」を避ける
アップルが発売した大言語内蔵モデルは、iPhone、iPad、Macを理解して言語と画像を生成することができる。SiriはChatGPTにアクセスすることで、意味検索機能を持ち、写真、カレンダー、ファイル、メールなどのコンテンツをインテリジェントに検索することができ、またほとんどのChatGPTを使用する機能を登録免除することができる。
天風国際証券アナリストの郭明錤氏は、アップルが新たに発表したApple Intelligenceスイートは生態統合とインタフェース設計の優位性を示し、ユーザーには実用的だが、投資家には花を添えるだけで、後者はオリジナルで使わなければならない機能を見ることを期待していると簡評した。
壁面知能首席研究員の韓旭氏は記者団に対し、アップルはオペレーティングシステムへのアクセスの観点から、主にAIを必要として人の意図を理解し、システムレベルのインタフェースを呼び出す必要があり、これらの需要はソラの出発点と完全に一致していないが、多モード入力テキスト出力の大モデルと比較的一致していると述べた。Soraのような画像やビデオを生成するモデルは、現在ではソフトウェア、特に視覚処理ソフトウェアと結合したほうが適切です。
なぜアップルはソラの「戦局」に加わらなかったのか。
あるAIGCビデオアプリケーションメーカーの関係者は記者に対し、製品の考え方と経営の観点から言えば、アップルは相対的に成熟しており、可視性よりも優れた分野に投入されるだけだと述べた。携帯電話のハードウェア相互作用の面では、文字の使用シーンが多く、研究開発への投入から実際の推理コストの面では、アップルの現在の技術蓄積にとっても相対的に性価格比が高い。
別の業界技術者によると、今日のLLMサービス（大規模言語モデルサービス）は文字分野で基本的に保本を実現しており、文生図分野は必ずしもそうではなく、文生ビデオ分野は必ず赤字になるという。これも今回のアップルWWDC大会がしばらくビデオAIGCの能力を統合していない重要な原因である。
アップルの動きに対し、国内の大モデルコースは現在、ビデオ分野に大きな期待を寄せている。今年4月、清華大学人工知能研究院の副院長、生数科学技術連合創始者で首席科学者の朱軍教授は清華大学と生数科学技術を代表して、中国初のビデオ大模型Viduを発表した。
記者はソラ代表の動画文案をヒントワードとして、快手の「可霊」を入力し、生成動画の対比を行い、「東京ストリートガールウォーク」を例に挙げた。当時ソラ動画には女性が歩く過程で足が変形し、足が交差して転位する際に錯乱し、右足が2回連続で前方を歩くなどの誤りがあった。快手の「可霊」にも同様の問題がある。
天風証券は、快手3 D VAE+DiTアーキテクチャの計算力、モデル、データ品質の向上はすでに商用を実現できる結果を示しており、同時に時間長、比例のカスタマイズは生成素材の可用性を大幅に強化していると考えている。いくつかの複雑な意味理解ではSoraに劣るが、やや簡単なシーンでは差は大きくない。
マルチモーダルによる中国大モデルのサーキット機会
優れたビデオ生成モデルには、モデル設計、データ保障、計算効率、モデル能力の拡張という4つのコア要素を考慮する必要があります。
Soraの存在する未熟な点について、OpenAIは、Soraは複雑なシーンの物理原理を正確にシミュレーションすることが困難である可能性があり、因果関係を理解できない可能性があり、提示された空間の詳細を混同する可能性があり、特定のカメラの軌跡に従うなど、時間の経過とともに発生したイベントを正確に記述することが困難である可能性があると述べていた。
しかし、これはもっと普遍的な問題のようだ。愛詩科学技術の創始者である王長虎氏はこれまで、現在のビデオ大モデルはビデオデータから直接物理知識を学習しているが、実際のビデオには多くの情報が含まれており、それぞれの物理法則を正確に学習するのは難しいと述べてきた。モデルに視覚画面を入力すると同時に、人手、動物のしっぽなどの3 Dモデリング情報を制約として単独で加えることで、大モデル学習を支援し、効果を最適化することができる。
可霊大モデルは原生文生ビデオ技術路線を採用し、画像生成+タイミングモジュールの組み合わせを代替した。現在、暗黙空間符号化/復号化において、主流のビデオ生成モデルは通常Stable Diffusionの2 DVAEを用いて空間圧縮を行うが、これはビデオにとって明らかな情報冗長性が存在する。そこで、快手大モデルチームは3 D VAEネットワークを自己研究し、訓練性能と効果のバランスを探ろうとした。また、タイミング情報モデリングにおいて、快手大モデルチームは、時空モデリングモジュールとして全注意メカニズム（3 D Attention）を設計した。
生数科学技術の唐家渝CEOは、多モード大モデルの研究はまだ初期段階にあり、技術の成熟度はまだ高くないと述べた。これはホットな言語モデルとは異なり、海外では一時代をリードしている。そのため、唐家渝は言語モデルで「巻く」よりも、多モードが国内チームが大モデルコースを占有する重要な機会だと考えている。この点は啓明創投パートナーの周志峰氏と同じ点があり、現在の大モデルは従来の純言語モデルから多モードの探索に向かっていると考えている。
北京智源人工知能研究院の林詠華副院長兼総技師は第一財経記者に対し、中国が多モード分野でカーブして追い越す可能性はあるが、多モードモデルの成功要素は依然として計算力、アルゴリズム、データであると述べた。現在のアルゴリズムの面では、中米チームの間の違いはそれほど大きくなく、業界にも計算力問題を解決する方法があるが、大量の高品質データを取得するには、依然として難しい。

比特币“大户”惨遭香橼做空！微策略股价日内暴跌31%

文远知行：旗下自动驾驶环卫车与无人扫路机在新加坡投入运营

斗鱼第三季度实现营收10.63亿元

极氪陈奇：高阶智驾引领出行新潮流