首页 报纸 正文

グーグル「Her」フライング着地OpenAI音声AIは「ホールドオン」のまま

SOGO
198 0 0

北京時間8月14日未明、グーグルは「Made by Google」大会でスマート音声アシスタントのGemini Liveを正式に発表した。この機能はOpenAIのGPT-4 o音声モードに直接挑戦し、人工知能のインタラクションがより自然で汎用的でユーザーフレンドリーな方向にまた一歩前進したことを示している。
グーグルによると、ユーザーは従来の入出力設定ではなく、Gemini Liveと自由で滑らかな会話ができる。
会話中に、ユーザーは詳細を問い合わせるために中断したり、しばらく中断してから続行したりすることができます。
会話をより自然にするために、Googleはユーザーが選択できるように10種類の音声を提供しています。グーグルは、「ポケットにパートナーがいるように、新しいアイデアを話したり、重要な会話を練習したりすることができます」と話しています。
Open AIがこれまでに発表したGPT-4 oの高度な音声モデルは、ユーザーが会話中に中断し、ユーザーの感情の変動を感知し、応答することもできるようにしている。音声設定では、Open AIは4種類の音声を提供し、いずれもプロの声優と協力して制作している。
また、グーグルはGemini Liveを他のアプリケーションやツールに接続している。グーグルは、Keep、Tasks、Utilities、Calendar、YouTube Musicなどの拡張機能を今後数週間で提供すると発表した。
グーグルはこれらの機能の具体的な応用シーンを説明した。例えば、ユーザーはGemini Liveに特定のレシピを見つけさせ、Keepショッピングリストに食材を追加し、「90年代末を思い出させる」歌のリストをカスタマイズすることができるディナーを開催する必要があります。例えばコンサートのポスターの写真を1枚撮るだけで、Gemini Liveは当日空いているかどうかを答え、チケットを買うようにユーザーに注意することができます。
しかし、「Made by Google」大会でGemini Live機能を実演したところ、ちょっとしたエピソードが登場した。グーグルの幹部Dave Citron氏は、Gemini Liveのスケジュールにイベントがあるかどうかを尋ね、2回続けてGemini Liveを試みたが応答せず、3回目にデバイスを交換してからプレゼンテーションに成功した。
グーグルは現在、Android携帯電話のGeminiプレミアム購読者に英語版を提供しており、今後数週間以内にiOSに拡張しながら、より多くの言語モデルを提供する。グーグルが発表した最新のPixel 9シリーズの携帯電話にもGemini Live機能が搭載されている。
業界関係者は、Gemini Liveのリリースは人工知能のインタラクション発展の重要なマイルストーンだと考えている。音声中断と選択機能を導入することで、グーグルはOpenAIと競争するだけでなく、人間とのインタラクションを推進する方法でもある。これにより、人工知能チャットロボット市場の競争構造を変え、他社により多くの自然、実用、魅力的な人工知能の助力を創出させることができる。
同時に、ヒューマン・インタラクションの革新的な発展も新たな問題と挑戦をもたらした。たとえば、人工知能はコンテキストの統一性と相関性を維持しながらトピックの変化を迅速に処理するにはどうすればよいのでしょうか。重要な手がかりを失わずに干渉情報を処理する方法さらに重要なのは、人工知能が深く発展するにつれて、現実生活との境界はどこにあるのだろうか。
OpenAIが3カ月前から公開紹介してきたGPT-4 oは、まだ完全に着地していない。8月9日、OpenAIはセキュリティに関するブログ記事を発表し、GPT-4 oを開発する際に同社が行ったセキュリティへの取り組みを詳細に紹介し、これらの技術が社会にもたらす可能性のあるリスクを検討した。
OpenAIはこの報告書で、人工知能の類人社交モデルによるリスクを指摘している。OpenAIは、ユーザーが人工知能と社交関係を構築し、人間の相互作用に対する需要を減らす可能性があると考えている。これは孤独な個体に有利ですが、健康な人間関係に影響を与えます。
OpenAIによると、GPT-4 oの初期テスト時には、ユーザーとモデルのインタラクティブな言語に微妙な変化が現れ始めていることが観察された。例えば、「これは私たちが一緒にいる最後の日だ」など、無害に見える表現の背後にはより大きな問題が隠されている可能性がある。
また、OpenAIは、GPT-4 oが意図せずにユーザーの声を模倣した出力を生成することがあると述べ、AI音声エンジンが詐欺に使われる可能性があることを意味している。
これらのセキュリティ問題は、OpenAIがGPT-4 oの着地リズムを制御する原因の1つでもある。グーグルのGemini Liveが同様のセキュリティ上の危険性を解決したかどうかについては、明らかにしていない。
安全に関連するすべての隠れた危険性は、私たちが認識できることも、「パンドラの箱」に付属するより多くの可能性も、人工知能事業が「技術の進歩は人間に奉仕するため」であることを保証するためにさらに解決しなければならない問題である。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

  • 【哔哩哔哩季度首次实现盈利 公司股价为何反跌超13%?】今日哔哩哔哩-W(09626.HK)公布三季业绩,季度首次实现盈利。股价却出现大跌,盘中一度跌超13%。截至发稿,跌10.59%,报145.20港元。 ...
    7p狼
    前天 12:52
    支持
    反对
    回复
    收藏
  •   【大河财立方记者陈薇】双11收官之后,11月15日,阿里巴巴集团发布2025财年第二季度(截至2024年9月30日季度)财报,本季度公司收入2365.03亿元,同比增长5%,净利润435.47亿元,同比增长63%。   虽然增长只 ...
    sn222663
    昨天 13:14
    支持
    反对
    回复
    收藏
  • 阿里巴巴公告,第二财季云智能集团收入为人民币296.10亿元(42.19亿美元),同比增长7%。
    sn222663
    昨天 12:56
    支持
    反对
    回复
    收藏
  •   达拉斯消息:美国西南航空一架客机当地时间15日晚在得克萨斯州达拉斯市拉夫菲尔德机场停机坪上被子弹击中,幸无人受伤。   路透社援引西南航空公司发言人的话称,涉事的是该公司航班号为2494的客机,一颗子弹 ...
    sherlock1985
    昨天 20:17
    支持
    反对
    回复
    收藏
SOGO 注册会员
  • 粉丝

    0

  • 关注

    0

  • 主题

    37