谷歌新技术可用AI模型为无声视频配音

稀土掘金发表于 2024-6-19 10:33:26

188 0 0

　　谷歌DeepMind近日公布了一项利用AI为无声视频生成背景音乐的“video-to-audio”技术。

　　当前DeepMind 这款AI模型依然存在局限性，需要开发者使用提示词为模型预先“介绍”视频可能的声音，暂时不能直接根据视频画面添加具体音效。
　　据悉，该模型首先会将用户输入的视频进行拆解，此后结合用户的用户文字提示，利用扩散模型反复运算，最终以生成与视频画面协调的背景声音，例如输入一条“在黑暗中行走”的无声视频，再添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文字提示，相关模型就能生成恐怖风格的背景音效。
　　DeepMind同时表示，该“video-to-audio”模型可以为任何视频生成无限数量的音轨，还能够通过提示词内容判断生成的音频“正向性”或“反向性”，从而令生成的声音更贴近某些特定场景。

CandyLake.com 系信息发布平台，仅提供信息存储空间服务。
声明：该文观点仅代表作者本人，本文不代表CandyLake.com立场，且不构成建议，请谨慎对待。

谷歌新技术可用AI模型为无声视频配音

比特币“大户”惨遭香橼做空！微策略股价日内暴跌31%

文远知行：旗下自动驾驶环卫车与无人扫路机在新加坡投入运营

斗鱼第三季度实现营收10.63亿元

极氪陈奇：高阶智驾引领出行新潮流