首页 美股新闻 正文

全面叫板OpenAI!谷歌发布多模态大模型全家桶:从AI助手到文生视频模型

飘渺九月
138 0 0
  被OpenAI抢先一天后,科技巨头谷歌不甘示弱,推出了自己的最新多模态AI(人工智能)产品。

  当地时间5月14日,在谷歌I/O开发者大会上的主题演讲中,谷歌展示了由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo,以及在硬件方面发布的第六代Tensor处理器单元(TPU)Trillium芯片。根据发布会最后的官方统计,完全聚焦于AI的这场主题演讲总共提到了121次AI。
  谷歌CEO桑达尔·皮查伊(Sundar Pichai)表示,谷歌的所有工作都在围绕生成式AI模型Gemini展开,“我们希望每个人都能从Gemini所做的事情中受益”。
  14日当天,谷歌(Nasdaq:GOOGL)股价收于每股171.93美元,涨0.6%,总市值2.12万亿美元。
  AI搜索支持视频输入,Gemini、Gemma上新
  作为搜索引擎巨头,AI搜索正是谷歌所做工作中的一部分。
  据介绍,在最新Gemini的加持下,谷歌搜索将具备多步骤推理能力,可以一次性处理带有多个限制条件的长问题、帮助用户进行头脑风暴,并支持视频搜索,让用户通过拍摄视频来搜索解决方案。这些功能将先在美国推出,谷歌预计会在今年年底前将其带给超过10亿人。
  谷歌的Gemini以超长的上下文窗口而出名。在大会上,谷歌重点强调了大模型Gemini 1.5 Pro的多模态和长文本能力,为其推出一系列更新。谷歌将向全球150多个国家地区的Gemini Advanced订阅者提供最新模型、拥有100万个token的Gemini 1.5 Pro,支持超过35种语言,定价为每100万token 3.5美元。
  据皮查伊介绍,Gemini 1.5会提供“迄今为止所有基础模型中最长的上下文窗口”。Gemini 1.5 Pro将在今年晚些时候将会把窗口进一步扩大至200万token,拓展同步处理多模态信息的边界。
  从今年夏天开始,Gemini将支持语音实时交互,并在今年晚些时候上线实时视频交互。未来几个月内,谷歌也将推出类似于GPTs的自定义AI助手功能,名为Gems,可以与整套“谷歌全家桶”联动。
  另外,对于一些需要快速响应的场景,谷歌推出了Gemini 1.5 Flash模型。Flash将是API中速度最快的Gemini模型,针对大规模、大批量的高配任务进行了优化,也具有100万token的长上下文窗口。
  谷歌也在发布会上带来了旗下开源大模型Gemma的最新版本Gemma 2。据介绍,Gemma 2采用全新架构,参数上达到27B,拥有突破性的性能和效率。
  AI助手Project Astra叫板GPT-4o
  在OpenAI推出能够实现人类级别响应的智能助手GPT-4o后,谷歌的AI智能体项目Project Astra也重磅登场。
  在演示视频中,Astra能够通过手机摄像头或智能眼镜看到的内容来分析响应语音命令。它成功地识别出代码序列、为电路图提出改进建议、能够通过镜头“看到”伦敦国王十字区,并提醒用户智能眼镜的放置位置。
  据介绍,谷歌在Gemini的基础上开发了Astra的原型,可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中以实现更快地处理信息。通过语音模型,谷歌也强化了智能助手的说话能力,让其能够给出更快速的回应。
  不过,在演示视频中,谷歌AI助手的回应速度似乎还是会比GPT-4o稍慢一些,语音所表现出的感情色彩也平淡一些。
  皮查伊表示,谷歌计划从今年开始将Astra的功能添加到其Gemini应用程序及其产品中。不过,他也强调,虽然最终目标是“让Astra在公司的软件中实现无缝连接”,但该产品将被谨慎推出,并且“商业化之路将由质量驱动”。
  除了在AI助手领域的竞争外,谷歌还通过文生视频模型Veo来反击OpenAI的Sora。Veo能够根据文字、图片和视频的提示来生成高质量的1080p视频,创作“一致且连贯”的镜头,用户可以对光照、镜头语言、视频颜色风格等进行自定义设置。不过,谷歌没有宣布Veo的具体推出时间。
  此外,谷歌还宣布了一系列与图像、音乐有关的生成式AI工具,包括能够表现更高细节水平的文生图工具Imagen 3,还有与Youtube以及音乐家合作的AI音乐工具“AI音乐沙盒”。
  在硬件方面,谷歌将于今年晚些时候推出交付第六代数据中心AI芯片TPU Trillium。皮查伊表示,每块芯片的计算性能将比第五代提升4.7倍,谷歌通过扩大芯片的矩阵乘法单元(MXU)和提高整体时钟速度来实现这一目标。此外,第六代将比第五代芯片节能67%,谷歌还将Trillium芯片的内存带宽提高了一倍。
  发布会后,著名AI学者吴恩达(Andrew Ng)对谷歌表示祝贺,称个人很期待“拥有200万个token的上下文窗口以及对设备上AI进行更好支持的Gemini”,认为其会为应用程序构建者带来新的机会。
  英伟达高级研究科学家范麟熙(Jim Fan)表示:“谷歌正在做的一件事是正确的:他们终于在认真将AI整合到搜索中......谷歌最强大的护城河是分销。Gemini不一定要成为最好的模型,而是可以成为世界上最常用的模型。”
  此前,在5月9日播出的一档节目中,谷歌CEO桑达尔·皮查伊接受采访时谈及公司与微软和OpenAI的竞争。他表示,尽管谷歌在聊天机器人领域的起步较晚,但他对公司的长期竞争力并不担忧,AI浪潮尚处早期。
  4月25日,谷歌母公司Alphabet发布了截至3月31日的2024年第一季度财报。财报显示,Alphabet第一季度实现营收805.39亿美元,同比增长15%,是自2022年初以来公司营收增长最快的一个季度。非美国通用会计准则下(Non-GAAP)净利润为236.62亿美元,同比增长57%;摊薄后每股收益为1.89美元,高于市场预期的1.51美元。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

  •   2024世界人工智能大会,“首次亮相”、“新品发布”成为很多厂商的重要布局。   7月4日,网易多款AI新品首次亮相世界人工智能大会,并发布首个机器人品牌“灵动”。网易灵动是网易伏羲基于自研工业大模型和A ...
    cristianna
    昨天 15:04
    支持
    反对
    回复
    收藏
  •   百度董事长兼CEO李彦宏还记得自己第一次来参加世界人工智能大会(WAIC)是在2022年,那一次大会的主题和元宇宙相关,主办方传话给他,希望他讲一讲元宇宙。他回:“我说我还是讲AI吧,我讲不了元宇宙”。当时, ...
    niemiao
    前天 16:46
    支持
    反对
    回复
    收藏
  •   北京少有的一个阴雨绵绵的早晨,灰色天空给理想纯电车生产基地蒙上一层不同寻常的寂静。这座维持了两个多月喧嚣的新汽车工厂放缓了生产节奏;工人们开始每周只上一天班;正在产线上试制下一款纯电车的理想研发员 ...
    cvpanjun
    前天 15:46
    支持
    反对
    回复
    收藏
  •   据报道,英伟达首席执行官黄仁勋(Jensen Huang)6月份减持了价值近1.69亿美元的该公司股票,这也是他单月减持最多的一次。市场对用于驱动人工智能(AI)的芯片的巨大需求推动英伟达股价再创新高。   美国证 ...
    moshulong
    前天 10:52
    支持
    反对
    回复
    收藏
飘渺九月 注册会员
  • 粉丝

    0

  • 关注

    0

  • 主题

    41