一日惊艳后翻车?谷歌“双子座”大模型6分钟视频被曝经过了剪辑
长安不良帅
发表于 2023-12-8 20:26:35
221
0
0
在这些演示视频中,最令人称奇的莫过于在一段4分钟的演示视频里,当测试人员进行绘画、变魔术等操作时,双子座可以即时发表观点,和测试人员实时互动,仅看视频中的表现,双子座的理解力甚至达到了人类的水平。
“仅就演示的内容来看,双子座的视频理解能力无疑达到了当前最领先的水平。”北京某大模型的算法工程师在接受新京报贝壳财经记者采访时表示,“这个能力来源于双子座在训练的时候就天然加入了大量的视频数据,并且在架构上就支持视频理解。”
不过,在发布仅一天之后,许多用户在测试中发现,双子座的视频理解能力并不像演示中那样“丝滑”。对此,谷歌很快发布了一篇博客文章解释了演示视频中的多模态交互过程,几乎承认了使用静态图片和多段提示词拼凑,才能达成这样的效果。此外,也有网友注意到,谷歌在演示视频中有一个重要的免责声明:为了演示效果减少了延迟,双子座的输出也被简化了。
即便如此,在不少专业人士看来,谷歌也终于推出了一款能和OpenAI“过两招”的大模型,作为人工智能的老牌厂商,谷歌“家底”丰厚,双子座也将成为GPT的有力竞争者。
剪辑了哪里?演示视频和实际差多少?
“你看谷歌最新大模型的视频演示了吗?多模态的切换是质变啊,特别是玩游戏地图那里,人都不一定能反应过来。”12月7日,从事网站开发的刘先生给贝壳财经记者发来了一段演示视频。
在这段令众多从业者兴奋的谷歌大模型双子座演示视频中,测试人员拿出了一张纸,双子座立刻回答“你拿出了一张纸”,随着测试人员在纸上绘画曲线、填色,双子座立刻“秒懂”,并随着测试人员的动作继续解说:“你在画曲线,看上去像是一只鸟,是一只鸭子,但蓝色的鸭子并不常见,鸭子大多数是棕色的,中文的鸭子发音是‘yazi’,中文有四种音调。”当测试者把一只蓝色的橡皮鸭子放到世界地图上时,双子座看到立刻说“这只鸭子被放到大海中间了,这里不常有鸭子。”
此后,测试人员又开始使用手势和双子座“互动”,当测试人员摆出了剪刀和布的动作时,双子座就“抢答”说“你在玩石头剪刀布”,之后,双子座还猜出了用手模仿的老鹰和狗的形象。
不过,贝壳财经记者在这段视频中发现了不少剪辑的痕迹,如石头剪刀布中,测试者出拳时的动作明显被剪去了不少。对此,谷歌发布了博客进行了“答疑解惑”:当给出双子座一张“出布”的图片,双子座的回答是“我看到了一只右手,手掌张开五指分开”;当给出“出拳头”的图片,双子座的回答是“一个人在敲门”;当给出“出剪刀”图片时,双子座的回答是“我看到一个食指和中指伸出的手。”只有把这三张图片放到一起,并问“你觉得我在干什么?”时,双子座才会回答“你在玩石头剪刀布”。
所以实际上,虽然双子座的回答依旧是真实的,但实际应用可能并没有演示视频中表现得那样“丝滑”。
来源:谷歌发布的“双子座”演示视频。
多模态能力是怎样“炼成”的?
通过这次演示,许多业界人士也承认谷歌确确实实在追赶OpenAI的过程中迈出了一步。实际上,在ChatGPT出现之前,谷歌一直在人工智能领域处于领先地位,不过,“既生瑜何生亮”, ChatGPT的一骑绝尘让谷歌压力山大,今年2月推出对标ChatGPT的bard但首秀“翻车”后,谷歌一直缺乏一个足够优秀的大模型来提振士气。
而“双子座”出现后,谷歌至少在多模态理解领域上体现出了一定的特色。“双子座是原生的多模态大模型,即其在训练的时候就是多模态的。谷歌在搜索、长视频、在线文档等本来就有强大的生态,另外谷歌显卡多,算力是OpenAI的好几倍,现在是在‘烧家底’来追赶OpenAI。”一位毕业于清华自动化专业的大模型从业者告诉贝壳财经记者。
具体来看,双子座模型包含三个版本:Gemini Ultra(超大杯),规模最大、能力最强的版本;Gemini Pro(大杯),可以适用于广泛的任务;Gemini Nano(中杯),将用于特定的任务以及移动设备。
除了多模态能力外,双子座在文本理解、代码运算等许多方面也表现不俗,在一个MMLU多任务语言理解数据集测试中,Gemini Ultra不光超越了GPT-4,甚至超越了人类专家。贝壳财经记者登录谷歌deepmind官网发现,“见证双子座——我们最有能力的大模型”这句话被放在了首页。
目前,用户可以从谷歌bard的端口进入体验Gemini Pro的能力,但贝壳财经记者测试发现,该能力仅提供给部分地区。通过一些国外网友的测试,用户既可以向双子座输入图片,也可以向双子座输入文本,而根据测试结果,Gemini Pro和同样具有多模态能力的GPT-4V在不少问题的回答上 “各有千秋”,并没有被GTP-4V碾压。
“根据我的观察,目前双子座在文本上的能力还是略逊于GPT4,但谷歌的技术实力仍然属于第一梯队。”上述大模型算法工程师表示。
他告诉贝壳财经记者,要想让大模型拥有理解图像视频声音的“多模态能力”,技术上可以看成把LLaVA (一种多模态预训练模型)的图像理解模块扩充到了视频和语音上,训练的时候额外加入视频、音频数据,“其实就是证明了,双子座第一次将视频和语音理解做进了大模型里面,验证了这两者在大模型上的可行性。”
“总体来说,本次谷歌大模型的发布符合预期,双子座的每个技术点之前都在学术界被验证过,可以找到相应的论文。未来,个人助手是一个很吸引人的场景,相比大语言模型,多模态大模型能够扮演一个能听能看能说能画的助手,更像一个人类了。”这名大模型算法工程师对贝壳财经记者说。
新京报贝壳财经记者罗亦丹
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
猜你喜欢
- 一日で驚いて転覆したのか。グーグル「ふたご座」の大模型の6分間の動画がカットされたことが明らかになった
- 谷歌宣布为云客户提供“双子座”Pro版本
- 犹太人做空英镑,血洗东南亚,却在香港"翻车"?手段值得警醒
- 被曝退货!苹果Vision Pro“翻车”?槽点来了
- 频频翻车!邀请外部专家 券商又要被追责
- 未解决垄断担忧 谷歌Cookie淘汰计划再次“翻车”
- 用胶水粘披萨、吃石头获取营养……谷歌的AI产品又“翻车”了 这次还很离谱!背后暴露的是AI行业的“致命”问题
- 美国百年干掉4个“世界第二”,第五个是中国,为何说注定翻车?
- 大媒体“翻车”了,美国消费信心不足:评论区充满嘲讽,为啥?
- 瑞幸翻车!网友吐槽:一大早被当猴耍了
-
知名做空机构香橼研究(Citron Research)周四(11月21日)在社交媒体平台X上发布消息称,该公司已决定做空“比特币大户”微策略(Microstrategy)这家公司,并认为该公司已经将自己变身成为一家比特币投资基金 ...
- caffycat
- 4 小时前
- 支持
- 反对
- 回复
- 收藏
-
每经AI快讯,11月20日,文远知行宣布旗下自动驾驶环卫车S6与无人扫路机S1分别在新加坡滨海湾海岸大道与滨海艺术中心正式投入运营。据介绍,这是新加坡首个商业化运营的自动驾驶环卫项目。 ...
- star8699
- 前天 19:48
- 支持
- 反对
- 回复
- 收藏
-
上证报中国证券网讯(记者王子霖)11月20日,斗鱼发布2024年第三季度未经审计的财务报告。本季度斗鱼依托丰富的游戏内容生态,充分发挥主播资源和新业务潜力,持续为用户提供高质量的直播内容及游戏服务,进一步 ...
- goodfriendboy
- 前天 20:09
- 支持
- 反对
- 回复
- 收藏
-
百度创始人李彦宏19日在2024中国5G+工业互联网大会上发表演讲时表示,多智能体协作应用无代码工具"秒哒"发布不到3天,超过5000家企业排队申请测试。此外,L4级端到端的自动驾驶大模型发布后,搭载百度这一大模 ...
- laozhucn
- 3 天前
- 支持
- 反对
- 回复
- 收藏