涉17万个视频!英伟达等巨头被曝违规使用YouTube数据训练模型
MPA
发表于 2024-7-17 15:06:11
147
0
0
当地时间7月16日,据外媒报道,包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司,被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司使用了一个由第三方提供的数据集,其中包含从YouTube上抓取的大量视频字幕文本,违反了YouTube禁止从平台上未经许可抓取内容的规定。
报道指出,这些科技公司在训练AI模型时都使用了一个名为“YouTube Subtitles(YouTube字幕)”的数据集,大小为5.7GB,包含4.89亿个单词,来自Youtube上超过4.8万个频道中的17.35万个视频。该数据集由视频字幕的纯文本组成,包括视频博主上传的部分和Youtube自动转录的文本,除了英语外,通常还附带日语、德语和阿拉伯语等语言的翻译。
非营利性组织EleutherAI是争议数据集的创作者,公司尚未对此事作出回应。根据官网介绍,EleutherAI的目标是“降低AI开发的门槛,通过训练和发布模型,让大家接触到尖端的AI技术”。此前,EleutherAI发布了名为“Pile”的数据汇编,其中的大部分数据集都是对公众开放的,包括YouTube Subtitles。
资料显示,在苹果于今年4月发布端侧小模型OpenELM模型的几周之前,公司就使用了Pile进行训练。不过,值得注意的是,苹果自己并没有下载这些数据。因此,从技术层面来说,是EleutherAI违反了YouTube的使用条款。
AI初创公司Anthropic的一位发言人证实,Pile数据集已被用于训练公司的生成式AI助手Claude,而YouTube的相关条款仅涉及“直接使用其平台”,建议与Pile的原作者讨论任何违反YouTube服务条款的行为。苹果、英伟达、Salesforce等其他公司尚未对此事作出回应。
此次事件影响到的创作者包括Marques Brownlee、MrBeast和PewDiePie等知名博主,以及《纽约时报》、英国广播公司(BBC)和美国ABC News等大型新闻出版商。另外,数据集中的一些材料宣传了“地平说”等阴谋论,甚至还包含了已被删除的视频的内容。现在,Pile已从官方下载网站上下架,但仍可通过文件共享服务访问。
对此,知名科技博主Marques Brownlee在X(原推特)平台上表示:“苹果从几家公司获取了他们AI所需的数据,其中一家从YouTube视频中抓取了大量数据/转录文本,包括我的视频。从技术上来说苹果没有‘犯错’,他们没有主动抓取数据。但这将是一个长期存在的问题。”
Marques Brownlee的推文。来源:X平台
虽然苹果和其他公司或许是使用了公开的数据集,并没有违规行为,但此次事件让人们又一次关注到AI训练背后的数据问题。今年年初,YouTube的母公司谷歌被曝利用该平台的视频来训练旗下模型,谷歌当时回应称,这种行为没有违反平台与创作者的协议。
今年3月,OpenAI首席技术官米拉·穆拉蒂(Mira Murati)在接受采访时还曾对文生视频模型Sora的训练数据来源含糊其词。4月,YouTube首席执行官尼尔·莫汉(Neal Mohan)在采访中表示,他并没有直接证据能够证明OpenAI确实使用了YouTube的视频来完善其文生视频AI工具Sora,如果真的使用了,那就“明显违反”了YouTube平台的使用条款。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
猜你喜欢
- 美国第三大公共养老金三季度减持苹果、英伟达等
- 英伟达需求太火爆?SK海力士:黄仁勋要求HBM4芯片提前6个月交货!
- 英伟达美股盘前涨近3% 将被纳入道琼斯指数
- 微软在英国推出与英伟达和GitHub合作的生成式人工智能加速器
- 英伟达盘中市值再超苹果,美股市值第一争夺战趋于激烈
- 英伟达支持的云服务提供商CoreWeave瞄准明年IPO,据悉已选择多家大行筹备
- 英伟达正考虑投资马斯克的xAI 估值达400亿美元
- 英伟达被爆要抛弃超微电脑 旧订单已被转给其他供应商
- 美股成交额前20:特朗普媒体科技集团股价大涨12%;英伟达盘中一度成为全球市值最高的公司
- 英伟达市值盘中超越苹果!特朗普概念股大涨 “中国金龙”一度涨超3% 原油大涨近3%
-
随着“银十”结束,各家造车新势力都交出了一份亮眼的成绩单。 理想领跑10月新势力交付榜,鸿蒙智行重回4万辆,零跑、深蓝、极氪、小鹏等单月交付量均创新高,岚图、阿维塔、智己等实现破万,但哪吒却消失在 ...
- fanadam
- 昨天 20:02
- 支持
- 反对
- 回复
- 收藏
-
【科技记者古尔曼:苹果计划于12月第一周发布iOS 18.2系统更新 带来更多人工智能功能】科技记者古尔曼透露,苹果计划于12月第一周发布iOS 18.2系统更新。iOS 18.2将为iPhone 15 Pro机型和所有iPhone 16机型带来更多 ...
- cristianna
- 前天 17:32
- 支持
- 反对
- 回复
- 收藏
-
为期超七周的大罢工终于落下帷幕。 当地时间11月4日,波音美国西海岸工厂工人们就改进后的合同提案投票。 随后,代表着波音超过33000名西雅图地区机械师的IAM工会经表决,以59%的同意票决定接纳波音提 ...
- cristianna
- 昨天 16:55
- 支持
- 反对
- 回复
- 收藏
-
近日,爱立信中国区总裁方迎在接受《经济参考报》记者采访时表示,5G技术在全球范围内得到了迅速发展,但面临商业潜力未能充分挖掘、网络运营难度较以往更高两大挑战。因此,运营商在继续5G网络部署的同时,应关 ...
- blueskybb
- 前天 15:05
- 支持
- 反对
- 回复
- 收藏