首页 报纸 正文

OpenAI「言ってはいけない秘密」が公開された?YouTubeデータトレーニングモデルを使用した取得方法は不名誉である

愿为素心人
227 0 0

GPTの大モデルが階段を上り続けると同時に、OpenAIが直面している非難は少なくないようだ。マスクが何度も問い詰めてきた「オープンソース」の問題を除いて、OpenAI訓練大モデルのデータソースは不明で、あるいはすでにこの会社のために権利侵害訴訟の地雷を埋めている。
現在のAI大モデルの訓練では、データ端に巨大なデータ量の大規模なデータセット投与が必要である。公開資料によると、OpenAIのデータソースには、書籍、Webページ、ニュース記事、学術論文など、インターネット上のさまざまなリソース、パートナーとサードパーティのデータプロバイダが提供するデータセット、医療、法律、科学文献など、購入した特定分野のデータ、合成データ、OpenAIはそのモデルを使用してデータを自己生成する可能性があり、例えばモデル自身の出力によるモデルの訓練と改善、クラウドファンディングとコミュニティ貢献のためのデータ。
データソースは最も重要な問題ではなく、OpenAIがこれらのデータをどのように入手するかに焦点が当てられている。
■盗んだ?
Business Insiderが報じたように、OpenAIが大量のYouTubeビデオトレーニングモデルを使用することはすでに「公開の秘密」であり、受益製品には新たに発売された文生ビデオ分野モデルSoraが含まれている。謎はOpenAIがどのようにして十分なYouTubeコンテンツを取得するかにある。
YouTubeはグーグルの子会社であることを知っておく必要があります。2006年、YouTubeはグーグルに16億5000万ドルで買収され、グーグルの支援を受けて世界最大の動画共有プラットフォームに急成長した。
グーグルはAIの発展に力を入れており、OpenAIの主要なライバルの1人であり、自宅の金鉱を無償で対家に提供することはもちろんない。YouTubeはすでに商業目的でのダウンロードを禁止しており、YouTubeの動画データを大量にダウンロードする行為も制限する。このような厳格な制御により、個人ユーザーも影響を受けており、YouTube動画を1つダウンロードしても、速度が非常に遅く、完成までに数時間かかるという声もある。
一般的な推測の1つは、OpenAIが爬虫類を使って、YouTubeのデータを「盗んだ」ということだ。OpenAIは、大きなモデルの訓練にデータをキャプチャして収集するためのGPTbotというネットワーク爬虫類ロボットを発売したことを認めている。
OpenAI幹部は関連問題について言葉を濁し、側面からも「データ泥棒」の印象を深めた。ウォールストリート・ジャーナルは最近、YouTube、インスタグラム、Facebookなどからの動画を使ってソラを訓練しているかどうかをOpenAIのMira Murati最高技術責任者に尋ねた。
「私は実際には確信していません」と彼女は言った。トレーニングデータの出所を再び問われると、Muratiは「詳細は明らかにしない」と答えを拒否した。
Business Insiderの最新記事によると、OpenAIの運営に詳しいある人は、同社はトレーニングデータを取得するために厳密に保護されたチームを割り当てており、これらのデータをどのように取得するかについては秘密にしていると述べている。
■フェンスが生い茂るAI野原
爬虫類を使用する行為はグーグルには許されず、同社傘下のYouTubeはロボットや他の自動化方法で動画をキャプチャすることを禁止している。
しかし、OpenAIにとって、グーグルのサービス条項に違反する方法でYouTube動画にアクセスすることは違法ではないかもしれない。米国の判例法と「合理的な使用」の原則は、企業に異なる方法でオンラインコンテンツを自由に使用する権利を与えている。
簡単に言えば、グーグル、OpenAI、その他の科学技術会社は、著作権保護されたコンテンツを用いた人工知能モデルの訓練も合法的だと考えている。規制当局もこれについて明確に規定していない。人工知能の競技場は依然として広大な原野であり、データに関するゲームのルールはまだ決まっていないか、無視されている。
各メーカーは先を争って入場し、独自の技術フェンスを構築した。
OpenAIや他の大モデル開発者はこれまで、発表された研究論文で訓練データソースを公開してきたが、競争が激化するにつれて、このやり方はもはや盛んではない。誰もが自分の技術の秘訣を残して、相対的な優位性を求めている。特に有利な地位を占めているヘッドメーカーは、オープンソース争いもメーカーが切り札を自留しようとしていることの表れだ。
唯一確定したのは、生成式AI技術のさらなる反復に伴い、類似したトラブルが多いか少ないかだけである。
大企業は矢面に立たされやすく、データを例にとると、責任を負い、高いデータ調達コストを負担しても、データの完全なコンプライアンスを実現するのは容易ではありません。パラメータの量が大きいため、大モデルは分散コンピューティングやクラウドサービスなどの技術を利用して訓練と配置を行う必要があり、またデータが盗まれたり、改ざんされたり、悪用されたり、漏洩されたりするリスクが増加します。
プライバシー保護と技術革新をどのようにバランスさせ、どのように企業の生存とコンプライアンス生産の間の最適な経路を見つけるかは、すでに生成型AI事業に力を入れている企業ごとに避けられない問題である。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

  •   知名做空机构香橼研究(Citron Research)周四(11月21日)在社交媒体平台X上发布消息称,该公司已决定做空“比特币大户”微策略(Microstrategy)这家公司,并认为该公司已经将自己变身成为一家比特币投资基金 ...
    caffycat
    昨天 11:18
    支持
    反对
    回复
    收藏
  •   每经AI快讯,11月20日,文远知行宣布旗下自动驾驶环卫车S6与无人扫路机S1分别在新加坡滨海湾海岸大道与滨海艺术中心正式投入运营。据介绍,这是新加坡首个商业化运营的自动驾驶环卫项目。 ...
    star8699
    3 天前
    支持
    反对
    回复
    收藏
  •   上证报中国证券网讯(记者王子霖)11月20日,斗鱼发布2024年第三季度未经审计的财务报告。本季度斗鱼依托丰富的游戏内容生态,充分发挥主播资源和新业务潜力,持续为用户提供高质量的直播内容及游戏服务,进一步 ...
    goodfriendboy
    3 天前
    支持
    反对
    回复
    收藏
  •   人民网北京11月22日电 (记者栗翘楚、任妍)2024广州车展,在新能源汽车占据“半壁江山”的同时,正加速向智能网联新能源汽车全面过渡,随着“端到端”成为新宠,智能驾驶解决方案成为本届广州车展各大车企竞 ...
    3233340
    昨天 17:06
    支持
    反对
    回复
    收藏
愿为素心人 注册会员
  • 粉丝

    0

  • 关注

    0

  • 主题

    33