苹果、亚马逊、OpenAI遭起诉:被指爬取YouTube视频训练AI,涉及数百万内容
惊天大瓜,苹果、亚马逊和OpenAI被几大YouTube头部频道联合告上法庭。
多个Youtube频道指控苹果、亚马逊和OpenAI绕过反爬虫防护,下载了数百万条视频。那些备受追捧的视频模型,背后的训练素材竟是YouTube视频。

三大YouTube顶流的指控
惹上这场官司的,究竟是何方神圣?
这次站出来硬刚巨头的,是Ted Entertainment、Matt Fisher和Golfholics这三个YouTube顶流频道,这三家频道涵盖了娱乐、高尔夫教学等多个垂直领域,拥有庞大的粉丝基础和海量的原创视频库。

创作者们起早贪黑策划、拍摄、剪辑视频,本是指望赚取平台的流量分成和广告收益。结果美国巨头们一声不吭,把这些耗费人力财力的内容拿去喂给了自家的AI模型。这种未经授权的商业化白嫖行为,彻底点燃了创作者的怒火。
原告方在长达数十页的诉讼文件中明确指出,仅在某一个被曝光的开源数据集中,他们的原创内容就出现了超过500次。这些视频不仅被无偿使用,还被用于训练那些未来会与创作者抢夺市场的生成式AI工具。
那么,巨头们到底是去哪里弄到了这么多海量视频?

作案手法拆解
要看懂苹果、亚马逊、OpenAI的作案手法,我们得先理解Panda-70M数据集。
Panda-70M是一份数据索引目录,在这份电子表格里,写满了数百万个YouTube视频的准确网址、唯一视频标识以及时间戳。它本身不存储视频文件,而是提供了直达视频的路径。

单条YouTube视频被拆分成无数个小片段,每一个小片段,都成了一个独立的AI训练样本。AI模型在进行训练并需要提取画面时,系统就会顺着这份目录提供的网址和时间戳找过去,执行下载动作。
如果只是分享一个网页链接,那么这完全合法,但原告控诉的核心在于,YouTube平台本身是部署了严格的反爬虫机制和技术封锁手段的,目的就是防止第三方程序大规模批量下载视频实体文件。苹果、亚马逊和OpenAI为了拿到视频原内容,涉嫌故意绕过了《数字千年版权法》规定的技术保护措施,进行了实质性的强行下载与本地存储。
也就是说,在提取视频片段的过程中,每获取一个片段,就构成了一次独立的非法规避行为。“勿以恶小而为之”,数百万次的技术规避与非法下载,累积起来就是庞大的侵权基数。这种利用自动化脚本突破平台防御体系的做法,已经完全超出了正常的数据浏览范畴。

苹果论文自曝
既然爬取视频的动作如此隐蔽,这三家大厂是怎么暴露的?要想人不知,除非己莫为。
此前,苹果的AI研究团队公开发表了一篇名为《STIV:可扩展文本与图像条件视频生成》的学术研究论文。在这篇展示苹果视频生成技术实力的论文里,白纸黑字地写明了,团队使用了Panda-70M数据集来训练该论文所述的视频生成模型,这直接成了原告律师手中的呈堂证供。

除了苹果,亚马逊也被抓了个正着。根据提交至西雅图联邦法院的诉讼文件,亚马逊被指控专门利用这些非法爬取的数百万YouTube视频,去训练Nova Reel文本生成视频模型。亚马逊在视频生成赛道投入了巨大的算力资源,而支撑这些算力运转的数据,正是来源于对Panda-70M数据集的违规使用。
OpenAI也没能独善其身。同样是因为在自身的视频生成AI模型训练过程中使用了Panda-70M数据集,OpenAI被同一批YouTube创作者在同期告上了法庭。从文本到视频,OpenAI卷入诉讼,将其数据合规性问题再次推到了公众面前。
面对铁证如山的指控,原告方开出的条件也是直击要害。

不只要钱,还要强制停服
原告方非常清楚大厂的法务套路,所以这次没有选择庭外谈判,而是要求由陪审团审理全部诉求,一共有六大主张。
- 认定本案为集体诉讼。 这不是三家频道的单打独斗,原告及原告方律师代表全体集体诉讼成员。这就意味着,全网处境相同的YouTube博主都可以加入这场维权行动,索赔的规模和涉及的视频数量将指数级放大,将案件级别拉升至全行业震动的量级。
- 判定被告故意规避版权保护。 原告要求法院明确裁定,苹果、亚马逊和OpenAI是“故意”绕过YouTube的技术防御系统。一旦“故意”的定性成立,大厂们将无法用“技术失误”或“外包团队操作不当”来推脱责任。
- 主张法定最高限额赔偿。 依据《美国法典》第17编第1203条,原告主张法定赔偿,要求单次侵权按法律最高限额赔付。面对数百万个被拆分的视频片段,这笔账如果按最高限额累加,足以让任何一家市值万亿的科技巨头剧痛。同时,大厂还需承担原告的律师费与所有诉讼成本。
- 申请公平救济措施与全面禁令。 这是最令人胆寒的一招,原告依据相关法典及法院固有职权,申请颁布临时及永久禁令。要求被告及其高管、代理人、雇员乃至所有协同参与的主体,立即停止侵权行为,也就是要求法院直接下令“停止运行”。如果禁令生效,那些依赖侵权数据训练出来的AI模型可能面临被迫下线、关停API接口甚至销毁数据。
- 索要利息。 原告申请法院就对被告作出的所有金钱赔偿判决,按法律最大限度判令支付判决前及判决后利息。这一诉求旨在最大化原告的经济补偿,并增加被告拖延诉讼进程的时间成本。
- 申请其他合理救济。 这是一条标准的法律兜底条款,申请法院裁定其他合理且正当的救济措施,彻底封死大厂在法律程序上的退路。

全行业70余起诉
中国有句老话叫“拔出萝卜带出泥”,其实AI行业早就把全球内容创作者罪了个遍,目前全球相关诉讼已经超过了70起。
文本赛道已进入白热化阶段。最著名的当属《纽约时报》死磕OpenAI和微软的世纪大案,《纽约时报》指控这两家公司未经许可复制了数百万篇新闻文章,导致AI生成的输出内容直接与原新闻媒体形成商业竞争。而在文学领域,包括《权力的游戏》作者乔治·R·R·马丁在内的大批知名作家,也发起了针对OpenAI和Meta的集体诉讼,指控大厂使用大量盗版书籍来训练大语言模型。

图像与音乐赛道同样猛烈。全球知名图库视觉中国在多个司法管辖区起诉Stability AI,指控其非法爬取了1200万张受版权保护的图片及其元数据来训练图像生成模型。而在音乐圈,各大唱片公司和音乐人也联合起来,起诉Suno和Udio等音乐大模型从流媒体网站大规模提取音频和歌词信息。
过去,AI公司面对版权起诉,总是说“合理使用”。法务团队通常会辩称,AI提取数据只是为了分析和学习语言规律、图像特征,并没有直接向用户提供原版盗版内容。
但是现在,原告们不再纠结于“AI内容是不是抄袭”,而是指控“你获取数据的初始手段”是否合法。就像这次YouTube案件一样,你训练出来的AI画面和我们不沾边,但只要你绕过了平台设置的反爬虫机制,强制下载了原视频,违反了《数字千年版权法》的反规避条款,这就是明确的违法行为。
这种策略的转变已经取得了实质性的战果。此前,AI独角兽Anthropic就因为下载盗版网站书籍训练Claude模型遭遇重创。法院在初步审理中明确指出,虽然AI训练本身可能存在合理使用的探讨空间,但“直接下载盗版内容”这一行为绝对不属于合理使用范畴。最终,Anthropic同意支付高达1.5亿美元的天价和解金,折算下来每本被侵权的书籍赔偿额约达3000美元。
这就是摆在苹果、亚马逊和OpenAI面前最惨痛的前车之鉴。(微信公众号:Tahou_2025)
关注塔猴公众号,扫码下载塔猴APP,查看更多干货

扫码加入官方社群


