苹果、亚马逊、OpenAI遭起诉：被指爬取YouTube视频训练AI，涉及数百万内容

阿司匹林

2026-04-07 17:59:54

生成式大模型

视频生成大模型

AI 伦理与治理

惊天大瓜，苹果、亚马逊和OpenAI被几大YouTube头部频道联合告上法庭。

多个Youtube频道指控苹果、亚马逊和OpenAI绕过反爬虫防护，下载了数百万条视频。那些备受追捧的视频模型，背后的训练素材竟是YouTube视频。

三大YouTube顶流的指控

惹上这场官司的，究竟是何方神圣？

这次站出来硬刚巨头的，是Ted Entertainment、Matt Fisher和Golfholics这三个YouTube顶流频道，这三家频道涵盖了娱乐、高尔夫教学等多个垂直领域，拥有庞大的粉丝基础和海量的原创视频库。

创作者们起早贪黑策划、拍摄、剪辑视频，本是指望赚取平台的流量分成和广告收益。结果美国巨头们一声不吭，把这些耗费人力财力的内容拿去喂给了自家的AI模型。这种未经授权的商业化白嫖行为，彻底点燃了创作者的怒火。

原告方在长达数十页的诉讼文件中明确指出，仅在某一个被曝光的开源数据集中，他们的原创内容就出现了超过500次。这些视频不仅被无偿使用，还被用于训练那些未来会与创作者抢夺市场的生成式AI工具。

那么，巨头们到底是去哪里弄到了这么多海量视频？

作案手法拆解

要看懂苹果、亚马逊、OpenAI的作案手法，我们得先理解Panda-70M数据集。

Panda-70M是一份数据索引目录，在这份电子表格里，写满了数百万个YouTube视频的准确网址、唯一视频标识以及时间戳。它本身不存储视频文件，而是提供了直达视频的路径。

单条YouTube视频被拆分成无数个小片段，每一个小片段，都成了一个独立的AI训练样本。AI模型在进行训练并需要提取画面时，系统就会顺着这份目录提供的网址和时间戳找过去，执行下载动作。

如果只是分享一个网页链接，那么这完全合法，但原告控诉的核心在于，YouTube平台本身是部署了严格的反爬虫机制和技术封锁手段的，目的就是防止第三方程序大规模批量下载视频实体文件。苹果、亚马逊和OpenAI为了拿到视频原内容，涉嫌故意绕过了《数字千年版权法》规定的技术保护措施，进行了实质性的强行下载与本地存储。

也就是说，在提取视频片段的过程中，每获取一个片段，就构成了一次独立的非法规避行为。“勿以恶小而为之”，数百万次的技术规避与非法下载，累积起来就是庞大的侵权基数。这种利用自动化脚本突破平台防御体系的做法，已经完全超出了正常的数据浏览范畴。

苹果论文自曝

既然爬取视频的动作如此隐蔽，这三家大厂是怎么暴露的？要想人不知，除非己莫为。

此前，苹果的AI研究团队公开发表了一篇名为《STIV：可扩展文本与图像条件视频生成》的学术研究论文。在这篇展示苹果视频生成技术实力的论文里，白纸黑字地写明了，团队使用了Panda-70M数据集来训练该论文所述的视频生成模型，这直接成了原告律师手中的呈堂证供。

除了苹果，亚马逊也被抓了个正着。根据提交至西雅图联邦法院的诉讼文件，亚马逊被指控专门利用这些非法爬取的数百万YouTube视频，去训练Nova Reel文本生成视频模型。亚马逊在视频生成赛道投入了巨大的算力资源，而支撑这些算力运转的数据，正是来源于对Panda-70M数据集的违规使用。

OpenAI也没能独善其身。同样是因为在自身的视频生成AI模型训练过程中使用了Panda-70M数据集，OpenAI被同一批YouTube创作者在同期告上了法庭。从文本到视频，OpenAI卷入诉讼，将其数据合规性问题再次推到了公众面前。

面对铁证如山的指控，原告方开出的条件也是直击要害。

不只要钱，还要强制停服

原告方非常清楚大厂的法务套路，所以这次没有选择庭外谈判，而是要求由陪审团审理全部诉求，一共有六大主张。

认定本案为集体诉讼。这不是三家频道的单打独斗，原告及原告方律师代表全体集体诉讼成员。这就意味着，全网处境相同的YouTube博主都可以加入这场维权行动，索赔的规模和涉及的视频数量将指数级放大，将案件级别拉升至全行业震动的量级。
判定被告故意规避版权保护。原告要求法院明确裁定，苹果、亚马逊和OpenAI是“故意”绕过YouTube的技术防御系统。一旦“故意”的定性成立，大厂们将无法用“技术失误”或“外包团队操作不当”来推脱责任。
主张法定最高限额赔偿。依据《美国法典》第17编第1203条，原告主张法定赔偿，要求单次侵权按法律最高限额赔付。面对数百万个被拆分的视频片段，这笔账如果按最高限额累加，足以让任何一家市值万亿的科技巨头剧痛。同时，大厂还需承担原告的律师费与所有诉讼成本。
申请公平救济措施与全面禁令。这是最令人胆寒的一招，原告依据相关法典及法院固有职权，申请颁布临时及永久禁令。要求被告及其高管、代理人、雇员乃至所有协同参与的主体，立即停止侵权行为，也就是要求法院直接下令“停止运行”。如果禁令生效，那些依赖侵权数据训练出来的AI模型可能面临被迫下线、关停API接口甚至销毁数据。
索要利息。原告申请法院就对被告作出的所有金钱赔偿判决，按法律最大限度判令支付判决前及判决后利息。这一诉求旨在最大化原告的经济补偿，并增加被告拖延诉讼进程的时间成本。
申请其他合理救济。这是一条标准的法律兜底条款，申请法院裁定其他合理且正当的救济措施，彻底封死大厂在法律程序上的退路。

全行业70余起诉

中国有句老话叫“拔出萝卜带出泥”，其实AI行业早就把全球内容创作者罪了个遍，目前全球相关诉讼已经超过了70起。

文本赛道已进入白热化阶段。最著名的当属《纽约时报》死磕OpenAI和微软的世纪大案，《纽约时报》指控这两家公司未经许可复制了数百万篇新闻文章，导致AI生成的输出内容直接与原新闻媒体形成商业竞争。而在文学领域，包括《权力的游戏》作者乔治·R·R·马丁在内的大批知名作家，也发起了针对OpenAI和Meta的集体诉讼，指控大厂使用大量盗版书籍来训练大语言模型。

图像与音乐赛道同样猛烈。全球知名图库视觉中国在多个司法管辖区起诉Stability AI，指控其非法爬取了1200万张受版权保护的图片及其元数据来训练图像生成模型。而在音乐圈，各大唱片公司和音乐人也联合起来，起诉Suno和Udio等音乐大模型从流媒体网站大规模提取音频和歌词信息。

过去，AI公司面对版权起诉，总是说“合理使用”。法务团队通常会辩称，AI提取数据只是为了分析和学习语言规律、图像特征，并没有直接向用户提供原版盗版内容。

但是现在，原告们不再纠结于“AI内容是不是抄袭”，而是指控“你获取数据的初始手段”是否合法。就像这次YouTube案件一样，你训练出来的AI画面和我们不沾边，但只要你绕过了平台设置的反爬虫机制，强制下载了原视频，违反了《数字千年版权法》的反规避条款，这就是明确的违法行为。

这种策略的转变已经取得了实质性的战果。此前，AI独角兽Anthropic就因为下载盗版网站书籍训练Claude模型遭遇重创。法院在初步审理中明确指出，虽然AI训练本身可能存在合理使用的探讨空间，但“直接下载盗版内容”这一行为绝对不属于合理使用范畴。最终，Anthropic同意支付高达1.5亿美元的天价和解金，折算下来每本被侵权的书籍赔偿额约达3000美元。

这就是摆在苹果、亚马逊和OpenAI面前最惨痛的前车之鉴。（微信公众号：Tahou_2025）

关注塔猴公众号，扫码下载塔猴APP，查看更多干货

扫码加入官方社群

以上内容不代表本平台立场，仅供读者参考