当前位置：首页 > 科技资讯 > 正文

英伟达陷AI训练数据版权诉讼，巨头纷纷卷入

主机测评网
科技资讯
2026-07-03
519

英伟达陷AI训练数据版权诉讼，巨头纷纷卷入英伟达 AI训练数据版权诉讼大语言模型第1张

近期，英伟达成为一场AI训练数据版权集体诉讼的被告。这场诉讼的原告方是五位拥有多部已注册版权作品的作家，他们指控英伟达在使用NeMo Megatron框架开发下一代大语言模型时，使用了包含原告版权作品的盗版图书馆的数据集，这些图书馆也被称为“影子图书馆”。

NeMo Megatron是英伟达开发的一个用于构建、训练和部署大语言模型的端到端框架。原告在美国加利福尼亚北区联邦地区法院提起诉讼，指控英伟达在未经授权的情况下使用了盗版图书资源。2026年1月31日，英伟达提交了正式动议，认为原告未能提供足够的证据证明其存在侵权行为，要求法院驳回原告起诉状，并主张其行为属于“合理使用”。法院已安排在2026年4月2日举行听证会，审理英伟达提出的动议。

起诉书提供的内部记录显示，英伟达面临着OpenAI的竞争压力，为了在2023年开发者大会上展示其领先的技术，不惜通过“影子图书馆”获取数百万本盗版图书来训练其大语言模型。此外，起诉书还指出，英伟达向其客户提供工具和脚本，鼓励并协助他们下载盗版数据集。

大模型热潮之下，陷入训练数据版权纠纷的不止英伟达。OpenAI、xAI、Anthropic、Meta等人工智能巨头也先后遭遇诉讼。Anthropic曾同意支付至少15亿美元达成和解，创下版权赔偿金额纪录。

01 英伟达高层批准盗版合作？

训练数据的质量与数量对大模型开发起着关键性作用。图书作为高质量的训练数据，在行业内备受青睐。“影子图书馆”的数据更方便易得，满足了训练中对图书类数据的需求。

起诉书显示，英伟达发布了多个NeMo Megatron系列大模型。这些模型是在The Pile数据集上训练的，而The Pile包含一个名为Books3的子集，该子集源自“影子图书馆”Bibliotik，包含约19万本图书。

除了使用The Pile，英伟达还被指控直接与“影子图书馆”合作，使用盗版图书资源训练大模型。其中，全球最大的“影子图书馆”Anna’s Archive是重要数据来源之一。

Anna’s Archive建立于2022年11月，旨在整合多家影子图书馆的资源。起诉书披露了英伟达与Anna’s Archive沟通协商的全过程。内部文件显示，由于行业内激烈的竞争，英伟达在发布NeMo Megatron系列大模型后，迅速与Anna’s Archive合作，获取了数百万本盗版图书数据的访问权限。