
近期,英伟达成为一场AI训练数据版权集体诉讼的被告。这场诉讼的原告方是五位拥有多部已注册版权作品的作家,他们指控英伟达在使用NeMo Megatron框架开发下一代大语言模型时,使用了包含原告版权作品的盗版图书馆的数据集,这些图书馆也被称为“影子图书馆”。
NeMo Megatron是英伟达开发的一个用于构建、训练和部署大语言模型的端到端框架。原告在美国加利福尼亚北区联邦地区法院提起诉讼,指控英伟达在未经授权的情况下使用了盗版图书资源。2026年1月31日,英伟达提交了正式动议,认为原告未能提供足够的证据证明其存在侵权行为,要求法院驳回原告起诉状,并主张其行为属于“合理使用”。法院已安排在2026年4月2日举行听证会,审理英伟达提出的动议。
起诉书提供的内部记录显示,英伟达面临着OpenAI的竞争压力,为了在2023年开发者大会上展示其领先的技术,不惜通过“影子图书馆”获取数百万本盗版图书来训练其大语言模型。此外,起诉书还指出,英伟达向其客户提供工具和脚本,鼓励并协助他们下载盗版数据集。
大模型热潮之下,陷入训练数据版权纠纷的不止英伟达。OpenAI、xAI、Anthropic、Meta等人工智能巨头也先后遭遇诉讼。Anthropic曾同意支付至少15亿美元达成和解,创下版权赔偿金额纪录。
训练数据的质量与数量对大模型开发起着关键性作用。图书作为高质量的训练数据,在行业内备受青睐。“影子图书馆”的数据更方便易得,满足了训练中对图书类数据的需求。
起诉书显示,英伟达发布了多个NeMo Megatron系列大模型。这些模型是在The Pile数据集上训练的,而The Pile包含一个名为Books3的子集,该子集源自“影子图书馆”Bibliotik,包含约19万本图书。
除了使用The Pile,英伟达还被指控直接与“影子图书馆”合作,使用盗版图书资源训练大模型。其中,全球最大的“影子图书馆”Anna’s Archive是重要数据来源之一。
Anna’s Archive建立于2022年11月,旨在整合多家影子图书馆的资源。起诉书披露了英伟达与Anna’s Archive沟通协商的全过程。内部文件显示,由于行业内激烈的竞争,英伟达在发布NeMo Megatron系列大模型后,迅速与Anna’s Archive合作,获取了数百万本盗版图书数据的访问权限。
“影子图书馆”非法存储并传播大量高质量版权内容,也愿意为大模型开发者提供付费的“优先级下载通道”。Anna's Archive在其官网表示,“大语言模型依赖高质量数据才能蓬勃发展。我们提供高速的企业级访问权限,以换取数万美元级别的捐赠”。
这一商业模式也为“影子图书馆”争取了一线生机。但使用盗版图书资源为大模型公司带来极大的侵权诉讼风险。美国版权局发布的报告指出,数据收集和预处理阶段可能构成对复制权、编辑权、改编权的多重侵害。
Anthropic案之后,更多作家或版权方也在发起诉讼。包括《纽约时报》在内的多家媒体机构指控微软、OpenAI使用其新闻内容训练人工智能模型。OpenAI被要求提供用户日志以证明训练数据的具体使用方式。
在中国,爱奇艺诉MiniMax案同样引发关注。这是国内视频平台首例AI训练数据诉讼。爱奇艺指控MiniMax在人工智能模型训练及内容生成流程中涉嫌侵犯其著作权。同时,MiniMax在美国加州联邦法院遭遇好莱坞巨头的集体诉讼。
本文由主机测评网于2026-07-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260748512.html