当前位置:首页 > 科技资讯 > 正文

网络数据抓取:法律与商业挑战的双重考验

网络数据抓取:法律与商业挑战的双重考验 数据抓取 法律挑战 商业风险 合同策略 第1张

随着实时数据访问竞争的加剧,企业面临严峻的法律和运营挑战:网络数据抓取。这一行为从最初由业余爱好者实施,如今已演变成为由商业数据聚合器驱动的复杂生态系统,涉及数百亿元的商业价值。

如今,这些实体通过合法用户的访问权限来绕过技术和合同限制,而非直接入侵平台。了解网络抓取的机制以及聚合器如何利用合同变通方法,对企业和组织至关重要,这样他们就可以通过精心构建的协议和正确实施的技术重新控制他们的数据。

一、数据聚合器如何获取企业数据?

1、网络抓取

2025年2月9日,经济合作与发展组织(OECD)发布了一篇题为《人工智能基于抓取数据的知识产权问题》的专题报告。报告将“数据抓取”定义为“通过自动化工具从第三方网站、数据库或社交媒体平台提取信息的行为”。其核心流程包括数据收集、预处理、存储及模型训练。

数据显示,当前约70%的AI训练数据集缺乏清晰的来源许可信息。例如,大型语言模型(如GPT-3)的训练数据中,超过80%来自Common Crawl等公开网络抓取数据集。尽管数据抓取本身并非恶意行为,但它确实可能用于合法目的,如支持学术研究项目、数字存档或竞争基准测试。

事实上,一家成功的互联网企业可能同时具有数据爬取者和被爬取者两种身份。在通用人工智能全面应用和社会数字化转型的时代,网络数据爬取行为凸显了其重要价值。

2、最终用户同意

为了应对诉讼和公众的强烈反对,许多大型数据聚合器现在避免直接抓取数据。相反,他们通过一种更微妙的方式进行利用:直接与平台的最终用户签订合同,并要求他们提供访问其账户的权限。

例如,金融聚合器可能会要求银行客户登录其网上银行界面来“关联账户”。关联后,聚合器会收集交易历史记录、余额或其他账户数据。即使平台从未授予许可,但由于客户同意,聚合器的访问行为可以说是合法的。

这种变通方法使聚合器能够避开许多直接执法工具。由于聚合器不会入侵平台系统,它们依靠用户同意的幌子来利用客户的访问权限。

二、为何重要?平台和数据主机面临的风险

当数据抓取用于商业目的时,它将触发许多法律问题。未经授权的数据抓取可能违反服务条款、超出访问授权规定或侵犯知识产权。

除了法律风险,数据抓取还会给服务器带来压力、扭曲网站分析并削弱企业控制或商业化自身信息的能力。最初的技术解决方案可能很快就会成为商业和法律的导火索。

三、合同作为新的人工智能法律

2025年6月4日,Reddit起诉人工智能初创公司Anthropic一案震动了科技界。Reddit指控Anthropic非法窃取用户数据用于训练其人工智能。这并非典型的版权纠纷,而是深入探讨了在线服务条款的可执行性以及数字公共资源的所有权。

合同条款而非传统的版权法可能成为管理谁可以使用公开数据训练人工智能模型的主要法律框架。这意味着人工智能开发者需要仔细审查并遵守其数据来源平台的服务条款。

四、解决方案:通过API协议和直接许可进行控制

为了降低商业网页数据抓取的风险,企业需要采取积极主动的措施。通过允许聚合器直接与平台签订合同,平台可以施加限制、跟踪数据使用情况并避免下游抓取或影子访问的风险。

此外,企业还应强化使用条款、评估访问控制并使用技术壁垒以及控制潜在的数据泄露。这些措施有助于维护平台的安全性、业务模式和合法权益。