当前位置:首页 > 科技资讯 > 正文

数据驱动:AI新时代的生存法则

当人工智能社区沉迷于超大模型、十亿级上下文窗口和GPU微调的狂欢时,却忽略了人工智能堆栈中最被低估的力量倍增器——数据。它在一切之上静静发挥作用。

让我们明确一点:尽管扩展模型规模依然重要,但对于大多数现实世界中的人工智能产品,性能提升愈发依赖于数据质量和新鲜度,而非仅仅是参数数量。将模型规模翻倍以获取边际收益不仅成本高昂,而且在环境方面也无法持续,因为惊人的电力和水资源成本限制了其扩展。

瓶颈已从堆栈中转移。

构建AI原生产品的创始人和首席技术官开始意识到,他们的代理无法捕捉到新兴市场的信号,也无法提供空洞的见解,因为“模型”本身“不够智能”——其失败原因在于盲目处理过时、不相关或不完整的数据。因此,Salesforce于2025年5月斥资80亿美元收购了Informatica,以增强其AI驱动的Agentforce平台。现在,他们可以访问高质量的实时数据,从而获得更准确、更可扩展的成果。

性能成败的关键在于你能检索到什么,而不仅仅是你的提示。除非使用H100集群或运行着无限API预算的前沿模型,否则超越巨头的最佳机会是在你负担得起的范围内为模型提供更智能的数据:领域特定、结构化、去重和新鲜的数据。

但在构建情境之前,它必须先存在。这意味着需要可靠、实时地访问开放网络——不仅仅是一次性的数据抓取或数据集,而是能够反映当前情况的强大管道。

各位,这就是基础设施。如果说计算让NVIDIA变得不可或缺,那么我认为下一个重大突破不是更多层,而是更多信号而不是噪声。而这始于将数据采集视为生产基础设施。

“好数据”是什么样的?

如果你正在构建一款AI原生产品,那么系统的智能程度将不再取决于你的提示有多巧妙,或者你能在上下文窗口中塞入多少个标记。而是取决于你能多好地为它提供当下重要的上下文。

但“好数据”的定义相当模糊。让我们澄清一下。它对人工智能的意义如下:

领域特定:AI辅助优化零售定价需要竞争对手数据、客户评论或区域趋势,而非无关的噪音。你必须精准定位。

持续更新:网络瞬息万变。错过今日X趋势的情绪模型或使用上周价格的供应链模型都已过时。

结构化和去重:重复、不一致和噪声会浪费计算并稀释信号。结构胜过规模,干净胜过庞大。

实时可操作:过时的数据就是死数据。实时数据——价格变动、新闻、库存变化——能够为即时决策提供支持。但前提是收集数据必须合乎道德、可靠且规模化。

这就是Salesforce收购Informatica的原因——不是为了新模型,而是为了向Agentforce提供结构化的实时数据,以改善下游决策。

正因如此,IBM于2024年7月斥资23亿美元收购了StreamSets,用于打造Watsonx。StreamSets专注于从混合数据源提取数据、监控数据流并处理模式漂移——这使得IBM能够跨企业系统为Watsonx提供最新、一致的信号。对于需要基于实时状态(而非仅仅基于历史模式)进行推理的AI来说,这种基础设施能够带来10倍的增效效果。

这也是Dataweps转向Bright Data为飞利浦和华硕等电商客户收集实时竞争对手定价和市场趋势的原因。他们的AI驱动定价和竞价系统依赖于快速、准确的数据,而Bright Data的API驱动生态系统(包括代理、存档/数据集、支持AI代理的浏览器自动化工具等)使他们能够可靠且大规模地收集这些数据。Bright Data不仅仅是数据抓取,它还提供了现实世界AI系统所需的弹性、容量和合规性。坦率地说,它是一家AI基础设施提供商。

关键在于:检索质量如今胜过提示工程。即使是最好的提示也无法修复模型在推理时提取过时或不相关数据的问题。

正是现在,正确的环境。这就是后Deepseek时代AI生存或消亡的关键所在。

第一步总是最难的

乍一看,数据基础设施听起来像是管道。采集管道、转换、存储?貌似无聊至极。但在RAG和代理AI时代,这种管道已变得至关重要。为什么?因为你的系统不再只是运行推理——它基于外部、不断变化的多模态实时信息进行推理。这改变了一切。

我认为:现代人工智能数据栈已经发展成为一个成熟的价值链,从信息的获取和提取到信息的转换和丰富再到信息的整理和排序以及存储和提供给合适的组件——无论是模型、代理还是人类。每一层都带来了实时挑战和现实后果。与传统的ETL管道不同,它不仅仅是将数据录入数据湖然后留在那里。

数据驱动:AI新时代的生存法则 数据质量 AI性能 实时数据 数据采集 第1张

大多数团队在第一步就搞砸了:采集。糟糕的数据提取会毁掉上下文。如果你的采集层错过了关键更新在边缘情况下默默地失败或者以错误的结构或语言捕获信息那么你的整个堆栈都会继承这种盲目性。

换句话说:你无法设计你未曾摄取的语境。这里有一篇有趣的论文《AI海洋中的塞壬之歌:大型语言模型中的幻觉调查》作者是Zhang等人。该论文展示了在生产级系统中未解决的摄取问题是“模型幻觉”和其他异常代理行为的最常见根源。

因此RAG和代理AI时代摄取需要具有战略性这是不容置疑的:

它必须对人工智能代理友好也就是说能够提供结构化的即时的数据。

它必须处理动态UI、CAPTCHA、变化的模式和混合提取(API+抓取)。

多步骤AI代理既需要实时信号也需要历史记忆——现在发生了什么之前发生了什么发生顺序如何以及原因。因此该基础设施必须支持定时提取增量更新和TTL感知路由——所有这些都具有弹性合规性并且随时准备应对变化。

它必须具有规模可靠性并能持续从数百万个来源提供最新信息。

并且必须符合网站条款和法律规范。

这就是为什么脆弱的抓取工具静态数据集和一次性连接器不再足够好的原因以及为什么像Bright Data这样专注于自动化友好代理优先数据基础设施的平台正在变得像模型本身一样基础。

我见过像Gemma 3这样的开源开放权重模型在狭窄领域中表现优于GPT-4仅仅是因为新鲜的精选的基于领域的数据让它们能够用于更好的检索系统。

数据采集基础设施究竟是什么样子

那么将数据采集视为一流的基础设施究竟意味着什么呢?

这意味着:

构建循环管道而非负载。数据不应被一次性抓取并存档。它应该按计划进行流式传输刷新和更新——并内置自动化版本控制重试逻辑和可追溯性。一次性转储无法提供持久的智能。

将新鲜度纳入检索逻辑。数据会老化。您的排名和检索系统应将时间漂移视为首要信号——优先考虑能够反映当前世界状态的上下文。

使用基础设施级来源。从自制脚本中抓取原始HTML无法扩展。您需要访问层这些层应提供SLA对验证码的弹性模式漂移处理重试代理编排和合规性支持。

跨模态采集。有价值的信号存在于PDF、仪表板、视频、表格、屏幕截图和嵌入式组件中。如果您的系统只能从纯HTML或Markdown中提取数据那么您就错过了一半的信息。

构建事件原生数据采集架构。//Materialize和时间序列数据库——这些并非只适用于后端基础设施团队。在AI原生系统中它们将成为采集和重放时间敏感信号的神经系统。

“数据采集即基础设施”的真正含义在于将其视为计算资源需要编排抽象扩展和保护而非静态资源。