当前位置:首页 > 科技资讯 > 正文

AI Agent驱动时代:重塑数据基座架构

随着大模型技术的飞速发展,AI Agents驱动的新一代AI原生应用正蓬勃发展,并获得了巨大成功。这些应用以大模型为基础,通过各类Agents和应用数据交互,智能完成各种任务。然而,AI Agents驱动的应用开发迭代迅速,同时需要维护多种模态的数据,不同模态数据的访问模式和流量差异巨大,这些特点为底层数据平台提出了新的挑战。

在InfoQ举办的QCon全球软件开发大会(北京站)上,晨章数据创始人、首席架构师陈亮发表了题为《面向AI Agents的高性能数据基座:架构和工程实践》的演讲,分享了关于AI时代数据基座架构的思考,以及如何通过该架构解决AI原生应用的数据挑战,并探讨了如何在云计算、新硬件环境下实现高性能数据基座的工程实践。

以下是演讲的精华内容(经InfoQ编辑整理)。

AI Agent驱动的AI原生应用

今天,AI Agent正引领着软件范式的变革。在AI时代之前,我们讨论的是SaaS,彼时软件作为工具构建了一个工作流程,帮助人们完成某些工作。而SaaS变成AI驱动后,软件变得更加智能,变成了智能体,可以执行复杂的任务,甚至自我演化和改进。从这个角度看,它不再是一个帮助人的工具,而是一个直接提供服务的智能体。

在SaaS时代,SaaS软件有工作流程,用户提供一个输入,软件帮助完成某些任务。在此过程中会收集大量数据,这些数据会被存储在某个数据库里,通常是结构化数据。这里有一个显著的特点:第一个数据是由软件生成的,或者说是软件的排放物。因此,在这样一个架构下,人们对数据有比较简化的期待。

第一个数据的格式通常由开发人员定义。因为这是我写的软件,所以我可以定义数据的属性、格式等。同时,数据也是在软件的运行过程中不断收集的,这意味着数据量随着软件规模和用户互动而增长,总体上是可控的。

然而,随着软件越来越复杂,收集的数据越来越多,最终数据的格式可能会变得更加复杂。这时需要更智能的分析,但这个过程是一个相对缓慢的过程,随着软件的流行和用户量的增加而发展。许多软件可能没有爆款,对数据的需求也就不那么高。

在Agent时代会有什么变化?首先,在Agent场景中,工作流程不再是传统的工作流。开发者更多关注Agent的编排。我们会有很多个Agent。当然核心是大模型,我们怎么用大模型去驱动不同的Agent?这里有一个关键点:在今天我们刚开始开发应用时就需要有数据。这些数据可能来自知识库或外部的结构化数据,作为Agent的燃料。大模型更像驱动引擎,因为它只能提供通识性的东西,要实现非常领域特定的任务是有困难的。所以我需要很多数据,而且是行业的数据。但这个数据是外部来的,所以数据的格式和规模可能不是我所能完全掌控的。

AI与用户不断交互还会产生更多数据。同时它会生成底层的数据。我接触了很多Agent开发的项目,发现它们在第一天就考虑数据的反哺。换句话说,我不但要收集数据,还要用数据丰富我的知识库。最终我提供的是一个服务,用户看到的是整体的服务。

举一个金融场景的例子:

AI Agent驱动时代:重塑数据基座架构 Agents 多模态数据 数据基座 高性能 第1张

这里有4个Agent,一个负责市场分析,一个关注风控等。从数据角度看,在这个App里可能需要多种不同的数据库。例如用户信息通常存储在关系型数据库里;财报是半结构化的数据;如果外部知识库很大且包含很多日志,它可能存储在Mongo里。

Pinecone和Elastic在大模型时代非常重要。当我们提到文本搜索时,向量和全文搜索往往要一起做。同时可能还需要Ranker和基于图的知识库。因为用户有反馈时Agent需要对话信息且延时要求短,所以我们需要基于内存的数据库。

所以在搭建Agent应用的第一天就可能涉及多种数据库。

AI原生应用面临的数据挑战

从系统角度看AI时代的这些特点给数据库管理带来很多挑战。第一个挑战是我们希望数据库有多模态支持;第二个挑战是多个数据库之间的数据同步和数据一致性;第三个挑战是不同数据库对性能、规模等属性的要求不同;最后一个挑战是多系统的运维和管理。

总结来说AI Agent驱动的应用在早期就会面临传统大厂才有的数据挑战同时数据飞轮在AI Agent时代迭代更加迅速加剧了数据库系统的压力。

多模态数据基座

在这样的背景下我们的思考是应该做哪些事情能否有一个统一的数据架构来做这样的事情。最终方向是多模态的数据基座。

AI Agent驱动时代:重塑数据基座架构 Agents 多模态数据 数据基座 高性能 第2张

我们的设计目标有三点:第一点是支持多种数据模态;第二点是动态伸缩自动管理;第三点是跨模态访问和一致性。

面向未来的工程实践

谈到工程实践我们先来看看AI时代基础设施环境是什么样子。我们有云计算、高速网络、高速存储设备以及GPU这样的新型计算设备提供巨大的算力。

过去十年来CPU性能增长了一倍半而存储性能增长了11倍以上网络性能有20倍的增长。按照这个趋势发展未来我们的存储或数据基座设备会变成CPU瓶颈因为IOPS在快速增长而CPU增长缓慢。

总结和展望

总的来说我觉得AI Agent时代会带来软件范式的变革软件范式变革必然会让数据管理产生巨大的变化。总结起来我们希望有多模态的支持有原生API的支持有高性能的支持我们希望扩缩容更加方便从管理来讲会更加易用。最后结合工程实践我们在性能方面也有一些新的思考。希望这次的分享能给大家带来启发谢谢。

嘉宾介绍

陈亮北京晨章数据科技有限公司创始人首席架构师。前微软亚洲研究员首席研究员。数据库领域顶级专家。微软SQLServerXML索引发明人和架构师微软CosmosDB图数据库架构师。曾在SIGMOD、VLDB、ICDE等国际顶级会议上发表多篇学术论文。