谷歌近期重新聚焦其核心搜索业务,推出了一项名为URL Context的创新功能,该功能旨在让人工智能具备像人类一样全面“看见”和理解网页内容的能力。这项功能已在Gemini API中全面上线,并于5月28日在Google AI Studio中率先推出,允许Gemini模型直接访问并处理来自URL的丰富内容,包括网页、PDF文档和图像文件。
Google产品负责人Logan Kilpatrick对此功能赞誉有加,称其为Gemini API中最喜爱的工具之一,并建议开发者将其设置为默认开启的“无脑选项”,以简化开发流程。
那么,一个核心问题浮现:这与普通用户将链接直接粘贴到AI对话框中有何本质区别?许多人可能认为这已是常见操作,但实际上两者在处理深度和工作机制上截然不同。普通操作中,AI通常依赖通用浏览工具或搜索引擎插件来获取网页内容,往往只能读取摘要或部分文本,信息获取较为浅显。而URL Context作为一个专为开发者设计的编程接口(API),允许开发者在程序中明确指令Gemini将指定URL的全部内容(最大支持34MB)作为唯一且权威的上下文进行深度解析。这意味着Gemini会对整个文档进行结构化理解,包括其布局、数据关系和细节内容,从而实现更精准的信息提取。
以下是URL Context的核心能力清单:
深度解析PDF文档:能够理解PDF中的复杂元素,如表格、文本层级结构以及脚注注释。
多模态内容理解:支持处理PNG、JPEG等图像格式,并能解析其中的图表、图示和视觉信息。
广泛兼容网页文件格式:轻松处理HTML、JSON、CSV等多种常见网页和数据格式。
开发者可通过官方API文档获取详细配置指南,或在Google AI Studio中进行直观体验和测试。
在Towards Data Science上的一篇文章中,作者Thomas Reid深入探讨了URL Context Grounding,并犀利地将其评价为“RAG技术的又一颗棺材钉”,暗示其可能对传统RAG架构构成挑战。
文章地址: https://towardsdatascience.com/googles-url-context-grounding-another-nail-in-rags-coffin/
RAG(检索增强生成)技术是过去几年提升大语言模型准确性、时效性和可靠性的主流方案。由于大模型的知识受限于训练数据,RAG通过外部知识库提供最新、特定领域的信息。传统RAG流程通常包括内容提取、文本分块、矢量化、向量存储、检索以及增强生成等多个步骤,架构相对复杂。
提取内容:从数据源(如网站或文档)中抓取文本信息。
分块处理:将长文本分割为更小、易于管理的片段。
矢量化转换:使用嵌入模型将文本块转换为数字向量,以捕捉语义信息。
存储管理:将这些向量存储在专用向量数据库中。
智能检索:用户提问时,系统在向量数据库中搜索最相关的文本块。
增强与生成:将检索到的文本块作为上下文,与原始问题一起输入大语言模型,生成针对性回答。
RAG架构示意图。图源:Mindful Matrix
Thomas Reid指出,URL Context Grounding无需传统RAG中的文本提取、分块、矢量化及存储等繁琐步骤。对于处理公开网络内容这一常见场景,它提供了一个极其简化的替代方案。开发者不再需要构建和维护由多组件组成的复杂管道,仅用几行代码即可实现更精准的效果,大幅提升开发效率。
在示例测试中,Gemini仅凭一个指向特斯拉50页财报PDF的URL,就准确提取了位于第4页表格中的“总资产”和“总负债”数据,这超越了仅靠摘要获取信息的局限性。
源自特斯拉SEC 10-Q申报文件第4页的内容展示。
在Google AI Studio的实际测试中,URL Context同样表现出色。
作者进一步测试了URL Context的信息筛选能力。在PDF文档末尾,有一封写给离职员工的信,概述了遣散条款,其中退出日期用星号()标记,原因在脚注中说明。
URL Context成功识别并关联了脚注内容,准确解释了屏蔽信息的原因。
根据所提供的文件,员工离职协议中的离职日期被标记为「」,原因在于某些公司视为隐私或机密的特定非关键信息,已在公开文件中被有意略去。
该文件包含一条对此做法的澄清说明:「本文档中某些已识别的信息已被略去,因为这些信息并非关键信息,且属于公司视为隐私或机密的信息类型,并已用「***」标记以示省略之处。
根据官方介绍,URL Context采用两步检索流程以平衡速度、成本和数据新鲜度。当提供URL时,系统首先尝试从内部索引缓存获取内容,以提高响应速度和成本效益;若URL未缓存(如新发布页面),则进行实时抓取。
然而,URL Context也存在明确的能力边界:
无法突破付费墙限制:对于需要登录或付费访问的内容,它无法处理。
专用工具优先原则:YouTube视频、Google Docs等内容已有专门API处理,URL Context不会介入。
容量限制:单次请求最多处理20个URL,且单个URL内容上限为34MB。
在价格方面,URL Context按处理的内容Token数量计费,内容越多,输入Token越多,成本相应增加。这间接鼓励开发者精确提供信息源,优化应用设计以控制成本。
总体而言,URL Context Grounding的出现并非意味着RAG技术的终结,而是对其应用场景的重新界定。对于企业内网海量私有文档、复杂检索逻辑和高安全性需求场景,构建自主可控的RAG系统仍是必要选择。URL Context揭示了一个行业趋势:基础模型正逐步将外部能力内置化,过去由应用层开发者承担的复杂数据处理工作,正被整合到底层模型服务中,推动AI技术向更高效、易用的方向发展。
本文由主机测评网于2025-12-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251213291.html