当前位置：首页 > 科技资讯 > 正文

谷歌URL Context功能上线：AI实现网页深度视觉解析与RAG技术革新

主机测评网
科技资讯
2025-12-27
846

谷歌近期重新聚焦其核心搜索业务，推出了一项名为URL Context的创新功能，该功能旨在让人工智能具备像人类一样全面“看见”和理解网页内容的能力。这项功能已在Gemini API中全面上线，并于5月28日在Google AI Studio中率先推出，允许Gemini模型直接访问并处理来自URL的丰富内容，包括网页、PDF文档和图像文件。

谷歌URL Context功能上线：AI实现网页深度视觉解析与RAG技术革新 URL Context Gemini API RAG技术多模态AI 第1张

Google产品负责人Logan Kilpatrick对此功能赞誉有加，称其为Gemini API中最喜爱的工具之一，并建议开发者将其设置为默认开启的“无脑选项”，以简化开发流程。

谷歌URL Context功能上线：AI实现网页深度视觉解析与RAG技术革新 URL Context Gemini API RAG技术多模态AI 第2张

那么，一个核心问题浮现：这与普通用户将链接直接粘贴到AI对话框中有何本质区别？许多人可能认为这已是常见操作，但实际上两者在处理深度和工作机制上截然不同。普通操作中，AI通常依赖通用浏览工具或搜索引擎插件来获取网页内容，往往只能读取摘要或部分文本，信息获取较为浅显。而URL Context作为一个专为开发者设计的编程接口（API），允许开发者在程序中明确指令Gemini将指定URL的全部内容（最大支持34MB）作为唯一且权威的上下文进行深度解析。这意味着Gemini会对整个文档进行结构化理解，包括其布局、数据关系和细节内容，从而实现更精准的信息提取。

以下是URL Context的核心能力清单：

深度解析PDF文档：能够理解PDF中的复杂元素，如表格、文本层级结构以及脚注注释。

多模态内容理解：支持处理PNG、JPEG等图像格式，并能解析其中的图表、图示和视觉信息。

广泛兼容网页文件格式：轻松处理HTML、JSON、CSV等多种常见网页和数据格式。

开发者可通过官方API文档获取详细配置指南，或在Google AI Studio中进行直观体验和测试。

谷歌URL Context功能上线：AI实现网页深度视觉解析与RAG技术革新 URL Context Gemini API RAG技术多模态AI 第3张

在Towards Data Science上的一篇文章中，作者Thomas Reid深入探讨了URL Context Grounding，并犀利地将其评价为“RAG技术的又一颗棺材钉”，暗示其可能对传统RAG架构构成挑战。

谷歌URL Context功能上线：AI实现网页深度视觉解析与RAG技术革新 URL Context Gemini API RAG技术多模态AI 第4张

文章地址： https://towardsdatascience.com/googles-url-context-grounding-another-nail-in-rags-coffin/

RAG（检索增强生成）技术是过去几年提升大语言模型准确性、时效性和可靠性的主流方案。由于大模型的知识受限于训练数据，RAG通过外部知识库提供最新、特定领域的信息。传统RAG流程通常包括内容提取、文本分块、矢量化、向量存储、检索以及增强生成等多个步骤，架构相对复杂。

提取内容：从数据源（如网站或文档）中抓取文本信息。

分块处理：将长文本分割为更小、易于管理的片段。

矢量化转换：使用嵌入模型将文本块转换为数字向量，以捕捉语义信息。

存储管理：将这些向量存储在专用向量数据库中。

智能检索：用户提问时，系统在向量数据库中搜索最相关的文本块。

增强与生成：将检索到的文本块作为上下文，与原始问题一起输入大语言模型，生成针对性回答。

谷歌URL Context功能上线：AI实现网页深度视觉解析与RAG技术革新 URL Context Gemini API RAG技术多模态AI 第5张

RAG架构示意图。图源：Mindful Matrix

Thomas Reid指出，URL Context Grounding无需传统RAG中的文本提取、分块、矢量化及存储等繁琐步骤。对于处理公开网络内容这一常见场景，它提供了一个极其简化的替代方案。开发者不再需要构建和维护由多组件组成的复杂管道，仅用几行代码即可实现更精准的效果，大幅提升开发效率。

在示例测试中，Gemini仅凭一个指向特斯拉50页财报PDF的URL，就准确提取了位于第4页表格中的“总资产”和“总负债”数据，这超越了仅靠摘要获取信息的局限性。

谷歌URL Context功能上线：AI实现网页深度视觉解析与RAG技术革新 URL Context Gemini API RAG技术多模态AI 第6张

源自特斯拉SEC 10-Q申报文件第4页的内容展示。

在Google AI Studio的实际测试中，URL Context同样表现出色。

谷歌URL Context功能上线：AI实现网页深度视觉解析与RAG技术革新 URL Context Gemini API RAG技术多模态AI 第7张

作者进一步测试了URL Context的信息筛选能力。在PDF文档末尾，有一封写给离职员工的信，概述了遣散条款，其中退出日期用星号（）标记，原因在脚注中说明。

谷歌URL Context功能上线：AI实现网页深度视觉解析与RAG技术革新 URL Context Gemini API RAG技术多模态AI 第8张

URL Context成功识别并关联了脚注内容，准确解释了屏蔽信息的原因。

根据所提供的文件，员工离职协议中的离职日期被标记为「」，原因在于某些公司视为隐私或机密的特定非关键信息，已在公开文件中被有意略去。

该文件包含一条对此做法的澄清说明：「本文档中某些已识别的信息已被略去，因为这些信息并非关键信息，且属于公司视为隐私或机密的信息类型，并已用「***」标记以示省略之处。

谷歌URL Context功能上线：AI实现网页深度视觉解析与RAG技术革新 URL Context Gemini API RAG技术多模态AI 第9张

根据官方介绍，URL Context采用两步检索流程以平衡速度、成本和数据新鲜度。当提供URL时，系统首先尝试从内部索引缓存获取内容，以提高响应速度和成本效益；若URL未缓存（如新发布页面），则进行实时抓取。

然而，URL Context也存在明确的能力边界：

无法突破付费墙限制：对于需要登录或付费访问的内容，它无法处理。

专用工具优先原则：YouTube视频、Google Docs等内容已有专门API处理，URL Context不会介入。

容量限制：单次请求最多处理20个URL，且单个URL内容上限为34MB。

在价格方面，URL Context按处理的内容Token数量计费，内容越多，输入Token越多，成本相应增加。这间接鼓励开发者精确提供信息源，优化应用设计以控制成本。

总体而言，URL Context Grounding的出现并非意味着RAG技术的终结，而是对其应用场景的重新界定。对于企业内网海量私有文档、复杂检索逻辑和高安全性需求场景，构建自主可控的RAG系统仍是必要选择。URL Context揭示了一个行业趋势：基础模型正逐步将外部能力内置化，过去由应用层开发者承担的复杂数据处理工作，正被整合到底层模型服务中，推动AI技术向更高效、易用的方向发展。

免费服务器