Glyph框架：以视觉方式推进长上下文建模

主机测评网
科技资讯
2026-05-06
232

长上下文（Long Context）建模正成为大模型领域的前沿研究热点，它对于赋予大语言模型（LLM）真实生产力至关重要。

理论上，长上下文LLM不仅能实现更全面的语义理解，还能显著提升多步推理与长期记忆能力，从而实现类似人类的“通读全篇、整体思考”。

然而，当上下文窗口扩展到百万级token时，计算与内存成本会大幅上升，限制了长上下文LLM的实际应用。

为应对这一挑战，来自清华大学和智谱（Z.ai）的研究团队摒弃了基于token的序列扩展范式，转而基于“视觉上下文扩展”的新视角，提出了Glyph框架，即将长文本渲染为图像，并通过视觉语言模型（VLM）进行处理。

Glyph框架：以视觉方式推进长上下文建模 Glyph框架长上下文建模视觉语言模型 token压缩第1张

论文：https://arxiv.org/pdf/2510.17800
GitHub：https://github.com/thu-coai/Glyph

实验结果表明，通过持续预训练、由LLM驱动的遗传式渲染搜索，以及有针对性的后训练优化，Glyph在保持与前沿LLM相当精度的同时，实现了3-4倍的token压缩，大幅提高了内存效率、训练和推理速度。

以经典长篇小说“简·爱”（约240k个文本token）为例：

传统的128K上下文LLM无法正确回答需要通篇考虑的问题（如“当简离开桑菲尔德府后陷入困境时，谁给予了她支持？”）
相比之下，Glyph将全书内容呈现为紧凑的图像（约80k视觉token），使128k上下文的VLM能够回答上述问题。

Glyph框架：以视觉方式推进长上下文建模 Glyph框架长上下文建模视觉语言模型 token压缩第2张

图｜（上）两种长上下文任务范式对比：传统方法直接将纯文本输入语言模型，而Glyph将文本渲染为紧凑图像，实现显著的输入token压缩；（下）在LongBench和MRCR测试集上，Glyph展现出具有竞争力的性能，同时在128K token输入规模下，相较其文本基准模型实现了显著的压缩率和推理加速。

更进一步，在极限压缩条件下，一个拥有128K上下文窗口的VLM能够扩展到处理百万级token的文本任务。

研究团队表示，提高token信息密度为长上下文建模提供了一种有前景的新范式，其与现有基于注意力的方法互为补充，且仍有广阔的探索空间。

从上下文工程的角度来看，这种方法提供了一种优化上下文信息表征和管理的新方式。未来，LLM或将突破当前的上下文长度限制，将输入token从百万级扩展到千万级。

研究方法

Glyph的核心目标是让模型以“看”的方式理解超长文本。通过将文本渲染为图像，模型能够在有限的token数量下接收更丰富的上下文信息，实现高效的文本压缩。

Glyph框架：以视觉方式推进长上下文建模 Glyph框架长上下文建模视觉语言模型 token压缩第3张

整体框架包含三个主要阶段：

1.持续预训练

研究团队首先将大规模长文本数据渲染为多种视觉风格，包括文档布局、网页结构、代码展示等形式，以模拟不同类型的真实长文本场景。在此基础上，他们构建多种任务，例如OCR识别任务、图文交错建模任务与视觉补全任务，使模型能够同时学习文字的视觉形态与语义含义。这一阶段的训练帮助模型建立起视觉与语言之间的跨模态语义对齐能力。

2.LLM驱动渲染搜索

在视觉压缩过程中，渲染配置（如字体、分辨率、排版布局）直接影响模型的感知效果与任务性能。为了在压缩率与理解能力之间取得最优平衡，他们提出了一种由LLM驱动的遗传搜索算法。在该框架中，他们在验证集上自动评估不同渲染方案的性能，由LLM分析其优劣并生成新的候选配置。通过多轮迭代，Glyph能够逐步收敛到在语义保持与压缩效率间最优的渲染策略。

3.后训练阶段

在找到最优渲染配置后，他们对模型进行监督微调（SFT）与强化学习优化（使用GRPO算法）。此外，他们引入OCR辅助任务，进一步强化模型的文字识别与细节理解能力。