哈希游戏- 哈希游戏官方网站- APP下载重磅!智谱把GLM-5的所有技术细节都公开了
2026-02-24哈希游戏,哈希游戏官方网站,哈希游戏APP下载我们推出了 GLM-5,这是一款旨在推动编程范式从“Vibe Coding”(氛围编程)转向“Agentic Engineering”(智能体工程)的下一代基础模型。GLM-5 在前代模型 GLM-4.5 的智能体、推理与编程(Agentic, Reasoning and Coding, ARC)能力基础上,采用稀疏注意力(DeepSeek Sparse Attention,DSA)以大幅降低推理成本,同时保持长上下文能力无损。为了让模型更好地与各类任务对齐,我们构建了一套新型异步强化学习(RL)基础设施,通过将生成过程与训练过程解耦,从而大幅提升了后训练的迭代效率。此外,我们还提出了全新的异步 Agent 强化学习算法,进一步提升强化学习的效果,使模型能够更有效地从复杂、长程交互中学习。基于上述创新,GLM-5 在主流的开放基准测试中实现了 SOTA 性能。最关键的是,GLM-5 在真实世界编程任务中展现出前所未有的能力,在处理端到端软件工程挑战方面超越了此前所有开源基线。代码、模型及更多信息请访问:
图 5 详细展示了 GLM-5 的整体训练流程。在基础模型训练阶段,我们使用了规模达 27 万亿 token 的海量语料库,并在训练初期重点引入代码与推理数据。随后进入中期训练(Mid-training)阶段,我们将上下文窗口从 4K 逐步扩展至 200K,并专门针对长上下文 Agent 数据进行训练,以保障模型在复杂工作流中的执行稳定性。在后训练(Post-training)阶段,我们引入了一套序列化的强化学习(RL)流程:依次在推理、智能体、通用领域进行强化学习。值得注意的是,我们在全流程中应用了跨阶段在线蒸馏(Cross-stage online distillation)技术,有效克服了灾难性遗忘问题。
第一,引入 DSA 稀疏注意力机制(DeepSeek Sparse Attention, DSA)。这一全新架构极大降低了训练与推理成本。此前的 GLM-4.5 依赖标准 MoE 架构提升效率,而 DSA 机制则使 GLM-5 能够根据 Token 的重要性动态分配注意力资源。在不折损长上下文理解和推理深度的前提下,算力开销得以大幅削减。得益于此,我们将模型参数规模成功扩展至 744B(7440 亿),同时将训练 Token 规模提升至 28.5T(28.5 万亿)。
然而,在使用 Muon 优化器的实验中,我们发现具有 576 维潜变量 KV 缓存的 MLA 无法匹配具有 8 个查询组的 GQA(GQA-8,2048 维 KV 缓存)的性能。为弥补性能差距,我们对 GLM-4.5 中 Muon 优化器的方案提出了改进。在原始方案中,我们对多头查询、键、值的上投影矩阵 WUQ、WUK、WUV 应用矩阵正交化。取而代之的是,我们将这些矩阵拆分为适用于不同注意力头的更小矩阵,并对这些独立矩阵应用矩阵正交化。该方法称为 Muon Split,使不同注意力头的投影权重能够以不同速率更新。如表 1 所示,该方法有效提升了 MLA 的性能,使其与 GQA-8 相当。实践中,我们还发现使用 Muon Split 后,GLM-5 注意力分数的规模在预训练期间无需任何裁剪策略即可保持稳定。
MLA 的另一个缺点是其在解码期间的高计算成本。在解码时,MLA 执行 576 维点积运算,高于 GQA 的 128 维计算量。虽然 DeepSeek-V3 中注意力头数量是根据 H800 的 roofline 选择的,但这对其他硬件并不适合。鉴于 MLA 在训练和预填充期间的多头注意力(MHA)风格,我们将头维度从 192 增大到 256,并将注意力头数量减少 1/3。这在保持训练计算量和参数数量不变的同时降低了解码计算量。该变体在表 1 中为 MLA-256,在 Muon Split 下与 MLA 性能相当。
参数共享的多 token 预测(MTP)。多 token 预测可以提升基础模型性能,并作为推测解码的草稿模型。然而,在训练期间,预测接下来的 n 个 token 需要 n 个 MTP 层。因此,MTP 参数和 KV 缓存的显存占用随推测步数线性增长。相比之下,DeepSeek-V3 使用单个 MTP 层训练,并在推理期间预测接下来 2 个 token。训练与推理的不一致性降低了第二个 token 的接受率。因此,我们提出在训练期间共享 3 个 MTP 层的参数。这在保持草稿模型内存成本与 DeepSeek-V3 一致的同时提升了接受率。表 2 显示,在相同推测步数(4 步)的私有提示集上,GLM-5 的接受长度比 DeepSeek-V3.2 更长。
我们在训练中采用了 DSA。DSA 的核心理念是将传统的密集 O(L) 注意力(在 200K 上下文中计算量极为昂贵)替换为动态的细粒度选择机制。与固定模式(如滑动窗口)不同,DSA“审视”内容以决定哪些 token 重要。从研究者角度来看,DSA 特别有趣之处在于它是通过从稠密基础模型进行继续预训练引入的,从而避免了“天文数字”级别的从头训练成本。过渡遵循“稠密预热”与“稀疏训练适配”的两阶段策略。DeepSeek-V3.2-Exp 保持了与其稠密前身相同的基准性能,证明长上下文中 90% 的注意力条目确实是冗余的。DSA 将长序列的注意力计算降低约 1.5-2 倍,这对于我们正在构建的推理密集型 Agent 非常重要,能够以一半 GPU 成本处理 200K 上下文。
DSA 训练从中训练结束时的基础模型开始。预热阶段经历 1000 步,每步在 14 个序列(每个序列有 202752 个 token)上训练,最大学习率为 5e-3。稀疏适配阶段遵循中期训练的数据和超参数设置,经历 20B token。尽管训练预算远小于 DeepSeek-V3.2(943.7B token),我们发现这已足以使 DSA 模型的性能与原始 MLA 模型相当。如表 3 所示,DSA 模型的长上下文性能与 MLA 模型接近。为进一步验证 DSA 训练的有效性,我们分别用相同的 SFT 数据对 DSA 和 MLA 模型进行微调,发现两个模型在训练损失和评估基准上旗鼓相当。
基于搜索的 SWA 模式:受 PostNAS 启发,我们引入了一种基于搜索的适配方法,识别用于 SWA 转换的最优层子集,同时在其余层保留全注意力。我们采用束搜索策略确定能最大化长上下文下游任务性能的配置。为降低计算成本,我们仅在 16K 上下文长度下进行搜索,并将结果模式推广至所有其他输入长度。最终推导出的模式为 SFSSFFSSSFFFFSSFSFFFFFFSFSFSSFSSFSFSSFSSS,其中 S 和 F 分别表示 SWA 和全注意力层。如表 4 所示,这种基于搜索的配置显著优于固定交错方法。值得注意的是,尽管仅在 16K 下优化,该模式仍表现出良好的长度泛化能力,在所有测试的上下文长度下均有效。
表 5 的结果揭示了高效注意力方法之间清晰的权衡层次。原生交错滑动窗口注意力(SWA)在长上下文任务上导致灾难性退化(如 RULER@128K 下降 30.35),而基于搜索的层选择通过在最关键的层保留全注意力,显著缩小了这一差距。线性注意力变体(如 GDN)进一步提升了质量,但代价是增加了额外参数;SimpleGDN 通过最大程度复用预训练权重取得了最佳平衡。然而,所有这些方法在细粒度检索任务上都存在固有的精度差距——即使在一半层保留全注意力的情况下,RULER@128K 上最高损失 5.69 分,RepoQA@128K 上最高损失 7.33 分——这是继续训练适配中高效注意力机制引入的不可避免的信息损失所致。相比之下,DSA 在设计上是无损的:其轻量级索引器在不丢弃任何长程依赖的情况下实现 token 级稀疏性,能够应用于所有层而不降低质量。
表5:长上下文基准测试结果。所有高效注意力变体均从 GLM-9B 全注意力基线模型进行继续训练。SWA pattern 表示基于搜索的层选择方式;SWA interleave 表示固定交替模式。∆@64K 和 ∆@128K 分别表示在 64K 和 128K 上下文长度下相对于全注意力基线-Flash 搭配 DSA 的 RULER 基准测试结果。仅预热变体(warmup-only)只训练索引器而保持基础模型冻结,完整 DSA 变体则对两者进行联合训练,共训练 150B token。
代码数据。我们通过更新主要代码托管平台的快照和更大规模的含代码网页集合来扩充代码预训练语料库,使模糊去重后的 token 增加 28%。为提升语料库完整性并减少噪声,我们修复了 Software Heritage 代码文件中的元数据对齐问题,并采用了更精准的语言分类流程。我们遵循 GLM-4.5 的质量感知采样策略处理源代码和代码相关网页文档。此外,我们还为更多低资源编程语言(如 Scala、Swift、Lua 等)训练了专用分类器,提升了这些语言的采样质量。
软件工程数据。我们保留了将仓库级代码文件、提交差异、GitHub issues、拉取请求和相关源文件拼接成统一训练序列的范式。在 GLM-5 中,我们放宽了仓库级过滤标准以扩大合格仓库池,获得约 1000 万个 issue-PR 对,同时加强了单个 issue 级别的质量过滤以降低噪声。我们还为每个 issue-PR 对检索了更多相关文件,产生了更丰富的开发上下文,并扩大了真实软件工程场景的覆盖范围。过滤后,issue-PR 部分的数据集包含约 160B token。
长上下文数据。我们的长上下文训练集包含自然数据和合成数据。自然数据从书籍、学术论文和通用预训练语料库文档中精选,采用多阶段过滤(困惑度、去重、长度)并对知识密集型领域进行上采样。在合成数据构建中,受 NextLong 和 EntropyLong 启发,我们采用多种技术构建长程依赖关系。高度相似的文本通过交错打包聚合成序列,旨在缓解“中间丢失”现象并提升各类长上下文任务的性能。在 200K 阶段,我们额外加入了少量 MRCR 类数据,并设计了多种变体以扩展 OpenAI 原始范式,以增强扩展多轮对线 内存效率
流水线 梯度分片。在流水线并行中,每个 rank 维护多个 stage,常规实现下每个 stage 均需维护完整梯度 buffer,显存开销较大。受 ZeRO2 思想启发,我们将梯度按数据并行维度分片,使每个 stage 仅持有其对应分片。同时结合双缓冲策略,在任意时刻仅保留两个完整梯度累加 buffer,实现梯度累加与通信同步并行执行,并将完整梯度的常驻显存规模控制在固定范围内。在不引入额外同步开销的情况下,显著降低了梯度相关显存开销。
高效长序列训练。动态长度的长序列训练加剧了数据并行和流水并行之间的负载不均衡。我们通过工作负载建模,在数据并行组之间进行长序列数据重排,一定程度缓解了负载不均衡问题。在此基础上,我们还在数据并行组间动态调整计算负载,进一步缓解了数据并行组间的慢等待问题。此外我们还通过动态创建虚拟 CP 组来缓解固定大小 CP 组带来的一些计算低效问题。最后,我们利用机内/机间的 all2all 通讯重叠来减小端到端的延迟。
DSA RL 要点。我们在 DSA 架构的模型上进行了大规模 RL 训练。与 MLA 相比,DSA 引入了一个额外的Indexer,用于检索前 k 个最相关的 KV 条目,并对检索到的子集进行稀疏注意力计算。检索到的前 k 个结果对 RL 稳定性至关重要。这类似于 MoE 模型使用路由回放来保留激活的前 k 个专家,以确保训练与推理的一致性。然而,在每个 token 位置存储索引器的前 k 个索引显然是不切实际的,因为索引器使用的 k = 2048 远大于 MoE 中通常使用的 k 值,存储所有这些索引将带来巨大的存储开销,以及训练引擎与推理引擎之间显著的通信开销。
我们发现,采用确定性 top-k 算子能有效解决这一问题,与 SGLang 的 DSA Indexer 中使用的基于 CUDA 的非确定性 top-k 实现相比,直接使用原生的 速度稍慢,但具有确定性。它能产生更一致的输出,并带来显著的 RL 增益。相比之下,其他非确定性 top-k 算子(如 CUDA 或 TileLang 实现)在 RL 仅几步后就导致性能急剧下降,并伴随熵值骤降。因此,在我们所有的 RL 阶段中,我们在训练引擎的 DSA Indexer 中默认使用 torch.topk 作为 top-k 算子。此外,我们在 RL 过程中默认冻结索引器参数,从而加速训练并防止索引器出现不稳定的学习行为。
为在异步离策略条件下保持训练稳定性,我们引入了两项关键算法策略。首先,Token-in-Token-out(TITO)代替Text-in-Text-out,通过保留精确的token级别对应关系,消除了 re-tokenization 带来的不匹配问题。其次,我们采用直接双侧重要性采样方法,对 rollout 概率应用 token 级裁剪机制,在无需保留多个历史策略模型权重的情况下有效控制当前训练模型与采样策略偏差。我们还采用了 DP-aware 路由,以在大规模 MoE 模型的长上下文推理过程中最大化 KV 缓存复用,从而加速推理。为了扩展 Agent 环境,我们在三个领域中扩展了可验证的训练环境:超过一万个真实世界软件工程(SWE)任务、终端任务,以及高难度多跳搜索任务。更多 Agent RL 细节请参见第4节。
混合奖励系统。为了给上述多维优化目标提供监督,我们构建了一个集成三种互补奖励信号的混合奖励系统:基于规则的奖励函数、判别式奖励模型(ORM)和生成式奖励模型(GRM)。规则奖励函数可以提供准确的、可解释的信号,但适用范围受限;ORM 提供低方差奖励信号和高训练效率,但可能陷入奖励欺骗(reward hacking),即策略模型(policy model)利用虚假的高分特征来骗取奖励,而非真正提升核心能力;GRM 利用语言模型生成评价与分数,对此类攻击更具鲁棒性,但方差较大。三者组合得到的奖励系统平衡了准确性、训练效率和鲁棒性,缓解了单一类型奖励信号的缺点。
人机协作风格对齐。在通用强化学习阶段,我们没有仅仅依赖模型生成的回复,而是引入了由人类撰写的高质量回复,将其作为风格和质量的对齐锚点。这种做法的动机源于我们的一种观察:纯粹依赖模型回复进行的强化学习,往往会收敛于那些极具辨识度的“机器感”模式——这些模式通常显得冗长、公式化,或者缺乏人类写作中所带有的细腻感。通过强化学习让模型学习人类的回复范式,我们促使模型采用更加自然、更符合人类习惯的回复模式。
在多阶段 RL 流程中,对不同目标的顺序优化可能导致先前获得能力的累积退化。为缓解这一问题,我们将跨阶段在线蒸馏作为最终阶段,采用在线蒸馏算法快速恢复早期 SFT 和 RL 阶段(推理 RL 和通用 RL)获得的能力。具体而言,来自前序训练阶段的最终检查点作为教师模型,训练 Prompts 从相应教师的 RL 训练集中采样并以适当比例混合。目前,我们利用推理引擎获取教师的 logits,批大小设置为 1024,组大小配置为 1 以提高数据吞吐量——在此阶段不再需要每个提示维持大量样本来估计 Advantage,Advantage 直接从与教师模型的差距中计算得出。
我们继续使用 slime 作为 GLM-5 统一的后训练训练框架,实现大规模端到端 RL。GLM-5 充分利用了 slime 的能力:(1) 通过灵活的 rollout 定制化接口和服务化(server-based)的推理方案扩大训练任务的覆盖面;(2) 通过混合精度训练 / rollout 以及多 token 预测(MTP)和预填充-解码(PD)分离大幅降低延迟,特别是在多轮 RL 工作负载下的端到端延迟;(3) 使用基于心跳的容灾和生命周期管理提升稳定性。
GLM-5 后训练的训练目标多样。为了复用同一套系统以支持这些需求,GLM-5 利用了 slime 高度可定制的 rollout 接口和服务化的推理方案。slime 的灵活接口让我们无需修改就能支持多轮交互、工具调用、复杂外部环境接入等训练需求。另外,slime 通过标准 HTTP API 暴露推理服务和路由,允许用户像使用常规推理引擎一样与 slime 交互,实现推理的服务化,将推理逻辑与训练逻辑解耦。
值得注意的是,RL 推理的优化目标不是吞吐量,而是由每步中最慢的(长尾)样本主导的端到端延迟。在实践中,单个 rollout 轨迹可能会延后整体进程,从而直接拖慢训练时间。因此,GLM-5 在 slime 中进行了延迟导向的性能优化和调度:采用多节点推理部署(如跨 8 节点的 EP64 配合 DP64)以提供充足的 KV 缓存;使用 FP8 精度进行推理以降低每个 token 的解码延迟;利用 MTP 来在 RL 中典型的小批次解码场景下获得显著性能收益;通过 PD 分离确保在多轮交互的训练任务中解码速度的稳定,从而显著改善长程 Agent RL 训练中的长尾问题,提升训练效率。
在这一节中,我们描述从氛围编程(vibe coding)到智能体工程(agentic engineering)的转变。在氛围编程中,人类提示 AI 模型编写代码;而在智能体工程中,AI Agent 自行编写代码——它们进行规划、实现和迭代。为支持这些长程任务,GLM-5 利用完全异步且解耦的 RL 框架,通过减少 Agent rollout 期间的空闲时间显著提升 GPU 利用率。为扩展 Agent 环境,我们开发了环境构建流程:对于编程 Agent,通过创建超过 上万个可验证训练场景来搭建真实世界软件工程问题和终端任务;对于搜索 Agent ,我们开发了自动化且可扩展的复杂多步推理数据合成流程。
由于 rollout 过程的长尾特性,原生同步 RL 训练在 rollout 阶段会引入大量“气泡”,因为 Agent 任务的生成严重不均衡,导致大量 GPU 空闲时间。为提升训练吞吐量,我们对 Agent RL 采用完全异步训练范式以提升 GPU 利用率和训练效率。具体而言,我们将训练引擎和推理引擎解耦到不同 GPU 设备上。推理引擎持续生成轨迹,一旦生成轨迹数量达到预定阈值,该批次就被发送到训练引擎用于模型训练。为减少策略滞后并保持训练的近似同策略性,推理模型使用的模型权重会定期与训练侧同步。
基于服务的多任务训练设计。为解决多任务 RL 中轨迹生成的异构性(不同任务通常依赖不同的工具集和任务特定的 rollout 脚手架),我们引入了基于服务器的 Multi-Task Rollout Orchestrator。该组件被设计通过具有多个注册任务服务的中央编排器,确保 slime RL 训练框架与多样化下游任务之间的无缝兼容性。每个任务以独立微服务形式实现其 rollout 和奖励逻辑,注册到中央编排器进行管理和调度。该编排器支持超过 上千并发 rollout,实现了任务采样比例的自动化动态调整和任务进度的细粒度监控。
用于 token 裁剪的直接双侧重要性采样。与第3节的同步 RL 训练设置不同,在异步设置中,rollout 引擎可能在单个轨迹生成过程中经历多次更新,这使得追踪历史训练侧模型的精确行为概率在计算上不可行。为解决这一问题,我们首先采用简化的 token 级重要性采样机制,将 rollout 期间生成的对数概率作为直接行为代理,通过计算$ r_t(θ) = π_θ/π_{rollout} $并丢弃传统的 $π_{θ_{old}}$ 来消除单独旧策略推理的计算开销。其次,我们采用双侧校准 token 级掩码策略,将信任域限制在$ [1-ε_l, 1+ε_h]$,对落在此区间之外的 token 完全屏蔽梯度计算。实验中我们发现,复用推出对数概率接受受控程度的离策略偏差,以绕过历史策略追踪需求同时提升训练稳定性。
丢弃离线程度高的样本和噪声样本。在异步 RL 中,过长的轨迹可能变得高度离策略,从而破坏训练稳定性。我们记录 rollout 引擎在生成时使用的策略权重版本,丢弃最旧 rollout 版本过时的样本。此外,Coding Agent 沙箱可能因模型无关的原因(如环境崩溃)而不稳定,引入噪声训练信号。我们记录每个样本的失败原因,排除因环境崩溃而失败的样本,并在有效样本超过组大小一半时通过重复有效样本来补齐不完整组,否则丢弃整个组。
用于加速的 DP 感知路由。我们提出一种 DP 感知路由机制,在大规模 MoE 推理的数据并行下保留 KV 缓存局部性。在多轮 Agent 工作负载中,来自相同 rollout 的顺序请求共享相同前缀,我们通过一致性哈希将每个 rollout ID 映射到固定 DP rank,并结合哈希空间上的轻量级动态负载重新平衡来防止长期不均衡。这避免了冗余预填充计算,无需跨 DP rank 的 KV 同步,随着 rollout 长度增加,预填充成本仍与增量 token 成正比。
在构建可执行环境之前,我们收集了大量真实世界的 Issue-PR 对,并应用严格的基于规则和 LLM 的过滤,确保获取真实高质量的 issue 描述。我们将这些实例分类为不同任务类型(错误修复、功能实现、重构等)并包含必要的任务需求。我们采用基于 RepoLaunch 框架的环境设置流程,自动分析仓库的安装和依赖设置以构建可执行环境并生成测试命令,再利用 LLM 从测试输出生成语言感知的日志解析函数,实现失败转通过(F2P)和通过转通过(P2P)测试用例的提取。使用该流程,我们跨数千个仓库、涵盖 Python、Java、Go、C、C++、JavaScript、TypeScript、PHP 和 Ruby 9 种编程语言,构建了超过 10000 个可验证环境。
从种子数据合成。为大规模构建可验证的终端 Agent 环境,我们设计了一个包含三个阶段的 Agent 数据合成流程:任务草稿生成、具体任务实现和迭代任务优化。从真实世界软件工程和基于终端的 computer-use 场景收集的种子任务出发,利用 LLM 头脑风暴并生成大量可验证的终端任务草稿。这些草稿由构建 Agent 在 Harbor 格式中实例化为具体任务,包括结构化任务描述、Docker 化执行环境和相应的测试脚本。随后,精炼 Agent 根据手动定义的评分标准检查并迭代优化生成的任务。整体流程产生数千个多样化且可验证的终端 Agent 环境,Docker 构建精度超过 90%。
从网页语料库合成。我们开发了一个可扩展的自动化流程,基于网页语料库构建了 LLM 验证的、基于终端的编程任务,采用闭环设计,其中构建 Agent 同时充当其第一轮评估者。我们收集大规模代码相关网页并应用数据质量分类器进行过滤,然后对易于终端式任务表述的网页进行分层采样。接着,我们提示 Coding Agent 合成完整的终端任务,并执行 Harbor 验证脚本对其输出进行验证,失败时迭代诊断和修订任务直至通过所有自动化检查。只有成功通过此自验证循环的任务才被纳入最终数据集。
对于深度搜索信息检索任务,我们构建了一个数据合成流程,生成具有挑战性的多跳问答对。每个问题需要基于从多个网络来源汇聚的证据进行多步推理。从早期搜索 Agent 的轨迹出发,我们收集并去重所有访问的 URL,保留覆盖多样领域的超过 200 万个高信息量网页,通过 LLM 对实体进行识别、噪声过滤和结构化信息提取,持续更新 Web 知识图谱(WKG)。基于 WKG,我们以低至中频实体为种子节点,扩展其多跳邻域形成完整子图,然后将每个子图转化为隐式编码多实体关系链的问题。我们应用三阶段流程平衡难度与正确性:(1)删除不使用工具推理模型在 8 次独立尝试中至少解对一次的问题;(2)过滤可被早期 Agent 用基本搜索在几步内解决的问题;(3)设计 Verification Agent 进行双向验证,拒绝具有非唯一答案、不一致证据或错误标签的样本,最终获得高质量、高难度、可靠的多跳问答对。
我们发现 BrowseComp 上的性能对裁判提示和裁判模型均敏感,开源模型作为裁判可能引入系统性偏差。为确保一致性和可重现性,我们判定答案正确性采用官方 OpenAI 评估提示和闭源模型 o3-mini 作为组件。先前工作引入了上下文管理,其中 Discard-all 策略通过删除整个工具调用历史来重置上下文。我们进一步观察到,在极长上下文(如超过 100K token)下,模型性能会显著下降。受此启发,我们采用简单的“Keep-recent-k”策略:当交互历史超过阈值 k 时,最近 k 轮之前的工具内容将被折叠以控制上下文长度,我们设定 k=5,从而将 GLM-5 从 55.3%(不含保留最近 k 轮)稳定提升至 62.0%(含保留最近 k 轮)。
在此基础上,我们将 Keep-recent-k 与 Discard-all 结合,形成混合层次上下文管理策略:在使用 Keep-recent-k 进行推理时,如果总上下文长度超过阈值 T,则丢弃整个工具调用历史并以新上下文重新开始,同时继续应用 Keep-recent-k 策略,通过参数搜索选取 T=32K。如图 8 所示,在不同计算预算下,该策略有效释放上下文空间,使模型能够执行更多步骤并持续改进性能,最终得分达到 75.9,超越所有配备上下文管理的开源模型。
训练策略。这些信号在RL过程中综合利用,以提高生成的HTML结构的有效性,增强布局组织,并提升整体视觉美学质量。除了奖励设计外,我们还通过动态采样重新调整训练分布。具体来说,一部分结构简单的样本会按概率被丢弃,从而使优化过程能够集中于更具挑战性的页面,并在复杂组合场景下提高鲁棒性。我们还采用了基于令牌级的策略梯度损失来稳定优化过程。此外,我们引入了一种平衡策略,将同一样本的不同结果分布到多个训练批次中,从而减少优化偏差并提高训练稳定性。
W4A8 混合精度量化:为了让单台 Atlas 800T A3 服务器能够容纳高达 750B 参数的 GLM-5,我们设计了精密的混合精度量化策略。具体而言,标准的 Attention 和 MLP 模块采用 W8A8(INT8)量化,而 MoE 专家模块则被进一步压缩至 W4A8(INT4)。这一设计在不显著牺牲精度的前提下,大幅削减了显存占用。同时,我们引入了 QuaRot 异常值抑制与 Flex_AWQ_SSZ 缩放校准等先进算法,为低精度部署的稳定性保驾护航。
高性能定制融合算子:针对昇腾 NPU 在处理稀疏注意力时的计算瓶颈,我们开发了一套专属的融合算子。其中,Lightning Indexer 将分数计算、ReLU 激活与 TopK 聚合为单一算子,实现了计算与访存的流水线重叠;Sparse Flash Attention 针对 GLM-5 的稀疏模式进行了专项调优,实现了 KV Cache TopK 检索与稀疏注意力计算的并行执行;此外,MLAPO(多头潜变量注意力预处理优化) 创造性地将 13 个碎片化的预处理算子融合成一个“超级算子”,通过充分调用向量与矩阵单元的并行算力,极大提升了端到端效率。
专项推理引擎优化:我们深度适配了 vLLM-Ascend 与 SGLang 两大主流推理引擎。在 vLLM 中,我们引入异步调度机制,将 Device-to-Host (D2H) 的采样数据回传与下一步解码的准备工作完美并行,有效消除了调度“气泡”;借助 RadixCache(前缀共享)和前缀缓存(将 KV 存储卸载至系统内存)技术,实现了 KV Cache 的高效复用,这成为突破长上下文性能的关键;我们还采用了注意力数据并行(DP)与 MoE 专家并行(EP)相融合的混合并行策略,并搭配 FlashComm 切分 AllReduce 通信;最后,通过支持单步生成多个 token 的 MTP 技术,进一步拉高了 NPU 的计算密度并缩短了总生成耗时。
如上所述,GLM-5 标志着从 Vibe Coding 到 Agentic Engineering 新时代的转变。我们首先在智能体、推理和编程(ARC)基准测试上评估 GLM-5 与前沿模型的表现。为全面评估 GLM-5 在真实世界的 Agentic Engineering 场景中的性能,我们提出新的内部评估基准 CC-Bench-V2,涵盖前端、后端和长程任务。最后,我们在五个常见的真实场景中评估了 GLM-5 的通用能力。
长程任务:我们先评估模型在大规模代码库中的信息检索能力,这是像人类开发人员一样定位正确文件并理解项目上下文的前提。然后,我们通过多步链式任务评估端到端正确性。这些任务通过挖掘具有丰富 commit 历史的已合并过的 Pull Request,并将这些 commit 聚类来构建连贯的任务链。Agent 按顺序执行这些任务链,以测试其维持上下文并处理各阶段间依赖关系的能力。评估过程结合单元测试和 Agent-as-a-Judge 来验证功能正确性和代码语义合理性。
每个测试样例由一个具体任务需求和一份检查清单组成,其中每个检查项都和需求点对应。评估流程有两个阶段:1) 静态验证:检查生成代码能否成功构建并运行。2) Agent-as-a-Judge:对可正确运行的代码,使用 GUI Agent 模拟人工测试,交互式验证每个检查项,并按需求满足情况打分。我们定义了以下指标:构建成功率 (Build Sucess Rate, BSR),成功初始化并运行的项目占比;实例成功率 (Instance Success Rate,ISR) ,通过所有检查项的项目占比;检查项成功率 (Check-item Success Rate,CSR) ,所有检查项的细粒度完成率。
Agent-as-a-Judge:前端天然具有可视化与交互性,很多缺陷往往只有在用户点击按钮或调整窗口大小等操作时才会暴露,静态分析与固定单元测试不足以覆盖。因此我们引入了 Agent-as-a-Judge(图 10):每个生成好的项目先部署到 Docker 容器中并构建,以验证静态正确性;构建成功的实例随后移交给 Judge Agent(Claude Code + Claude Sonnet 4.5,配备 Playwright MCP 工具)执行闭环评测循环:对每个检查项,Agent 会阅读源码、进行实时 UI 交互(点击、按键、截图)、检查终端输出等,并给出通过或失败的判断结果。
为实现完全自动化的评估,每个任务都配备了人工编写的单元测试(每个任务 5 - 10 个),用于验证功能正确性和边界情况处理。任务格式参考 terminal-bench 风格:在基于项目真实环境初始化的 Docker 容器内运行,向 Agent 提供具体任务描述以解决任务。我们报告 Pass@1 指标,即只有当任务关联的所有单元测试全部通过时,才视为解决。这种严苛的“全有或全无”标准使得该基准测试极具挑战性:GLM-5 和 Claude Opus 4.5 的表现相当(见表 8),两者均显著领先于 GLM-4.7。
大规模代码库探索(Large Repo Exploration):这是任何复杂编码任务的前提,是在大型陌生仓库中定位正确源文件。我们针对包含数万个文件的真实 GitHub 高星仓库构建了自动化基准。每个问题均以自然、面向业务的语义表述,严格不提文件名、类名、函数名。并且问题通常要求多跳逻辑推理,才能从用户的描述映射到实际的代码实现。例如,“关于生成视频中口型同步不准”这一问题,实际对应到视频生成后端中的参数调整模块。目标文件的选择旨在最大化探索难度:它们至少位于三级目录深处;命名晦涩,难以关键词检索;功能在仓库内具有唯一性(无重复实现);且在主功能路径之外。
我们在 SWE-rebench 上进行评估,因为 SWE-bench Verified 是一个静态、公开、人工验证的测试集,发布已超过 2 年。相比之下,SWE-rebench 基于自动化流程,持续挖掘新鲜的、真实的 GitHub issue 修复任务,实现去污染(decontaminated)、对时间鲁棒(time-robust)的评估,更好地衡量对新软件工程问题的泛化能力,而非对静态基准的记忆表现。表 9 展示了 GLM-5 在 SWE-rebench 上的官方性能,表明 GLM-5 能够有效泛化到新的 SWE 问题。
ZMultiTransBench:这是一个内部数据集,包含 1220 个样本,源自自主搜集的高频翻译场景,涵盖七个语种对:中译西 (300)、中译俄 (250)、中译法 (220)、中译韩 (200)、中译日 (150)、中译阿 (50) 以及中译德 (50)。所有样本均由经过正规翻译学训练的研究生完成筛选、翻译,并进行独立核验。该数据集强调自然发生的使用场景,而非人工构造的测试用例。评估采用与固定基准回复进行成对比较的方式。评判由基于 GPT-4.1 的自动评估器给出,评估维度包括语义忠实度、流畅性和整体翻译质量。
MENT-SNS:为进一步评估模型在语言学上更具挑战性的语境中的鲁棒性,我们采用了来自 MENT 的源句,包含 753 个英汉句对,涵盖四个领域:社交网络服务 (SNS)、跨文化、诗歌和文学。选择这些领域是为了在复杂语言现象下进行压力测试,包括俚语、谐音双关、惯用表达、历史典故和隐喻性语言。与 ZMultiTransBench 类似,所有样本均由受过专业训练的研究生完成筛选与核验。评估沿用与基线回复进行两两比较的方式,并由 GPT-4.1 担任自动评审模型。
ToolCall-Badcase:ToolCall-Badcase 是一个源自生产环境中用户报告的工具调用场景失败案例的内部基准。每个实例都关联了一个可验证的标准答案工具调用,从而能够对工具选择和参数正确性进行客观评估。评估过程考核模型 (1) 是否调用了正确的工具,以及 (2) 是否提供了结构正确且语义准确的参数。所有样本都经过多轮审核、改写和验证,以消除歧义并确保可评估性。最终生成的数据集包含 200 个精选测试案例,反映了真实的工具调用能力。
本文介绍了 GLM-5 这一下一代基座模型的研发工作。在应用层,GLM-5 成功实现了从 Vibe Coding 范式向真正的 Agentic Engineering 的演进,这表明在处理高度复杂的真实工作流时,开源模型如今已能提供与顶尖闭源系统相媲美的能力。总体而言,GLM-5 带来了 AI 落地效能的范式转变。通过开源 GLM-5,我们致力于助力开源社区突破传统静态评测的边界,探索高能效通用人工智能(AGI)的前沿。我们期望以此为契机,共同开启由 AI 智能体自主规划、执行并优化复杂任务的新时代。
上线仅几天,Pony Alpha 就在 OpenRouter 社区引发了轰动。开发者们敏锐地察觉到了它在处理复杂代码、Agent 任务链路及角色扮演时的卓越能力。这种“神秘的强大”引发了广泛猜测:初步统计显示,25% 的用户推测它是 Anthropic 的 Claude Sonnet 5,20% 认为是 Grok 的新版本,10% 猜是 DeepSeek V4,而其余用户则成功猜中了 GLM-5。


