【清华代码熊】Agentic RL 背景下 PPO 为什么优于 GRPO? 发布时间:2026/6/26 2:14:28 分类:行业资讯 今天拆解 GLM-5.2 在长程 Agentic 任务下替换 group-wise GRPO 为 critic-based PPO 的逻辑结合我们前段时间解析过的 Agentic-RL 算法总结 与 OPD 算法总结。