当前位置:诺佳网 > AI人工智能 > 大模型 >

"AgenTracer: Who Is Inducing Failure in the LLM Agentic

时间:2025-09-08 | 栏目:大模型 | 点击:

介绍

(1) 发表:Arxiv 09.03

(2) 背景

查明对长执行跟踪链路中错误负责的特定代理或步骤被定义为代理系统故障归因的任务。然而,当前最新的推理 LLMS 仍不为此挑战而明显不足,精度通常低于10%

尽管现有工作已经作出了初步尝试,但他们仍然存在实质性的研究差距:① 培训资源(涉及大规模注释的多代理轨迹的自动构建) ② 方法论(开发迅速而准确的多代理故障归因器)

(3) 贡献

方法

image-20250908142417853

(1) AgenTracer: 自动化轨迹注释

(2) AgenTracer-8B: 训练代理故障归因器

整理完数据集后,继续训练代理故障归因器 AgenTracer-8B,其基础模型设置为 Qwen3-8B。这里基于一种广泛使用的在线 RL 方法,即群体相对策略优化(GRPO)进行实验

通过这些设计的在线强化学习,我们得到了一个基于推理的多智能体故障归因器 AgenTracer-8B

实验

(1) 故障归因的表现

image-20250908162813340

可以看到现有的先进 LLM 效果有限, AgenTracer-8B 用小参数基本上达到了最领先的效果

(2) AgenTracer 的实用价值

在确定了 AgenTracer 在故障归因方面的准确性之后,一个自然的问题就出现了:它提供了什么实用价值?最直接的答案是它有可能为失败的基于 LLM 的代理系统提供可作的反馈,从而实现快速的自我改进。为了评估这种能力,我们将 AgenTracer-8B 与两种经典的自我改进方法进行了比较

具体来说,当代理系统 M 完成一个解决问题的情节并产生一个失败的轨迹 τ 时,我们向 AgenTracer-8B 或 Self-Refine/CRITIC 提供 τ (w/o G)。然后,每种方法都会生成有关故障的反射反馈(对于 AgenTracer-8B,这对应于 ⟨think⟩ · · · ⟨/think⟩ 中提取的推理轨迹)。随后,在下一轮问题解决过程中,这些反馈被注入 M,目的是利用外部批评来提高其性能。我们将这个过程迭代了三轮,Self-Refine 和 CRITIC 都是使用 GPT-4.1 实例化的

image-20250908164044370

结论

这项工作为研究代理系统故障归因奠定了原则基础。AgenTracer 提供了第一个能够系统地生成带注释的故障轨迹的自动化框架,在实际多代理框架中部署时还能产生一致的性能提升(个人认为非常好的工作,解决了我对该方向的很多问题)

您可能感兴趣的文章:

相关文章