AI Papers, May 13
今天的候选里 agent/reasoning 方向很密集,但不少工作更像把已有范式迁移到新场景。下面只保留我认为 Fred 值得花时间看的论文与发布:重点是长程轨迹可靠性、可验证中间监督、agent 记忆/知识库维护,以及一些对“多智能体协作必然更好”的反例或诊断工具。
必读
AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems
工作简介: 这篇把多智能体系统的失败诊断从 post-hoc attribution 改成 online auditing:审计器只能看到当前 trajectory prefix,要尽早判断是否出现决定性错误、错在哪里、由谁造成。作者构建 AFTraj-2K,并训练 AgentForesight-7B,在 Coding、Math 和 Agentic 任务上做 step-level failure localization,项目页见 https://zbox1005.github.io/agent-foresight/。
简评: 这很贴近 Fred 关心的 trajectory-level reliability 和 stopping/intervention criteria:核心价值不只是“检测失败”,而是把检测时点前移到还能干预的阶段。限制在于 decisive error 的标注仍依赖多 LLM judge 共识,未来要看这种失败边界在真实工具环境中是否稳定。
Verifiable Process Rewards for Agentic Reasoning
工作简介: 这篇研究长程 agentic reasoning 中的稀疏 outcome reward 问题,提出 Verifiable Process Rewards,把符号、约束或概率 oracle 转成 turn-level dense reward。实验覆盖 dynamic deduction、logical reasoning、probabilistic inference,并给出关于 verifier-grounded dense reward 改善 credit assignment 的理论分析。
简评: 这是今天最符合“数学化、可验证、长程推理训练”的一篇:它明确讨论 verifier 可靠性如何影响收益,而不是只报告 RL 分数提升。真正的瓶颈也很清楚——开放环境里 reliable intermediate verifier 往往最难获得,但作为可验证 agent training 的框架很值得读。
值得关注
TMAS: Scaling Test-Time Compute via Multi-Agent Synergy
工作简介: TMAS 把 test-time scaling 组织成多智能体协作过程,引入 experience bank 保存低层可靠中间结论与局部反馈,guideline bank 保存高层策略以避免重复 rollout。作者还设计 hybrid reward RL,让系统同时保持基础推理能力、复用经验并鼓励探索,代码见 https://github.com/george-QF/TMAS-code。
简评: 这篇在“多轨迹推理如何复用信息”上比简单 self-consistency 或 parallel rollouts 更系统,和 Fred 对 trajectory-level analysis 与 memory reuse 的兴趣契合。不过 novelty 更偏工程整合,关键要看 memory bank 是否真的带来可解释的探索/利用平衡,而不只是更复杂的 test-time scaffold。
DeepRefine: Agent-Compiled Knowledge Refinement via Reinforcement Learning
工作简介: DeepRefine 面向 agent 编译出来的知识库,处理缺失、错误、冗余、指代不清等缺陷。它通过与知识库多轮交互、对历史进行 abductive diagnosis、定位缺陷并执行局部 refinement,并用 Gain-Beyond-Draft reward 在没有 gold reference 的情况下训练 refinement policy。
简评: 这篇把“知识库维护”从静态 RAG 清洗推进到 agent 运行后的持续修复,对长期 agent memory 和 knowledge graph/KB 可靠性有价值。问题在于摘要里对评测任务与知识库形态的细节不够充分,读正文时应重点看 reward 是否会奖励短期下游提升而牺牲全局一致性。
Kintsugi: Learning Policies by Repairing Executable Knowledge Bases
工作简介: Kintsugi 把 embodied/text agent 的策略知识表示为 typed executable KB,包括 predicates、operators、policy schemas、monitors、recovery rules 等。每轮 rollout 后,agentic editing loop 根据失败轨迹提出局部 typed edits,只有通过 type check、可执行性、focused validation 和 regression guard 的编辑才会进入 KB;推理时由 deterministic symbolic executor 执行,不再调用 LLM。
简评: 这是今天很有意思的“把策略从神经权重/提示词搬回可检查程序知识”的路线,和可验证、可组合、可审计 agent 很契合。它可能牺牲开放域灵活性,但对高可靠长程任务来说,这种 verifier-gated executable knowledge 比纯 prompt memory 更值得信任。
Sanity Checks for Long-Form Hallucination Detection
工作简介: 这篇提出两个 oracle sanity checks:Force 把最终答案替换为真值但保留 reasoning trace,Remove 去掉答案宣告步骤但保留轨迹,用来测试 hallucination detector 到底是在看推理过程,还是只利用最终答案表面线索。作者还提出轻量 TRACT,用 lexical trajectory features 做鲁棒检测。
简评: 对所有“基于 CoT/trace 的可靠性检测”都是必要提醒:很多检测器可能并没有理解过程,只是在读 endpoint artifact。Fred 若关注停止准则或轨迹级置信度,这篇的方法论比具体 TRACT 模型更重要。
Rethinking Agentic Search with Pi-Serini: Is Lexical Retrieval Sufficient?
工作简介: Pi-Serini 是一个配备 retrieve/browse/read 工具的 search agent,用 BM25 lexical retrieval 搭配更强的 frontier LLM。作者在 BrowseComp-Plus 上发现,调好 BM25 并提高 retrieval depth 后,gpt-5.5 版本达到 83.1% answer accuracy 和 94.7% surfaced evidence recall,代码见 https://github.com/justram/pi-serini。
简评: 这篇的重要性在于给 deep research 系统泼冷水:dense retriever 或复杂检索架构未必是瓶颈,LLM 的推理和工具循环能力增强后,经典 lexical retrieval 仍可能足够强。它不算理论突破,但对构建可靠 research agent 的工程取舍很有参考价值。
Hierarchical Causal Abduction: A Foundation Framework for Explainable Model Predictive Control
工作简介: 这篇提出 HCA,用 domain knowledge graph、KKT multipliers 和 PCMCI temporal causal discovery 来解释 nonlinear MPC 的控制动作。实验覆盖温室气候、建筑 HVAC、化工过程三类控制场景,并用专家验证解释准确性。
简评: 虽然不属于 LLM agent 主线,但它把知识图谱、因果发现和优化证据结合起来解释 trajectory/control decision,很符合 Fred 对 causality 与 mathematically grounded AI 的偏好。值得注意的是,它的成功依赖较强的领域结构与 MPC 可得的优化证据,迁移到黑箱 agent 还需要额外桥接。
开源发布
NanoResearch: Co-Evolving Skills, Memory, and Policy for Personalized Research Automation
一个面向个性化研究自动化的多智能体框架,强调 skill bank、用户/项目 memory,以及从自由文本反馈中持续更新 planner policy。GitHub 热度很高(候选数据记录约 933 stars),值得关注其代码与实际可复现性;但摘要里的“自动化完整研究流水线”口径较大,建议先把它当作 research-agent framework release,而不是已经解决科研自动化的证据。
Priming: Hybrid State Space Models From Pre-trained Transformers
这篇释放的是一套把预训练 Transformer 转成 hybrid Attention+SSM 模型的方法与 model zoo,目标是在少量 token budget 下获得更低 KV cache、更快 decoding 和长上下文推理能力。它不直接是 agent 论文,但如果开源模型与 vLLM plugin 如摘要所述完整可用,对长上下文推理系统的推理成本会有实际影响。