Dynamic Construction of Causal Knowledge Graphs for Scientific Reasoning in Search Agents

rp.pdf

Tongyi DeepResearch 技术报告深度分析

一、论文基本信息 标题: Tongyi DeepResearch Technical Report 作者: Tongyi DeepResearch Team(通义深度研究团队),来自阿里巴巴集团的通义实验室 发表平台: arXiv预印本 发表日期: 2025年11月5日(最新版本)

直接偏好优化(DPO)

proof_dpo.pdf

谈 Keir Starmer

我对英格兰没什么意见,甚至某种程度上很喜欢这个国家,虽然也许苏威爱三国更适合人居住。 但 Starmer 就是 de facto 自 Theresa May 以后最烂的 PM,这人太痴迷于自己的cakeism了,路线场面左右摇摆,弄得整个社会也一起跟着他的总路线动摇。

从强化学习到近端策略优化(PPO)

proof.pdf

Post-LN Transformer 训练不稳定性的数学分析

pre-post-LN-proof.pdf

MetaGPT Agent 动态 Action 机制详解

概述 本文档详细记录了如何在 MetaGPT 框架中实现一个具有动态 Action 创建能力的 Agent。通过本教程,你将深入理解 MetaGPT 的 React 机制(run → react → think → act)以及如何在运行时动态切换 Action 序列。

坐在工位前加班的时候突然想起去年的一些旅行旧事。

坐在工位前加班的时候突然想起去年的一些旅行旧事。 去年的十二月底,搭乘全日空从东京经由札幌飞往北海道最北端的小城稚内。天气很不好,在新千岁航站楼的广播里一直在放送欠航预警。 延迟了半小时后最终还是冒着风险起飞了,落地稚内的时候已经是下午五点,外面飘着暴雪。 我从来没有见过这么厚的雪。即使是在北极,斯 …

SWE-smith 部署与问题解决技术报告

概述 本文记录了在部署和使用 SWE-smith(一个用于生成软件工程任务的工具)过程中遇到的各种技术问题及其解决方案。SWE-smith 是一个复杂的系统,涉及多个组件:bug生成、验证、收集、issue生成等。

DeepSeek + HuatuoGPT SFT 调试全记录

本文详细记录了针对 DeepSeek-Coder-7B-base-v1.5 模型,结合 HuatuoGPT 医疗对话数据进行 SFT(Supervised Fine-Tuning) 的全过程。记录从最初设计到逐步调试的每一步,包括所做的改动、背后的原因、遇到的问题、解决方案以及最终结果。