开发随想

15/12/2025 Dynamic Construction of Causal Knowledge Graphs for Scientific Reasoning in Search Agents
08/12/2025 直接偏好优化（DPO）
06/12/2025 从强化学习到近端策略优化（PPO）
05/12/2025 Post-LN Transformer 训练不稳定性的数学分析
09/11/2025 MetaGPT Agent 动态 Action 机制详解
21/08/2025 SWE-smith 部署与问题解决技术报告
10/08/2025 DeepSeek + HuatuoGPT SFT 调试全记录
10/08/2025 HealthBench评估系统配置实战：从零到完整部署
06/08/2025 DeepSeek 7B + 华佗医疗数据集增量预训练技术笔记
06/08/2025 MedicalGPT 预训练环境搭建与训练完整工作日志
03/08/2025 一个将代码块统一添加代码行号的脚本
02/08/2025 数据处理之从代码行号反向爬取代码片段
02/08/2025 一个清洗 jsonl 文件的小脚本
01/08/2025 DeepSWE: 基于纯 RL 训练的 Agent
01/08/2025 SWE-Smith 是如何工作的？
01/08/2025 SWE-Bench 原理介绍
01/08/2025 如何从 Excel 文档中提取文字内容？