开发随想
- Dynamic Construction of Causal Knowledge Graphs for Scientific Reasoning in Search Agents
- 直接偏好优化(DPO)
- 从强化学习到近端策略优化(PPO)
- Post-LN Transformer 训练不稳定性的数学分析
- MetaGPT Agent 动态 Action 机制详解
- SWE-smith 部署与问题解决技术报告
- DeepSeek + HuatuoGPT SFT 调试全记录
- HealthBench评估系统配置实战:从零到完整部署
- DeepSeek 7B + 华佗医疗数据集增量预训练技术笔记
- MedicalGPT 预训练环境搭建与训练完整工作日志
- 一个将代码块统一添加代码行号的脚本
- 数据处理之从代码行号反向爬取代码片段
- 一个清洗 jsonl 文件的小脚本
- DeepSWE: 基于纯 RL 训练的 Agent
- SWE-Smith 是如何工作的?
- SWE-Bench 原理介绍
- 如何从 Excel 文档中提取文字内容?