Shiranai

我的羊听我的声音,我也认识他们,他们也跟着我。—— John 10:27

首页 归档 关于

2025年12月

从强化学习到近端策略优化(PPO)

  • 作者: F
  • 时间: 06-12-2025
  • 分类: 开发随想
  • 评论

Post-LN Transformer 训练不稳定性的数学分析

  • 作者: F
  • 时间: 05-12-2025
  • 分类: 开发随想
  • 评论

最新文章

  • 从强化学习到近端策略优化(PPO)
  • Post-LN Transformer 训练不稳定性的数学分析
  • MetaGPT Agent 动态 Action 机制详解
  • 坐在工位前加班的时候突然想起去年的一些旅行旧事。
  • SWE-smith 部署与问题解决技术报告
  • DeepSeek + HuatuoGPT SFT 调试全记录
  • HealthBench评估系统配置实战:从零到完整部署
  • DeepSeek 7B + 华佗医疗数据集增量预训练技术笔记
  • MedicalGPT 预训练环境搭建与训练完整工作日志
  • 一个将代码块统一添加代码行号的脚本

最近回复

分类

  • 开发随想
  • 胡言

归档

  • December 2025
  • November 2025
  • August 2025
  • July 2025
  • May 2025
  • April 2025
  • February 2025
  • January 2025
  • December 2024
  • November 2024
  • October 2024
  • September 2024
  • August 2024
  • June 2024
  • March 2024
  • January 2024
  • November 2023
  • October 2023
  • August 2023
  • July 2023

其它

  • 登录
  • 文章 RSS
  • 评论 RSS
  • Typecho
© 2025 Shiranai. 由 Typecho 强力驱动.
湘ICP备2025133933号