Shiranai
我的羊听我的声音,我也认识他们,他们也跟着我。—— John 10:27
搜索关键字
搜索
首页
归档
关于
从强化学习到近端策略优化(PPO)
作者:
F
时间:
06-12-2025
分类:
开发随想
标签: none
取消回复
添加新评论
称呼
Email
网站
内容
提交评论
上一篇:
Post-LN Transformer 训练不稳定性的数学分析
下一篇: 没有了
最新文章
从强化学习到近端策略优化(PPO)
Post-LN Transformer 训练不稳定性的数学分析
MetaGPT Agent 动态 Action 机制详解
坐在工位前加班的时候突然想起去年的一些旅行旧事。
SWE-smith 部署与问题解决技术报告
DeepSeek + HuatuoGPT SFT 调试全记录
HealthBench评估系统配置实战:从零到完整部署
DeepSeek 7B + 华佗医疗数据集增量预训练技术笔记
MedicalGPT 预训练环境搭建与训练完整工作日志
一个将代码块统一添加代码行号的脚本
最近回复
分类
开发随想
胡言
归档
December 2025
November 2025
August 2025
July 2025
May 2025
April 2025
February 2025
January 2025
December 2024
November 2024
October 2024
September 2024
August 2024
June 2024
March 2024
January 2024
November 2023
October 2023
August 2023
July 2023
其它
登录
文章 RSS
评论 RSS
Typecho