谈 Keir Starmer

我对英格兰没什么意见,甚至某种程度上很喜欢这个国家,虽然也许苏威爱三国更适合人居住。 但 Starmer 就是 de facto 自 Theresa May 以后最烂的 PM,这人太痴迷于自己的cakeism了,路线场面左右摇摆,弄得整个社会也一起跟着他的总路线动摇。

从强化学习到近端策略优化(PPO)

proof.pdf

Post-LN Transformer 训练不稳定性的数学分析

pre-post-LN-proof.pdf

MetaGPT Agent 动态 Action 机制详解

概述 本文档详细记录了如何在 MetaGPT 框架中实现一个具有动态 Action 创建能力的 Agent。通过本教程,你将深入理解 MetaGPT 的 React 机制(run → react → think → act)以及如何在运行时动态切换 Action 序列。

坐在工位前加班的时候突然想起去年的一些旅行旧事。

坐在工位前加班的时候突然想起去年的一些旅行旧事。 去年的十二月底,搭乘全日空从东京经由札幌飞往北海道最北端的小城稚内。天气很不好,在新千岁航站楼的广播里一直在放送欠航预警。 延迟了半小时后最终还是冒着风险起飞了,落地稚内的时候已经是下午五点,外面飘着暴雪。 我从来没有见过这么厚的雪。即使是在北极,斯 …

SWE-smith 部署与问题解决技术报告

概述 本文记录了在部署和使用 SWE-smith(一个用于生成软件工程任务的工具)过程中遇到的各种技术问题及其解决方案。SWE-smith 是一个复杂的系统,涉及多个组件:bug生成、验证、收集、issue生成等。

DeepSeek + HuatuoGPT SFT 调试全记录

本文详细记录了针对 DeepSeek-Coder-7B-base-v1.5 模型,结合 HuatuoGPT 医疗对话数据进行 SFT(Supervised Fine-Tuning) 的全过程。记录从最初设计到逐步调试的每一步,包括所做的改动、背后的原因、遇到的问题、解决方案以及最终结果。

HealthBench评估系统配置实战:从零到完整部署

📋 项目概述 本文记录了一次完整的医疗AI模型评估系统搭建过程,涉及将自训练的Medical GPT模型接入HealthBench评估框架,并使用DeepSeek Chat作为评分器的完整技术实现。

DeepSeek 7B + 华佗医疗数据集增量预训练技术笔记

项目概述 本项目基于 DeepSeek-Coder-7B-Base-v1.5 模型,使用华佗医疗问答数据集进行增量预训练,旨在提升模型在医疗领域的问答能力。采用 LoRA (Low-Rank Adaptation) 技术进行参数高效微调。 技术栈 基础模型: …

MedicalGPT 预训练环境搭建与训练完整工作日志

项目概述 本文档记录了在 RTX 5090 GPU 环境下搭建 MedicalGPT 预训练环境并成功完成训练的完整过程。项目基于 Qwen2.5-0.5B 模型,使用 LoRA (PEFT) 方法进行预训练。 环境信息 操作系统: Linux 5.15.0-94-generic GPU: …