Shiranai

HealthBench评估系统配置实战：从零到完整部署

10/08/2025 · 开发随想

📋 项目概述本文记录了一次完整的医疗AI模型评估系统搭建过程，涉及将自训练的Medical GPT模型接入HealthBench评估框架，并使用DeepSeek Chat作为评分器的完整技术实现。

DeepSeek 7B + 华佗医疗数据集增量预训练技术笔记

06/08/2025 · 开发随想

项目概述本项目基于 DeepSeek-Coder-7B-Base-v1.5 模型，使用华佗医疗问答数据集进行增量预训练，旨在提升模型在医疗领域的问答能力。采用 LoRA (Low-Rank Adaptation) 技术进行参数高效微调。技术栈基础模型: …

MedicalGPT 预训练环境搭建与训练完整工作日志

06/08/2025 · 开发随想

项目概述本文档记录了在 RTX 5090 GPU 环境下搭建 MedicalGPT 预训练环境并成功完成训练的完整过程。项目基于 Qwen2.5-0.5B 模型，使用 LoRA (PEFT) 方法进行预训练。环境信息操作系统: Linux 5.15.0-94-generic GPU: …

一个将代码块统一添加代码行号的脚本

03/08/2025 · 开发随想

在 LLM Agent 训练中，有时存在需要通过代码行号进行补全的方法。这个脚本给任意给定的代码行统一添加代码行号。 import json import re import argparse def add_line_numbers_to_input(input_jsonl_path, …

楽しい！

03/08/2025 · 胡言

和狗子出来玩偶遇一群跑出来吃草的小动物不知道是🪿还是🦆 但非常塔诺西🥹 ps. 长沙夏天就是太热了。我俩跑到烈士公园的麦当劳坐到下午六点才敢出去… 说好如果有时间的话冬天再来一次

数据处理之从代码行号反向爬取代码片段

02/08/2025 · 开发随想

在修复代码 bug 的 Agent check_list 策略中，一个基本的三步方法如下： LLM 阅读给定代码块，根据给定的参考错误列表找到于 bug 描述相对应的有问题的**“代码行号”**。根据有问题的**“代码片段”**，判断代码片段是否确实违反代码规范，以 0（正确）和 1（错误）表示。 …

一个清洗 jsonl 文件的小脚本

02/08/2025 · 开发随想

工作中有清洗 jsonl 文件的需求，原因是 LLM 输出的内容有可能存在错误的补全，不能直接全部用于 Fine-tuning。这个脚本清洗了 jsonl 文件中 input/output == "" 和 input 行重复的情况。

DeepSWE: 基于纯 RL 训练的 Agent

01/08/2025 · 开发随想

一、引言与项目概览 DeepSWE 是一个全新的、完全开源的强化学习训练项目，其目标是构建一个具备多步代码理解与修改能力的大型语言模型智能体（coding agent）。该项目训练起点是 Qwen3-32B 模型，不依赖任何监督微调（SFT）或教师模型蒸馏，仅通过强化学习完成整个 agent 的建 …

SWE-Smith 是如何工作的？

01/08/2025 · 开发随想

引言收集数据一直是训练语言模型解决软件工程问题的一大难题。在此前的SWE-Bench的工作中，从10个左右的 GitHub 仓库里人工手动构造出了最多 1000 条高质量的实例用于进行测试和研究，但人工操作显然限制了扩展性和可用性。现有的方法存在如下几个问题：

因为夏日将终

01/08/2025 · 胡言

之前的服务器到期了，续费的价格颇为不菲，于是趁这个机会买了一个新的服务器，也正好重构一下博客。此前网站的主题太为臃肿，加上没有做加速，大量的时间都停留在渲染前端界面上，反而忽略了内容。