一个将代码块统一添加代码行号的脚本

在 LLM Agent 训练中,有时存在需要通过代码行号进行补全的方法。 这个脚本给任意给定的代码行统一添加代码行号。 import json import re import argparse def add_line_numbers_to_input(input_jsonl_path, …

楽しい!

和狗子出来玩 偶遇一群跑出来吃草的小动物 不知道是🪿还是🦆 但非常塔诺西🥹 ps. 长沙夏天就是太热了。我俩跑到烈士公园的麦当劳坐到下午六点才敢出去… 说好如果有时间的话冬天再来一次

数据处理之从代码行号反向爬取代码片段

在修复代码 bug 的 Agent check_list 策略中,一个基本的三步方法如下: LLM 阅读给定代码块,根据给定的参考错误列表找到于 bug 描述相对应的有问题的**“代码行号”**。 根据有问题的**“代码片段”**,判断代码片段是否确实违反代码规范,以 0(正确)和 1(错误)表示。 …

一个清洗 jsonl 文件的小脚本

工作中有清洗 jsonl 文件的需求,原因是 LLM 输出的内容有可能存在错误的补全,不能直接全部用于 Fine-tuning。 这个脚本清洗了 jsonl 文件中 input/output == "" 和 input 行重复 的情况。

DeepSWE: 基于纯 RL 训练的 Agent

一、引言与项目概览 DeepSWE 是一个全新的、完全开源的强化学习训练项目,其目标是构建一个具备多步代码理解与修改能力的大型语言模型智能体(coding agent)。该项目训练起点是 Qwen3-32B 模型,不依赖任何监督微调(SFT)或教师模型蒸馏,仅通过强化学习完成整个 agent 的建 …

SWE-Smith 是如何工作的?

引言 收集数据一直是训练语言模型解决软件工程问题的一大难题。在此前的SWE-Bench的工作中,从10个左右的 GitHub 仓库里人工手动构造出了最多 1000 条高质量的实例用于进行测试和研究,但人工操作显然限制了扩展性和可用性。现有的方法存在如下几个问题:

因为夏日将终

之前的服务器到期了,续费的价格颇为不菲,于是趁这个机会买了一个新的服务器,也正好重构一下博客。此前网站的主题太为臃肿,加上没有做加速,大量的时间都停留在渲染前端界面上,反而忽略了内容。

SWE-Bench 原理介绍

Intro 一个“好”的基准测试可以用来反应LMs在现实世界应用的表现,以帮助塑造他们未来的的发展。 但构建一个"好”的Benchmark也是困难的,因为这要求:

如何从 Excel 文档中提取文字内容?

初始 LLM 接受的输入通常只包含文本信息,而不具备多模态理解的能力。如果需要LLM接受单元格数据并进行处理,我们通常需要先将其文本化以与 LLM 的输入接口对齐。

翻照片之后的一些碎笔,今年春季从斯德哥尔摩坐夜行列车前往马尔默

晚上去吃了新华楼。 在吵闹的大堂里找一张油乎乎的桌子,拿起桌上的号码牌,跑到削面档点一碗双码的杂酱削面,有时还端碗麻油猪血丸子。这算是为数不多真正意义上之于我有所谓长沙记忆的东西。 记得大约十年前面档里还弄了个看起来就很呆的机器人在那里削面,美其名曰高科技,现在想想颇有些当时社会对于未来科技幻想的荒 …