一个清洗 jsonl 文件的小脚本

工作中有清洗 jsonl 文件的需求,原因是 LLM 输出的内容有可能存在错误的补全,不能直接全部用于 Fine-tuning。 这个脚本清洗了 jsonl 文件中 input/output == "" 和 input 行重复 的情况。

DeepSWE: 基于纯 RL 训练的 Agent

一、引言与项目概览 DeepSWE 是一个全新的、完全开源的强化学习训练项目,其目标是构建一个具备多步代码理解与修改能力的大型语言模型智能体(coding agent)。该项目训练起点是 Qwen3-32B 模型,不依赖任何监督微调(SFT)或教师模型蒸馏,仅通过强化学习完成整个 agent 的建 …

SWE-Smith 是如何工作的?

引言 收集数据一直是训练语言模型解决软件工程问题的一大难题。在此前的SWE-Bench的工作中,从10个左右的 GitHub 仓库里人工手动构造出了最多 1000 条高质量的实例用于进行测试和研究,但人工操作显然限制了扩展性和可用性。现有的方法存在如下几个问题:

因为夏日将终

之前的服务器到期了,续费的价格颇为不菲,于是趁这个机会买了一个新的服务器,也正好重构一下博客。此前网站的主题太为臃肿,加上没有做加速,大量的时间都停留在渲染前端界面上,反而忽略了内容。

SWE-Bench 原理介绍

Intro 一个“好”的基准测试可以用来反应LMs在现实世界应用的表现,以帮助塑造他们未来的的发展。 但构建一个"好”的Benchmark也是困难的,因为这要求:

如何从 Excel 文档中提取文字内容?

初始 LLM 接受的输入通常只包含文本信息,而不具备多模态理解的能力。如果需要LLM接受单元格数据并进行处理,我们通常需要先将其文本化以与 LLM 的输入接口对齐。

翻照片之后的一些碎笔,今年春季从斯德哥尔摩坐夜行列车前往马尔默

晚上去吃了新华楼。 在吵闹的大堂里找一张油乎乎的桌子,拿起桌上的号码牌,跑到削面档点一碗双码的杂酱削面,有时还端碗麻油猪血丸子。这算是为数不多真正意义上之于我有所谓长沙记忆的东西。 记得大约十年前面档里还弄了个看起来就很呆的机器人在那里削面,美其名曰高科技,现在想想颇有些当时社会对于未来科技幻想的荒 …

胡言乱语

有时候会恍惚间想起一些伦敦冬日的碎片。在下午三点就天黑的日子里,我对着宿舍白色的墙面一次又一次地划着十字。 那时宿舍楼下有一头小牛。 虽然直到现在也想不通为何在伦敦市中心的小楼底下会有一头牛,我甚至没有见过它——但每日窗外时不时传来的哞叫声却真切得时时提醒着我它的存在性。 真的有一头牛吗?还是只是我 …

毕业快乐。

把试卷翻回最初一页,按了下系里发的圆珠笔笔帽上的按钮:大学好像就这么轻飘飘地结束了。 其实好像也没多少感觉,只是走出ExCel的时候脑袋里突然放起了《ヒッチコック》:

来自过去的未来之城

这几日将照片洗出来,翻看的时候似是突然就理解了为何人们说柏林是一座充满旧日梦核的城市。 这里其实一点也不“21世纪”,也不是传统意义上的“西方世界”。柏林墙虽然已经倒塌三十余年,但东德的存在却从未在柏林消失。