楽しい! 作者: F 时间: 03-08-2025 分类: 胡言 评论 和狗子出来玩偶遇一群跑出来吃草的小动物不知道是🪿还是🦆但非常塔诺西🥹ps.长沙夏天就是太热了。我俩跑到烈士公园的麦当劳坐到下午六点才敢出去...说好如果有时间的话冬天再来一次pps.好想去水族馆..///
数据处理之从代码行号反向爬取代码片段 作者: F 时间: 02-08-2025 分类: 开发随想 评论 在修复代码 bug 的 Agent check_list 策略中,一个基本的三步方法如下:LLM 阅读给定代码块,根据给定的参考错误列表找到于 bug 描述相对应的有问题的“代码行号”。根据有问题的“代码片段”,判断代码片段是否确实违反代码规范,以 0(正确)和 1(错误)表示。对于错误值为 1 的代码片段,进行 bug 修复。很明显可以看到在阶段 1 和阶段 2 之间需要运行某一个脚本,来根据“代码行号”反向爬取代码块中的“代码片段”。这么做的原因是在阶段 1 直接让模型输出“代码片段”的策略可能存在大量错误,因为模型的评估标准较为...閱讀全文...
一个清洗 jsonl 文件的小脚本 作者: F 时间: 02-08-2025 分类: 开发随想 评论 工作中有清洗 jsonl 文件的需求,原因是 LLM 输出的内容有可能存在错误的补全,不能直接全部用于 Fine-tuning。这个脚本清洗了 jsonl 文件中 input/output == "" 和 input 行重复 的情况。import json import random input_file = 'file.jsonl' output_file = 'file_cleaned.jsonl' # 用于存储唯一 input 的行 input_map = {} total_lines = 0 ...閱讀全文...
DeepSWE: 基于纯 RL 训练的 Agent 作者: F 时间: 01-08-2025 分类: 开发随想 评论 一、引言与项目概览DeepSWE 是一个全新的、完全开源的强化学习训练项目,其目标是构建一个具备多步代码理解与修改能力的大型语言模型智能体(coding agent)。该项目训练起点是 Qwen3-32B 模型,不依赖任何监督微调(SFT)或教师模型蒸馏,仅通过强化学习完成整个 agent 的建构。最终模型 DeepSWE-Preview 在 SWE-Bench-Verified 基准任务上取得 42.2% 的 Pass@1 成绩,并通过测试时轨迹扩展(Test-Time Scaling)将 Pass@16 提升至 59%,在所有开源...閱讀全文...
SWE-Smith 是如何工作的? 作者: F 时间: 01-08-2025 分类: 开发随想 评论 引言收集数据一直是训练语言模型解决软件工程问题的一大难题。在此前的SWE-Bench的工作中,从10个左右的 GitHub 仓库里人工手动构造出了最多 1000 条高质量的实例用于进行测试和研究,但人工操作显然限制了扩展性和可用性。现有的方法存在如下几个问题:数据集的规模有限创建成本较高(人力成本、存储成本等)开源模型发展较为受限![[Pasted image 20250714154807.png]]基于这个痛点,SWE-Smith 框架被提出,这个框架可以被用来大规模自动化生产软件工程训练数据。和传统方法(手动寻找PRs相反),SW...閱讀全文...