之前的服务器到期了,续费的价格颇为不菲,于是趁这个机会买了一个新的服务器,也正好重构一下博客。此前网站的主题太为臃肿,加上没有做加速,大量的时间都停留在渲染前端界面上,反而忽略了内容。一转眼又是一年八月。我对夏季的感情是复杂的。在能够被想起来的那些记忆碎片里,为数不多的幸福和欢乐大多来自于炎热的夏日。小时候住在湘江边上,每逢七八月外婆便会带我坐公交车去烈士公园玩,那里有一个很大的湖。游客们会在湖上划船,也有小贩在湖边售卖各式各样的玩具和零食。那时候我年纪还很小,船是划不了的,于是就在湖边吃着糖粒子看船上的游人们来来去去,如是便是一个下...

閱讀全文...

Intro一个“好”的基准测试可以用来反应LMs在现实世界应用的表现,以帮助塑造他们未来的的发展。但构建一个"好”的Benchmark也是困难的,因为这要求:任务要有挑战性模型预测需要是能够且容易验证的现有的编码基准测试(如HumanEval)大多涉及自包含问题(Self-contained problem)。自包含问题指的是不依赖外部上下文或复杂依赖关系的问题,所有必要的信息和代码都已在问题本身中完整提供,可以在一个小范围内(如几行代码内)被理解和解决。一个简单的例子如下:def factorial(n: int) -> in...

閱讀全文...

初始 LLM 接受的输入通常只包含文本信息,而不具备多模态理解的能力。如果需要LLM接受单元格数据并进行处理,我们通常需要先将其文本化以与 LLM 的输入接口对齐。Excel 文件(.xls / .xlsx)在本质上是一种富结构的二进制或压缩 XML 文件,其内容不仅包括了基本的表格数据(即单元格中的文字和数值),还可能包含:合并单元格图表、图像、批注单元格格式(颜色、字体、对齐方式)数学公式(如 =SUM(A1:A5))宏脚本(如 VBA)上述内容对于传统的文本 LLM 来说是不可直接解析的非文本模态,因此我们需要一个合理的文本化方...

閱讀全文...

晚上去吃了新华楼。在吵闹的大堂里找一张油乎乎的桌子,拿起桌上的号码牌,跑到削面档点一碗双码的杂酱削面,有时还端碗麻油猪血丸子。这算是为数不多真正意义上之于我有所谓长沙记忆的东西。记得大约十年前面档里还弄了个看起来就很呆的机器人在那里削面,美其名曰高科技,现在想想颇有些当时社会对于未来科技幻想的荒谬。即使是十年后,外地游客也鲜有来这种地方的。老城区的店面大部分都这样,店里的店员大娘和常连客们都是邻里邻外的社区居民,听不懂长沙话点单都有些困难。幸好在海外这些年母语也没丢。我其实远没有那么对所谓故乡有多少感情。即使在伦敦最难捱的冬日里,对于...

閱讀全文...

有时候会恍惚间想起一些伦敦冬日的碎片。在下午三点就天黑的日子里,我对着宿舍白色的墙面一次又一次地划着十字。那时宿舍楼下有一头小牛。虽然直到现在也想不通为何在伦敦市中心的小楼底下会有一头牛,我甚至没有见过它——但每日窗外时不时传来的哞叫声却真切得时时提醒着我它的存在性。真的有一头牛吗?还是只是我的幻觉?我不知道,在长眠的记忆中好像也没有和那位板着脸的家庭医生说过这些事。一种广为流传的说法是射手座普遍对安定感不屑一顾。虽然一向认为这种将人类粗糙分类的统计学方法简直是在侮辱智商,但不得不承认,我的确主动或被动地在半推半就间接受了这一命题。姜...

閱讀全文...