开云app官方下载 不好! 1930年的AI王人来抢要领员饭碗了
发布日期:2026-05-03 23:02 点击次数:115

Jay 发自 凹非寺
管事节,随即100岁的vintage大模子也得管事。
是的,有东谈主给唯有1930年常识的大模子,微调成软件工程师了……
历程比设想中卤莽,仅用250个磨真金不怕火样本,强悍的老翁便解决了我方东谈主生中的第一个编程问题——
给xarray库打了个补丁。

一个连电视机王人没见过的AI,咫尺也运行跟Claude们「学坏」,要跟要领员抢饭碗了。(bushi)
中古硅基软件工程师
先补充下配景,1930是谁?
这是最近爆火的「老翁AI」,全名叫talkie-1930-13b。
操盘手是AI筹划员Nick Levine、多伦多大学副教会David Duvenaud,以及大家闇练的那位——真·GPT系列之父Alec Radford。

而他们对老翁最真义的规画,即是其磨真金不怕火数据有条铁律:1931年1月1日之后的任何一个字,全部不准进!
是的,它不知谈电视机,不知谈互联网,更不知谈二战若何兑现……
老翁的天下,恒久停在了1930年12月31日的午夜。
但让全网「瘫软」的点在于,就这样个老古董,当扔给它一谈Python编程题时,这个跨越近百年的「昔时之灵」,果然写出了东谈主生第一滑Python代码。
离离原上谱。

如今,老翁再次发力。
有东谈主对Alec Radford的这个1930 vintage LLM作念了微调,让它去解SWE-bench上的真实软件工程问题。
谁曾想,真让老翁干成了。
250个磨真金不怕火样本之后,它落地了第一个fix——一个针对xarray库的小补丁。
百岁老东谈主,硬核上岗。
对了,团队放出了老翁在落地这个xarray库补丁的全历程。
说真话,若是以看前沿LLM的法度,这个demo看着真有点恼火。
一个简短的问题,老翁足足花了49轮才处理,又长又慢。
其中有些轮次实在看不下去了,确凿太笨了,狂躁死了,但你又不好真义对老翁发特性。
但,这在某些技术,反而让东谈主更振奋。跟看爽文一样。
我举个最「班师、不绕弯」的例子。(bushi)
老翁一运行其实搞砸了。
在第12轮对话的时候,它尝试apply patch失败了。

代码不错报错,但,老兵不死。
老翁莫得毁灭,它仍在不息尝试,直到终于意志到我方错在哪……
然后,在第44轮,它给修好了!!

我知谈,fix自己很简短,别说AI SOTA了,代码水平跟小白比臆度王人够呛。
但的确伏击的,开云app官方最新下载是老翁在整个这个词解题历程中的念念考。
这个历程展示出的那种推理身手,跟咱们在当代模子上看到的如出一辙。
一个1930年的模子,也会试错,会反念念,会自我修正。
demo以外,benchmark的线路雷同亮眼。
当微调时的磨真金不怕火数据鸿沟彭胀到大致75K条trajectory,也即是10亿token的时候,模子在SWE-bench-Verified上达到了4.5%的pass@1。
要知谈,它底本在HumanEval上才4%的pass@100。这跳跃幅度相配可不雅。
固然满盈值还很低,但对一个1930年常识模子来说,依然很离谱了。

更故真义的是另一个对确乎验。
事实上,团队还同期给老翁磨真金不怕火了一个昆季模子,叫talkie-web,这个模子是在互联网数据上预磨真金不怕火的。
雷同的微调配方,talkie-web在SWE-bench-Verified上的收成是5.5%的。
没错,即便团队偏心,给孪生昆季加上互联网数据,也就比老翁高了1个百分点。

以上遵守,宽宥复现。
这不是什么穿越爽文,团队依然在GitHub上开源了格式,通顺放在著述斥逐,感兴趣的一又友不错去跑跑看。
团队我方也很振奋,在README里喊话:
若是你手头有更多算力,咱们很想看到1930模子和互联网模子在后磨真金不怕火合手续彭胀时的完满scaling弧线对比。
想看想看,这可比单纯秀肌肉的benchmark故真义多了。
什么是智能?
团队并莫得成见背后的原因,但我看了不少网友在帖子底下的挑剔,认为这是一个值得磋商的话题。
咱们一直以为,AI需要吃掉整个这个词互联网才能变机灵。
但若是一个只读过1930年以前书的模子,经过少量点后磨真金不怕火就能写代码修bug……
那咱们对「什么是智能」的和谐,是不是也得再行想想?
4.5%的pass@1,放在今天的SOTA眼前天然不够看。但它评释的那件事,比任何benchmark分数王人伏击。
一个1930年代的东谈主,若是领有简直接洽的培植体系,完全不错和谐当代软件工程。
一百年前的数据量,加上正确的后磨真金不怕火措施,就足以产生当代意旨上的推理。
智能的瓶颈,约略从来不在于预磨真金不怕火数据的几许。
你不需要一个磨真金不怕火过整个常识的模子,它只需要具备基本的谈话和谐身手,这就够了。
约略,当咱们在Scaling路上一起决骤的破绽,也不错略微停一停,抬起初来跟身边东谈主侃侃大山、扯扯淡——
诶,你说……
智能的实验,到底是什么?
GitHub:https://github.com/RicardoDominguez/talkie-coder
参考通顺:[1]https://x.com/rdolmedo_/status/2050665193374732430?s=20[2]https://github.com/RicardoDominguez/talkie-coder
— 完 —
量子位 QbitAI · 头条号
怜惜咱们开云app官方下载,第一时辰获知前沿科技动态
波音(bbin)体育官方网站