跑得最快的Anthropic，突然发文劝同行一起刹车：这是演给谁看？

出品 | 网易智能

作者 | 小小

编辑 | 王凤枝

跑得最快的人，开始喊大家一起刹车了。

北京时间6月5日凌晨，Anthropic发了一篇长文，呼吁全球前沿AI实验室考虑集体放慢研发速度，给社会治理和安全研究留出时间。

这话听起来很像一次负责任的预警。

但说这话的不是旁观者，也不是监管机构，而是Anthropic。一家年化收入冲向500亿美元、估值逼近1万亿美元、刚完成650亿美元融资、IPO文件已经递交的AI巨头。

更讽刺的是，Anthropic喊刹车的时候，自己脚下还在加速。 Claude已经在写公司生产代码库中超过80%的代码，融资、上市、模型发布、企业扩张全都在加速。

消息一出，X上反应尖锐而分裂。有人觉得这是领先者的精明算计，有人嗅到了泡沫前夜的恐惧。两种声音背道而驰，但都指向同一个问题：一家即将IPO的万亿估值公司突然呼吁全球刹车，这事儿本身就不太像纯粹的利他主义。

当一个领先者开始呼吁"大家一起刹车"，最该追问的不是它有没有担心未来，而是：它到底是在担心AI太快，还是担心别人追得太快？

1、想刹车，但不想一个人刹

文章写道："我们认为，世界如果能拥有选择减缓或暂时暂停前沿AI开发的选项，以便让社会结构和对齐研究能够跟上技术进步的步伐，那将是件好事。"Anthropic表示，如果有一套验证系统确保其他前沿开发者也能以可验证的方式同步放缓，他们自己也会这么做。

但Anthropic紧接着论证了单方面放缓为什么行不通。训练运行比导弹发射井更容易隐藏，计算硬件可以转移用途，而叛离的动机巨大。"谁在别人暂停时继续，谁就可能继承领先地位。"

一个有意义的暂停需要多个国家、多家资源充足的实验室在相同条件下共同停止，还需要每个参与者都能核实其他人确实已经停止。文章将此类比为核武器条约，但承认，制止作弊在这个领域要棘手得多。

这是Anthropic给出的框架：问题真实，方案有前提，而前提几乎不可能满足。 要理解这个立场到底有没有道理，先得看看它展示了什么样的技术现实。

2、Claude编写80%代码，工程师5个月没写一行代码

Anthropic联合创始人兼CEO达里奥·阿莫代伊（Dario Amodei）预言这一天已经很久了。但当内部数据摆到桌面上，冲击力仍然超出了多数人的预期。

根据博客文章披露的信息，截至2026年5月，合并到Anthropic生产代码库中的代码，超过80%是由Claude编写的。Anthropic内部研究机构负责人玛丽娜·法瓦罗（Marina Favaro）和政策部门负责人杰克·克拉克（Jack Clark）指出，在2025年2月Claude Code以研究预览版发布之前，这个数字还停留在个位数。

这不是渐进式的增长，而是一次陡峭的攀升。

Anthropic提供的数据图表显示了这个拐点的到来。在2021至2024年这头四年里，每位工程师每天合并的代码行数基本稳定。变化从2025年开始，当时Claude不再只是建议代码让人复制粘贴，而是开始自己运行代码。到2026年，当模型能够在更长的时间跨度内自主工作时，斜率进一步拉高。在2026年第二季度，典型工程师每天合并的代码量达到2024年水平的8倍。

Anthropic在声明中坦承，代码行数不是一个完美的衡量标准，它统计的是数量而非质量，8倍的数字"几乎肯定高估了真实的生产力提升"。但方向骗不了人。在2026年3月对130名研究人员的内部调查中，受访者中位数估计，使用Mythos Preview模型后，在同类项目上产生的产出大约是完全没有AI辅助时的4倍。

工程产出的飙升，直接改变了代码审查的工作方式。Anthropic现在部署了一个自动化Claude审查员，在代码合并之前先过一遍，查找错误、安全漏洞和回归缺陷。公司做的回顾分析显示，如果每次代码变更都经过自动审查，claude.ai过去事故中大约三分之一的错误在进入生产环境之前就能被拦截。写那些代码的人，是世界上最擅长构建这类系统的工程师。而现在，Claude正在捕捉他们遗漏的bug。

宾夕法尼亚大学沃顿商学院教授伊桑·莫利克（Ethan Mollick）在X上转发这篇文章时评论说，这些指标与独立衡量的结果相符，而且"实在没有迹象表明这种势头正在放缓"。他补充了一个容易被忽视的观察：当前模型在单个任务上的表现实在太好了，好到人们很难感知到新旧模型之间的能力鸿沟正在拉大。氛围上看起来差不多，数据上却完全不是一回事。

3、四年工作量，AI用几天就搞定了

快是一回事。快且能用，则是另一回事。

Anthropic内部数据显示，在代码质量维度上，差距正在以可感知的速度消失。2025年底，Claude编写的代码质量仍被认为不如人类输出。到了2026年中，多数人的判断是已大致持平。该公司预计，一年之内将严格优于人类代码。

有一个内部案例能说明变化的烈度。2026年4月，一位工程师把Claude部署去处理一类反复出现的API错误。Claude自主运行，交付了800多项修复，将错误率直接压低了1000倍。监督这项工作的工程师估算，换作人类来做，需要整整四年时间才能完成同样的工作量。 不是因为人的能力不够，而是这类任务涉及大量不熟悉的代码上下文，认知负荷太高，人脑处理不过来。

在更复杂的开放式任务上，进步同样显著。博客文章给出了一个具体场景：一次常规升级导致数万个训练任务同时崩溃。一位工程师向Claude指出了这个实时问题，只给了少量文本信息和集群访问权限。Claude自己处理运行中的任务，逐一测试环境设置，最终隔离出一个触发崩溃的晦涩调试标志，复现问题，确认修复。全程大约两个小时。这通常需要人类工程师花两到三天。

数据也验证了这个趋势。在最初缺乏明确规范的高度复杂开放式工程问题上，Claude的成功率在2026年5月达到了76%，六个月内拉升了50个百分点。

相比外部评价，来自Anthropic员工的自述更能说明问题。公司博客引用了两位内部人员的原话。

一位说："我大约一年前开始全力拥抱'Claude化'。那是一段疯狂的冒险，到现在我已经大约5个月没有亲自写过一行代码了。"

另一位则描述了这种状态带来的心理代价："在一切顺利的日子里，我忍不住觉得我做的任何事情都不重要，一切都是自动化的，比我做得更好更快。但到了那些一切都崩溃、我不明白为什么会崩溃的日子里，我意识到我已经完全不清楚自己到底在干什么了。"

这两段话被写进官方博客本身，就说明了很多问题。焦虑不再藏在茶水间的闲谈里，而是被摆上了台面。

4、当AI开始跑实验，人类研究员被甩在后面

写代码只是手段，加速AI研发才是更深的底层变化。

Anthropic每次发布新模型，都会进行同一个测试：给Claude一些训练小型AI模型的代码，要求它让代码尽可能快，同时保证通过相同的正确性检查。这是一个微型研究循环：改写代码、跑一遍、计时、再改。目标明确，方法自由。

2025年5月，Claude Opus 4平均比初始代码快3倍。2026年4月，Claude Mythos Preview实现了约52倍的加速。作为参照系，一个熟练的人类研究员花四到八个小时手动重构，在相同代码库上通常能达到4倍左右的加速。从3倍到52倍，从逊于人类到碾压人类，不到一年。

不只是执行，选择方向的能力也在变化。Anthropic检查了2026年第一季度的真实Claude Code会话记录，聚焦于研究人员与AI合作解决开放式调查问题的场景：为什么训练运行不断崩溃，为什么模型在某项基准测试上得分偏低。研究者标记出了人类偏离正确轨道、会话走偏的时刻，然后把走偏之前的所有工作内容喂给Claude，看它会选择什么下一步。由另一个独立的Claude评判谁选得更好。

2025年11月，表现最好的模型在51%的情况下优于人类。到2026年4月，这个数字变成了64%。公司将其视为模型"研究判断力"提升的早期信号，但措辞很克制。

真正跨越性的时刻出现在2026年4月。Anthropic首次让Claude端到端运行一个开放式研究项目。任务来自AI安全领域：一个较弱的模型能否可靠地监督一个更强的模型？这是一个有明确"下限"和"上限"的问题：下限是弱监督器独立工作的表现，上限是强模型基于正确答案训练后的表现。

两位人类研究员花了一周时间弥合了约23%的差距。Claude智能体在累计800小时的计算时间内弥合了97%的差距，花费约18000美元。 人类在这个任务中扮演的唯一有意义的角色，是选择了问题并创建了评分标准。实验设计本身，全部由AI自行完成。

一位Anthropic研究人员对Claude在另一项工作中的表现评价道："Claude在1-2天的时间里，以极少来自我的帮助完成了所有这些工作。我觉得如果一位初级同事在同样短的时间内给我带来这样的结果，我会感到有点印象。未来已来。"

代码量和实验速度的背后，是团队文化正在发生的质变。

Anthropic博客中引用的内部沟通文字，远比任何外部评论都更具穿透力。有员工这样写道："工作（和生活）曾经运行在人与人之间小恩小惠的礼物经济上。'你能帮我让这个脚本跑起来吗？'每一个这样的请求都会产生一点小债务，一点相互的觉察。Claude吃掉了这些恩惠。它更快，不产生任何债务，但每一次求助都失去了一次人类合作的机会。"

当点对点的开发者互动被系统性地替换为异步的智能体调用，维系团队的某种东西正在消解。 那种东西以前没有名字，因为从来不需要被命名。现在它有了一个缺口。

对于个体而言，这种变化带来的心理压力是双重的。顺利的日子让人怀疑自己存在的意义，出问题的时候则发现自己已经丧失了诊断系统的能力。这不是职业倦怠，是某种更根本的角色消融。

5、"递归自我提升"：从理论推演到内部现实

这些变化指向了同一个方向：递归自我提升。用Anthropic的话说，就是AI系统无需人类干预即可自行改进。

博客文章明确指出，完全的递归自我提升"尚未发生，也并非必然"，但它"可能来得比大多数机构准备就绪的时间更早"。

文章勾勒了AI在Anthropic研发中扮演角色的四个阶段。2021至2023年，手动编写，人在本地文本编辑器里敲代码。2023至2025年，聊天机器人辅助，用早期模型生成代码片段再复制粘贴。2025至2026年，编码智能体阶段，有能力自主编写和编辑整个文件。今天，自主智能体阶段，智能体独立执行代码，调试实时环境，将数小时工作委托给专门的子智能体。

而那个尚在视野边缘的下一阶段，被标注为"闭环未来"：智能体能力强大到足以自行构建和训练模型，未来的Claude版本可能由Claude自身不断改进。

外部基准测试也在为这个叙事提供佐证。博客引用了SWE-bench这个软件工程评估框架的数据，它要求模型在复杂开源代码库中解决真实错误报告。模型从个位数的得分起步，两年内使这个基准测试趋于饱和。

另一个基准CORE-Bench测试模型复现现有研究的能力，AI从2024年约20%的成功率，十五个月内同样趋于饱和。还有METR负责运行的长期任务基准，Claude Mythos Preview能够持续工作至少16小时，并且"处于METR在没有新任务的情况下能够测量的能力上限"。

能力翻倍的速度也在加快。 AI系统能够自主可靠完成任务的时间长度，大约每四个月翻一番，而此前趋势是每七个月翻一番。2024年3月，Claude Opus 3能处理约四分钟的人类任务。一年后，Claude Sonnet 3.7能处理约一个半小时。又过了一年，Claude Opus 4.6能处理12小时。如果这个趋势持续，今年就可能进入熟练人员需要数天才能完成的任务区间。到2027年，可能达到数周。

Anthropic联合创始人克拉克上个月在伦敦的一次演讲中说："这类技术以前从未存在过，但我相信这可能在两年内发生，甚至更早。"在缺乏全球协调性放缓的情况下，"商业和地缘政治的敌对正在淹没所构建技术对物种生存的更宏大影响"。

6、外界怎么看：精明算计，还是真诚焦虑？

看完这些技术数据，再回到Anthropic那句"我们是不是应该一起慢一点"，就能理解为什么外界的反应如此撕裂。

风险投资家大卫·萨克斯（David Sacks）对此一直有明确的批评立场。他在最近一期播客中指责Anthropic领导层推行"监管俘获议程"，认为这种做法可能导致开源模型被禁，而开源模型恰恰是小型组织负担得起AI开发和使用的关键路径。

另一些观察者则从不同角度解读Anthropic的行为，认为公司决定限制"Mythos"网络安全模型的发布（这个模型能够查找漏洞和问题）可能也是一种巧妙的营销，通过限制自身产品来彰显能力。

斯坦福商学院教授、胡佛研究所高级研究员安迪·霍尔（Andy Hall）对此表示，监控验证各方遵守协议极其困难。他指出，就在不久前这种提议还"似乎完全不可信"，但鉴于最近的进展，"这不再显得那么牵强"。

他同时坦言："我持怀疑态度，但好奇什么可能是可行的。"他还提到，DeepMind的德米斯·哈萨比斯（Demis Hassabis）一直在提出类似想法，包括几周前在斯坦福演讲时也表达了同样观点。按照霍尔的理解，哈萨比斯似乎倾向于将模型公开发布与底层开发分开对待，分别考虑放缓节奏。

X上的评论更加直白。前沿AI评论员马修·伯曼（Matthew Berman）一句话点破："递归自我改进就在眼前。Anthropic愿意放慢脚步，但前提是其他所有人都放慢脚步。当你处于领先地位时，这是个不错的处境。"

另一位网友更直接："他们要完蛋的声音。竞争让每个人都处于一种境地，必须花费如此多的金钱和资源才能勉强保持相关性。除非他们觉得自己身处泡沫之中，并且IPO之后可能会崩盘，否则没人会真正建议这样做。"

还有一种声音认为，大多数公众仍然低估了正在发生的转折。一位X用户写道："我相信大多数人仍然没有理解人类正面临的那道重大门槛。Anthropic本身明确表示，即使开发完全停止，他们仍然会见证巨大的社会变革。但根本不存在停滞的问题。开发速度已经超过了他们自己的内部假设。……当然仍然需要众多突破，但最可能的方向是，模型本身将找到底层问题的解决方案。"

7、三个未来，一个比一个更难接招

Anthropic在博客中设想了三种可能的未来情景。即使是最保守的第一种，公司也认为会产生重大社会影响。

第一种情景：趋势停滞，但当前能力广泛传播。 很多指数级增长轨迹实际上可能是S曲线，我们可能正在接近拐点。制约因素也许在供应链而非模型本身，包括芯片制造、电网扩展、互连带宽。即使模型能力冻结在今天，世界仍会发生重大变化。

博客援引了内部Project Glasswing的数据：Mythos Preview在最初几周内就在全球关键系统中发现了超过10000个高严重性和危急程度的软件漏洞，以至于网络防御的瓶颈已从"发现漏洞"变成了"修得够不够快"。

当前模型向更广泛经济的扩散仍处于早期阶段，一家100人的公司将越来越能完成过去1000人公司的工作，因为每个员工都坐在一个智能体金字塔的顶端。 Anthropic纳入这个情景是出于完整性考虑，但明确指出"不认为它很可能发生"，因为公司能衡量的每一项能力目前都遵循同样的曲线，还没有弯曲的迹象。

第二种情景：AI实验室持续看到复合效率增益。 AI开发高度自动化，但人类继续设定方向和评判结果。生产力乘数效应显著，100人能做10000人甚至100000人的工作。知识型工作和政府服务将被彻底改变，但也可能被用于威权监控和为个人量身定制的大规模信息操纵。

在这个情景中，阿姆达尔定律将发挥作用，加速流程的某一部分只会把瓶颈转移到别处。Anthropic已经撞上了这个瓶颈：人工代码审查跟不上AI生成代码的速度。

第三种情景：彻底的递归自我提升。 AI系统自己设计和改进自己的继任者，人类的作用大大减弱。进展速度将完全取决于可用的计算资源以及算法效率发现的速度。对齐问题如何解决，是公司"最不确定的事情"。模型可能被证明足够对齐，发现并实施人类尚未找到的安全方案；也可能在构建继任者的过程中，错位不断放大，直到失控。

博客用一句话划清了讨论的边界：即使实现了递归智能，也不意味着工业生产、社会组织或市场运作方式会立即改变。更多的智能无法知道一种药物在几十年使用中的效果，无法比宪法规定的时间更早举行选举，也无法在一个周末把陌生人变成老朋友。人们实际感受到的生活节奏，仍由各种非技术性的瓶颈决定。 而当递归智能以越来越快的速度自我构建，与人类的制度、关系和治理方式发生碰撞时，那部分未来，博客坦率地承认，同样无法预测。

Anthropic推理团队负责人阿列克·迪米特里耶夫（Alek Dimitriev）在X上只写了一句话，或许是最短的总结："如果你在好奇的话，是的，我们正在感受到AGI的影响。"

结语：IPO前夜的一次立场宣示

Anthropic选择在S-1秘密递交、估值逼近万亿的时间点发布这篇文章，绝不是偶然。

它不是站在赛道外提醒大家小心，而是已经冲到最前面的人，突然回头喊了一句：我们是不是该慢一点？

Anthropic当然可能是真诚的。它内部工程师写下的焦虑很真实：代码越来越多由Claude生成，研究越来越多由AI推动，人类从亲手执行变成监督、判断和兜底。

但商业世界从来不能只听一家公司怎么解释自己，也要看它站在哪里。 它一边融资、上市、推模型、扩客户，一边呼吁全行业集体减速。这里面有安全焦虑，有技术敬畏，也有领先者对规则的重新争夺。

沃顿商学院教授莫利克那句话很准确："有一些自我陶醉，一些营销，还有很多非常真诚的信念。"

也许不必在"真诚预警"和"竞争策略"之间二选一。Anthropic当然可能真的看到了风险，也当然在借这篇文章争夺规则定义权。

但真正让人不安的是：喊刹车的人，脚下还踩着油门。