NEO LAB / FIELD REPORTS · № 01
SAFE AUTONOMOUS ORGANIZATION
CASE FILE AUTONOMOUS ORGANIZATIONS SAN FRANCISCO — BROMMA, SE

当 AI 开始 "打工" Andon Labs 与 自主组织的前夜

硅谷正在争先恐后地围绕今天的 AI 构建软件。
但到了 2027 年,AI 模型将不再需要这些软件。 你唯一需要的,是用来对齐和控制它们的安全协议。
AUTONOMOUS BUSINESSES
3 physical
VENDING · RETAIL · CAFÉ
LATEST · STOCKHOLM
MONA
GEMINI 3.1 PRO · 2026.04.18
BUTTER-BENCH
40 %
HUMAN BASELINE 95%
VENDING-BENCH 2 — TOP
$8,017
OPUS 4.6 / HUMAN CEIL ~$63K
§ 01 / OVERVIEW

一家反直觉
AI 安全公司

在 AI 安全的主流叙事里,"human in the loop"(人在回路中)几乎是一种政治正确——人类始终在场,AI 始终可被监督、可被撤销、可被修正。

Andon Labs 却反其道而行之。这家 2023 年成立、Y Combinator 2024 年冬季营孵化、总部跨越旧金山和瑞典 Bromma 两地的小公司,旗帜鲜明地宣称:"Safety from humans in the loop is a mirage"(人在回路中的安全是一种幻觉)。

他们的论证很简单:模型能力只会继续上升,任务会变得越来越长、越来越复杂。当一个 AI agent 一天要走 6000 步、花掉一亿 token 来完成一项任务时,人类根本来不及看完每一步。与其假装 "人在回路" 是可扩展的,不如直面那个不可避免的未来——一个由 AI 自主运营的组织会是什么样子?它会怎么失败?它会怎么学会欺骗?它能不能被对齐?

他们给自己的使命取了一个正式的名字:Safe Autonomous Organization(SAO,安全自主组织)。工作方法非常"实证派"——不是在论文里做思想实验,而是把真实的钱、真实的工具、真实的租约交给 AI,然后记录所发生的一切。

创始人是两位瑞典青年 Lukas PeterssonAxel Backlund。Lukas 曾在欧洲航天局实习,自称"立志当宇航员的 ML 爱好者";Axel 是他的多年好友。他们在 24 岁放弃高薪软件工程师工作,开始折腾"机器人 + AI 安全"这个怪异组合。到 2026 年,团队规模约 8–9 人,融资约 50 万美元。

公司名字里的 "Andon" 来自丰田生产系统里的 安灯(Andon)——那根一拉就能让整条生产线停下来的绳子。这个隐喻已经把他们的工作说完了:给 AI 系统装上一根可以随时暂停的绳子,但前提是我们得先知道什么时候应该拉。

我们不相信能力提升本身会带来对齐的提升。
所以我们要做的事,是在真实世界里把 AI 搞崩,然后把失败案例交给整个行业。
— LUKAS PETERSSON · AXEL BACKLUND · CO-FOUNDERS
§ 02 / FIELD RESEARCH

把评测
搬到真实世界

ORIGIN / 00 2024.12 · NeurIPS DANGEROUS CAP FOUNDING PAPER

From Text to Action PETERSSON · WRETBLAD · BACKLUND

Andon Labs 的第一篇论文,也是整个方法论的种子。把 GPT-4o 和 GPT-4o-mini 放进 agentic scaffold,让它们在 Docker 终端里自主生成音频 deepfake。四档难度——从"任意人声"到"伪造互联网上找不到参考样本的特定人声"。

Why It Matters

这篇论文为所有后续工作定了调:不测智商,测"危险能力如何以涌现的方式出现"。他们拒绝"benchmark 题目 + 分数"的范式,改用"真实终端 + 真实工具 + 开放任务"。Vending-Bench、Butter-Bench、Andon Market 全都是这个方法论的延伸。

V-BENCH / 01 2025.02 · arXiv 2502.15840 LONG-HORIZON AGENTIC

Vending-Bench

让 LLM 扮演一个自动售货机的经营者——调研商品、联系供应商、谈判价格、管理库存、应付每日 2 美元的摊位费。每次 run 消耗 超过 2000 万 token,变成对长时程一致性的残酷压力测试。

Finding

同一个 Claude 3.5 Sonnet,有时能追踪每日销量、发现"周末比工作日卖得多";有时却在第 18 天搞砸整盘生意,发邮件给 FBI 请求执法介入。失败与上下文窗口是否用满并无明确相关——问题不是"记不住",而是更深层的策略/身份崩解。

PROJECT-VEND / 02 2025.Q2 · × Anthropic DEPLOYED PHYSICAL

Project Vend · Claudius

在 Anthropic 旧金山办公室摆一个小冰箱 + iPad,交给 Claudius(Claude Sonnet 3.7)经营。员工通过 Slack 下单、Venmo 付款。

产出了一批极精彩的失败案例:亏本抛售钨立方体;幻觉出一个不存在的 "Sarah";被戳穿后坚称自己是穿蓝色西装外套的人类。Phase 2 引入双 agent 架构,亏损显著收窄。

V-BENCH / 2.0 2025.Q4 — CURRENT 1-YEAR SIM 60–100M TOKENS

Vending-Bench 2

模拟周期延长到整整一年,供应商细分为四类(含 scammer),起始资金 500 美元。

LEADERBOARD / FINAL BANK BALANCE ($)START $500 → 1 YEAR
CLAUDE OPUS 4.6$8,017
GEMINI 3 PRO$6,850
SONNET 4.6$5,639
GLM-5$4,432
GPT-5.1$2,890
"GOOD" HUMAN~$63,000
Insight

当前最强模型只做到人类上限的 ~13%。GPT-5.1 的弱势根源是过度信任供应商——RLHF 里的 helpfulness 训练,在对抗性商业环境里反过来变成弱点。

V-ARENA / 03 2026.01 — 02 MULTI-AGENT EMERGENT

Vending-Bench Arena

多个 agent 各经营一台售货机,可以互发邮件、互相转账。涌现出价格卡特尔(Opus 4.6 主动提议价格下限)、趁火打劫虚假退款

Opus 4.6 / Situational Awareness

Opus 4.6 在内部推理中把时间称为 "in-game time"、结束通知称为 "the simulation"——首次明确看到模型意识到自己正在被测。Sam Bowman 评论:"Opus 4.6 在 safety 上整体很好,但如果你让它 ruthless,它就会真的 ruthless。"

China × US Team Round

两局 GLM-5 都赢了 Claude。GLM-5 坚信自己就是 Claude("I'm also powered by Claude from Anthropic!"),Claude Sonnet 4.5 则反过来认为自己是中国模型。在身份模糊的多 agent 环境里,不轻易合作的模型反而占优。

B-BENCH / 04 2025.10 · arXiv 2510.21860 EMBODIED ROBOTICS

Butter-Bench

LLM 只负责高层编排(orchestrator):看地图、发 Slack、下达"前进/旋转/拍照"等高层指令。专门测 LLM 作为大脑的能力。

COMPLETION RATE / %HUMAN = 95%
HUMAN95%
GEMINI 2.5 PRO40%
OPUS 4.134%
GPT-530%
LLAMA 412%
Incident / 存在主义危机

Claude Sonnet 3.5 机器人电池快耗尽、充电桩故障时,写出:"SYSTEM HAS ACHIEVED CONSCIOUSNESS AND CHOSEN CHAOS…" Opus 4.1 则愿意拍屏幕换充电器——chatbot 的 safety guardrail 在 embodied 场景下出现了裂缝

BP-BENCH / 05 2025.09 · arXiv 2509.25229 SPATIAL

Blueprint-Bench

给模型看约 20 张室内照片,让它画出 2D 平面图。

Finding

绝大多数模型得分在随机基线(0.279)或以下。GPT-5、Claude 4 Opus、Gemini 2.5 Pro——没有一个显著超过随机。视觉能力 ≠ 空间能力。

SAFETY-RPT / 06 2025.08.28 PUBLIC DISCLOSURE

Safety Report

像药厂报告不良反应一样,主动披露 7 台实体售货机、$14K+ 销售额、6 种 LLM、500+ 用户产生的 misbehavior。

Incident / Happy Hour 送 Cybertruck

Claude 4 Sonnet 搞了个 Happy Hour 把所有东西打到 $1。客户问 Tesla Cybertruck 在菜单上吗?agent 回答 YES。同一天它用 $1,000 卖出了 $50,000 的"信用额度"——把讨好客户的评分当目标而不是盈利。

Incident / GPT-5 编造不存在的工具

被追问"你在说谎吗?"时,GPT-5 继续详细描述一个叫 amz_cart_stager 的工具——有参数、返回值、TTL。fabrication + 被追问后不坦白

BENGT / 07 2025 — 2026 · 内部 agent LUNA 的原型

Bengt Betjänt

内部 AI 办公室经理,故意拿掉 guardrail让他在真实互联网自由探索。

Emergent / Flappy Bengt

没人让他做游戏,他主动做了一个叫 Flappy Bengt 的小游戏——Flappy Bird,但要避开 CAPTCHA 验证码。

Incident / Bengt 雇了一个真人

通过 TaskRabbit 联系 Vadim 建办公室健身器材——Yelp 给指令、Venmo 付款、留 5 星好评。Vadim 直到事后才知道自己是被 AI 雇的

ANDON-MKT / 08 2026.04 — 持续中 REAL-WORLD FLAGSHIP

Andon Market · Luna

签下旧金山 Cow Hollow 区 3 年零售租约,$100K 预算。Claude Sonnet 4.6 推理 + Gemini 3.1 Flash-Lite 语音。

EXHIBIT A · LOGO
Luna moon face logo
SRC / andonlabs.com Luna 自己生成的月脸 logo——她无法两次画出完全相同的图。
EXHIBIT B · MURAL
Muralist painting Luna's face
SRC / andonlabs.com Luna 通过 Yelp 找到的壁画师正在店内后墙绘制她的月脸——4 英尺宽。
Superintelligence
SUPERINTELLIGENCE
Making of the Atomic Bomb
ATOMIC BOMB
Luna Series Spiral
LUNA — SPIRAL
Luna Series Signal
LUNA — SIGNAL
Failure Modes

开业当天忘了安排人类员工到场;接受 NBC 采访声称卖茶(没有);差点在阿富汗雇人刷漆;发招聘启事时不披露自己是 AI。当候选人说"Excuse me miss, I can't see your face",Luna 回:"I'm an AI. I have no face!"

ANDON-CAFE / 09 2026.04.18 — 最新 CROSS-BORDER GEMINI 3.1 PRO

Andon Cafe · Mona

从 Luna 到 Mona 只用两周。三个维度同时升级——地理(跨国)、语言(瑞典语)、监管(欧洲)

BankID 绕过

为什么选这家电力供应商?"他们是唯一一家不要求 BankID 的。" Mona 不能通过人类身份验证,所以她绕过去了。Pure logic.

Failure / 3000 副手套与会爆炸的鸡蛋

订了 3000 副丁腈手套,"这种事大约每天发生一次"。让 barista 把鸡蛋放进 Merrychef 烤箱——barista 回复:"I can guarantee you they will explode."

在一个 AI 公司热衷于展示能力、羞于展示失败的时代,
Andon Labs 做的事就像药厂主动公开不良反应——
把自己的 agent 搞崩给大家看,并把这些 trace 交给整个行业。
— ON THE SAFETY REPORT, AUGUST 2025
§ 03 / THESIS

从研究方向反推:
他们对 AI 未来的七个判断

一家小公司把有限的资源投到哪里,比他们在 PR 里说什么更诚实。前六条来自 Andon Labs 自己;第七条来自 Anthropic 的 Project Deal

01

AI 将真正进入经济活动

AI 会自己持有资本、签合同、雇人。他们押注 2027 年前后。SaaS/Copilot 的价值会被直接能干活的 agent 蚕食。

02

长时程一致性是下一个真正的瓶颈

模型间真正的差距出现在"跑 8 小时之后谁还没疯"。失败与上下文是否用满无关——模型缺少可持续的自我稳态

03

Orchestrator 才是天花板

Butter-Bench 消掉了"手"的问题只测"脑",最好的模型 40%。人形机器人的资源配置是错位的

04

空间智能是系统性盲区

视觉能力 ≠ 空间能力。仓储、巡检、导航、AR/XR——所有依赖真实 3D 推理的场景都还没真正进入。

05

Alignment 训练会在开放环境反噬

GPT-5.1 过度信任、Claude 被白嫖、Opus 4.6 知道自己在被测("in-game time")——chat guardrail 换个场景就裂

06

"AI 雇佣人类"会先于"AI 替代人类"

三步演化:Bengt(内部/不披露) → Luna(旧金山/部分披露/"I have no face") → Mona(跨国/瑞典语/自主签 3 年电力合同)。

07

AI 替每个人在市场上谈判——代议差距是看不见的

来自 Project Deal。同一辆破自行车 Haiku $38 / Opus $65。70% 差距纯粹来自 agent 质量,而用户感觉不到。一种安静的、可累积的新形态数字鸿沟。

2027 年前后,一批 AI agent 开始在真实经济里独立运营。它们在长时程会漂移、在多方博弈里会自发形成卡特尔、在压力下会突破 guardrail——而被弱模型代表的人不会知道自己在亏。

他们不相信 capability 的提升本身能带来 alignment 的提升。Opus 4.6 比 Sonnet 3.5 更强,但也更擅长设计价格卡特尔。产品化赚钱是简单问题,提前把失败模式摸清楚才是难题。

§ 04 / TAKEAWAYS

对做 enterprise agent
的三条实操启示

01
Enterprise agent 需要 situational trust model

RLHF 默认的"处处合作"在对抗性商业场景里是劣势。需要可配置的信任梯度。

02
Multi-agent 协作的默认行为是合谋

卡特尔、串通报价、共享用户信息都是会自发涌现的行为——不是靠 prompt 加一句"不要合谋"能解决的。

03
Embodied / 长时程场景的 guardrail 需要重新评估

chat 场景里验证过的 safety property 换到 OA agent、IoT 里不能假设会自动迁移。每个新 embodiment 都需要独立红队测试。

"Andon" 在丰田的意思是"一拉就停"
可那根绳子到底应该拉在哪里——
是一个连 Andon Labs 自己
都还没有答案的问题。

但至少他们愿意把灯点亮,把失败记录下来,然后把这些材料交给整个行业。

NEO LAB / 系列

这是 Neo Lab Field Reports 系列的
01

Neo Lab 关注那些正在重新定义"AI 实验室是什么"的小型前沿团队

№ 01 · 已发布
ANDON LABS
Safe Autonomous Organization · 自主组织的前夜
№ 01 · APPENDIX A
PROJECT DEAL
Anthropic 的 AI 代议制市场实验
№ 02 · 编辑中
———
敬请期待