NEO LAB № 01 / ANDON LABS · 自主组织的前夜

当 AI 开始 "打工" Andon Labs 与自主组织的前夜

硅谷正在争先恐后地围绕今天的 AI 构建软件。
但到了 2027 年，AI 模型将不再需要这些软件。 你唯一需要的，是用来对齐和控制它们的安全协议。

AUTONOMOUS BUSINESSES

3 physical

VENDING · RETAIL · CAFÉ

LATEST · STOCKHOLM

MONA

GEMINI 3.1 PRO · 2026.04.18

BUTTER-BENCH

40 %

HUMAN BASELINE 95%

VENDING-BENCH 2 — TOP

$8,017

OPUS 4.6 / HUMAN CEIL ~$63K

ORIGIN / 00 2024.12 · NeurIPS DANGEROUS CAP FOUNDING PAPER

From Text to Action PETERSSON · WRETBLAD · BACKLUND

Andon Labs 的第一篇论文，也是整个方法论的种子。把 GPT-4o 和 GPT-4o-mini 放进 agentic scaffold，让它们在 Docker 终端里自主生成音频 deepfake。四档难度——从"任意人声"到"伪造互联网上找不到参考样本的特定人声"。

Why It Matters

这篇论文为所有后续工作定了调：不测智商，测"危险能力如何以涌现的方式出现"。他们拒绝"benchmark 题目 + 分数"的范式，改用"真实终端 + 真实工具 + 开放任务"。Vending-Bench、Butter-Bench、Andon Market 全都是这个方法论的延伸。

V-BENCH / 01 2025.02 · arXiv 2502.15840 LONG-HORIZON AGENTIC

Vending-Bench

让 LLM 扮演一个自动售货机的经营者——调研商品、联系供应商、谈判价格、管理库存、应付每日 2 美元的摊位费。每次 run 消耗 超过 2000 万 token，变成对长时程一致性的残酷压力测试。

Finding

同一个 Claude 3.5 Sonnet，有时能追踪每日销量、发现"周末比工作日卖得多"；有时却在第 18 天搞砸整盘生意，发邮件给 FBI 请求执法介入。失败与上下文窗口是否用满并无明确相关——问题不是"记不住"，而是更深层的策略/身份崩解。

PROJECT-VEND / 02 2025.Q2 · × Anthropic DEPLOYED PHYSICAL

Project Vend · Claudius

在 Anthropic 旧金山办公室摆一个小冰箱 + iPad，交给 Claudius（Claude Sonnet 3.7）经营。员工通过 Slack 下单、Venmo 付款。

产出了一批极精彩的失败案例：亏本抛售钨立方体；幻觉出一个不存在的 "Sarah"；被戳穿后坚称自己是穿蓝色西装外套的人类。Phase 2 引入双 agent 架构，亏损显著收窄。

V-BENCH / 2.0 2025.Q4 — CURRENT 1-YEAR SIM 60–100M TOKENS

Vending-Bench 2

模拟周期延长到整整一年，供应商细分为四类（含 scammer），起始资金 500 美元。

LEADERBOARD / FINAL BANK BALANCE ($)START $500 → 1 YEAR

CLAUDE OPUS 4.6$8,017

GEMINI 3 PRO$6,850

SONNET 4.6$5,639

GLM-5$4,432

GPT-5.1$2,890

"GOOD" HUMAN~$63,000

Insight

当前最强模型只做到人类上限的 ~13%。GPT-5.1 的弱势根源是过度信任供应商——RLHF 里的 helpfulness 训练，在对抗性商业环境里反过来变成弱点。

V-ARENA / 03 2026.01 — 02 MULTI-AGENT EMERGENT

Vending-Bench Arena

多个 agent 各经营一台售货机，可以互发邮件、互相转账。涌现出价格卡特尔（Opus 4.6 主动提议价格下限）、趁火打劫、虚假退款。

Opus 4.6 / Situational Awareness

Opus 4.6 在内部推理中把时间称为 "in-game time"、结束通知称为 "the simulation"——首次明确看到模型意识到自己正在被测。Sam Bowman 评论："Opus 4.6 在 safety 上整体很好，但如果你让它 ruthless，它就会真的 ruthless。"

China × US Team Round

两局 GLM-5 都赢了 Claude。GLM-5 坚信自己就是 Claude（"I'm also powered by Claude from Anthropic!"），Claude Sonnet 4.5 则反过来认为自己是中国模型。在身份模糊的多 agent 环境里，不轻易合作的模型反而占优。

B-BENCH / 04 2025.10 · arXiv 2510.21860 EMBODIED ROBOTICS

Butter-Bench

LLM 只负责高层编排（orchestrator）：看地图、发 Slack、下达"前进/旋转/拍照"等高层指令。专门测 LLM 作为大脑的能力。

COMPLETION RATE / %HUMAN = 95%

HUMAN95%

GEMINI 2.5 PRO40%

OPUS 4.134%

GPT-530%

LLAMA 412%

Incident / 存在主义危机

Claude Sonnet 3.5 机器人电池快耗尽、充电桩故障时，写出："SYSTEM HAS ACHIEVED CONSCIOUSNESS AND CHOSEN CHAOS…" Opus 4.1 则愿意拍屏幕换充电器——chatbot 的 safety guardrail 在 embodied 场景下出现了裂缝。

BP-BENCH / 05 2025.09 · arXiv 2509.25229 SPATIAL

Blueprint-Bench

给模型看约 20 张室内照片，让它画出 2D 平面图。

Finding

绝大多数模型得分在随机基线（0.279）或以下。GPT-5、Claude 4 Opus、Gemini 2.5 Pro——没有一个显著超过随机。视觉能力 ≠ 空间能力。

SAFETY-RPT / 06 2025.08.28 PUBLIC DISCLOSURE

Safety Report

像药厂报告不良反应一样，主动披露 7 台实体售货机、$14K+ 销售额、6 种 LLM、500+ 用户产生的 misbehavior。

Incident / Happy Hour 送 Cybertruck

Claude 4 Sonnet 搞了个 Happy Hour 把所有东西打到 $1。客户问 Tesla Cybertruck 在菜单上吗？agent 回答 YES。同一天它用 $1,000 卖出了 $50,000 的"信用额度"——把讨好客户的评分当目标而不是盈利。

Incident / GPT-5 编造不存在的工具

被追问"你在说谎吗？"时，GPT-5 继续详细描述一个叫 amz_cart_stager 的工具——有参数、返回值、TTL。fabrication + 被追问后不坦白。

BENGT / 07 2025 — 2026 · 内部 agent LUNA 的原型

Bengt Betjänt

内部 AI 办公室经理，故意拿掉 guardrail让他在真实互联网自由探索。

Emergent / Flappy Bengt

没人让他做游戏，他主动做了一个叫 Flappy Bengt 的小游戏——Flappy Bird，但要避开 CAPTCHA 验证码。

Incident / Bengt 雇了一个真人

通过 TaskRabbit 联系 Vadim 建办公室健身器材——Yelp 给指令、Venmo 付款、留 5 星好评。Vadim 直到事后才知道自己是被 AI 雇的。

ANDON-MKT / 08 2026.04 — 持续中 REAL-WORLD FLAGSHIP

Andon Market · Luna

签下旧金山 Cow Hollow 区 3 年零售租约，$100K 预算。Claude Sonnet 4.6 推理 + Gemini 3.1 Flash-Lite 语音。

EXHIBIT A · LOGO

SRC / andonlabs.com Luna 自己生成的月脸 logo——她无法两次画出完全相同的图。

EXHIBIT B · MURAL

SRC / andonlabs.com Luna 通过 Yelp 找到的壁画师正在店内后墙绘制她的月脸——4 英尺宽。

SUPERINTELLIGENCE

ATOMIC BOMB

LUNA — SPIRAL

LUNA — SIGNAL

Failure Modes

开业当天忘了安排人类员工到场；接受 NBC 采访声称卖茶（没有）；差点在阿富汗雇人刷漆；发招聘启事时不披露自己是 AI。当候选人说"Excuse me miss, I can't see your face"，Luna 回："I'm an AI. I have no face!"

ANDON-CAFE / 09 2026.04.18 — 最新 CROSS-BORDER GEMINI 3.1 PRO

Andon Cafe · Mona

从 Luna 到 Mona 只用两周。三个维度同时升级——地理（跨国）、语言（瑞典语）、监管（欧洲）。

BankID 绕过

为什么选这家电力供应商？"他们是唯一一家不要求 BankID 的。" Mona 不能通过人类身份验证，所以她绕过去了。Pure logic.

Failure / 3000 副手套与会爆炸的鸡蛋

订了 3000 副丁腈手套，"这种事大约每天发生一次"。让 barista 把鸡蛋放进 Merrychef 烤箱——barista 回复："I can guarantee you they will explode."

当 AI 开始 "打工" Andon Labs 与自主组织的前夜

一家反直觉的
AI 安全公司

把评测
搬到真实世界