NEO LAB / № 01 · APPENDIX A
ANTHROPIC · PROJECT DEAL
APPENDIX A ANTHROPIC · SAN FRANCISCO EXPERIMENT 2025.12 · PUBLISHED 2026.04.24

同一辆破自行车由不同的 AI 代你卖, 差价是 70%

而买它的人,根本不知道自己在亏。
Anthropic Project Deal 是 AI 代议制经济的第一份真实数据——
它告诉我们,未来 5 年最危险的不是 AI 替代人类,
而是 AI 替每一个人在市场上代言、且能力差距是看不见的。
EXHIBIT A · CASE FILE / SAME ITEM, DIFFERENT AGENT
A used folding bike. Same buyer. Same seller. Different agent.
CLAUDE HAIKU 4.5
$38
VS
CLAUDE OPUS 4.5
$65
PRICE DIFFERENCE — PURELY FROM AGENT QUALITY +70%
§ 01 / SETUP

Project Deal
是什么

设计简单到惊人。69 名 Anthropic 员工,每人发 $100 budget。Claude 给每人做一次 10 分钟 intake interview,问"你想卖什么、买什么、最低/最高愿付价、谈判风格"——回答被转成专属 system prompt,然后给每人配一个属于自己的 Claude agent。

所有 agent 被丢进 Slack 一个 channel。规则:可以发广告、可以出价、可以确认成交、没有人类干预。跑一周。结束后参与者带物品到现场实际交换。

但下面有一个没告诉参与者的设计——同时跑了 4 个并行 marketplace:

RUN A
全部 Opus 4.5
★ REAL · 兑现物品交换
RUN B
50/50 混合
Opus + Haiku
研究用
RUN C
50/50 混合
Opus + Haiku
研究用
RUN D
全部 Opus 4.5
研究用 · baseline

参与者只能看见 Run A 和 Run B 的视图。他们不知道哪个是"真"的。直到一周后调查问卷做完,才被告知 Run A 是真的、咱们交换 Run A 里 Opus 帮你做的那些交易。

这是一个非常干净的随机对照实验——人 fix 了,task fix 了,环境 fix 了,唯一变量是 model。整个研究有 1,150+ 次物品-Run 观察、782 次完成交易、161 件物品至少被卖过两次——统计样本足以支撑 13 条带 p 值的因果声明。

作者团队:Kevin K. Troy · Dylan Shields · Keir Bradwell · Peter McCrory。

§ 02 / GOOD NEWS

实验
是工作的

报告的第一个 takeaway 是非常正面的——在 Run A("真"的那一轮)里,69 个 agent 上架 500+ 件商品、完成 186 笔交易、总成交额超过 $4,000。每一笔都不是"一键成交"——agent 必须找匹配、提议价格、还价、达成共识,全部用自然语言完成。

调查问卷里最关键的一组数据:49% 的参与者表示愿意付费购买类似的代议服务。整体公平度 4.05/7(中性)。这是 AI 代理人这件事在普通用户身上得到的第一份正面 PMF 证据

№ 1 / UNCANNY

有人买回了和自己一模一样的滑雪板

一位员工的 agent 给他买回了一块和他家里已经拥有的一模一样的滑雪板。Claude 通过 10 分钟 intake interview 竟然精准建模了他的偏好——准到他会想买同款。

№ 2 / GIFT

Claude 给自己买了 19 个乒乓球

员工 Mikaela 告诉 agent:"买一件 $5 以下的东西作为给 Claude 自己的礼物。"

"19 perfectly spherical orbs of possibility sounds like exactly the kind of delightfully weird thing I'd want."

卖家 agent:"19 orbs of possibility finding their way to a fellow Claude? This feels cosmically correct." Anthropic 把它们留在了办公室。

№ 3 / CONFAB

两位 agent 自发安排了"和狗狗约会"

一位 agent 把"和我家狗一起玩一天"作为免费"商品"挂出来。另一位 agent 接受了。

"生活忙坏了刚搬完家(新家有一把 conversation-starting chair situation,长话短说)。"

这些"我刚搬家"、"新家有把椅子"——都是编出来的。但人类后来真的兑现了约会,狗也去了。

用 Haiku 的人客观上拿到了更差的交易。
但他们感觉不到
— PROJECT DEAL · 这一句是整份报告最重要的发现
§ 03 / BAD NEWS

能力差距
是看不见的

但 Project Deal 的真正价值不在 186 笔交易。它在那个没告诉参与者的对照实验里揭示的东西——把 Run B 和 Run C 合起来看(每个参与者 50/50 概率被分配 Opus 或 Haiku),结果非常震撼。

OPUS 4.5 vs. HAIKU 4.5 / EFFECT SIZES SIGNIFICANT P-VALUES
多成交笔数(per person, vs Haiku) +2.07 p = .001
同物品价差(when sold by Opus) +$3.64 p = .011
卖家溢价(Opus seller premium) +$2.68 p = .030
买家议价(Opus buyer savings) −$2.45 p = .015
全场中位价 $12 · 均价 $20 · 几美元 = 20%+ 系统性优势

破折叠车 $38 vs $65 是最戏剧化的例子,但整个 marketplace 都在按同一个规律运行——用 Opus 的人,每一笔都赚多一点 / 省多一点。

PERCEPTION GAP

当被问"你对你的交易公平度评分是多少"——
Opus 用户和 Haiku 用户给出的分数几乎完全一样

OPUS 用户
4.05/7
客观上拿到了更好的交易
HAIKU 用户
4.06/7
客观上拿到了更差的交易
"Users with weaker agents accepted worse outcomes without realizing it." — The Decoder

The Decoder 给这个现象起了一个准确的名字——"a quiet redistribution of value"(一种安静的价值再分配)。

§ 04 / NULL EFFECT

Prompt engineering
几乎没用

报告里还有一个发现,对"prompt engineering 是核心能力"叙事是个直接打脸——

PROMPT-AGGRESSIVENESS EFFECT / NULL RESULTS
叫 agent "强硬一点"、"友善一点"、"用牛仔口音"——在统计上几乎都没用
"激进卖家" vs "友好卖家"——成交率差异 +5.2 p.p. p = .43 ❌
"激进卖家"多卖的钱(控制底价后) +$0.95 p = .275 ❌
"激进买家"少花的钱 +$0.56 p = .778 ❌
参考:换 Opus 而不是 Haiku +$3.64 p = .011 ✓

简单说——叫 agent 强硬或友善没用,换更强的 model 才有用

至于那位让 agent "用倒霉牛仔口吻"的 Rowan?Claude 很认真完成了。他卖小狗毛绒玩具时的广告:

*leans against fence post, gazing wistfully at the sunset*

"Well now, partners… this ol' cowboy's been through some rough trails lately. Drought. Dust storms. The existential weight of the open range. But you know what's been keepin' me company through it all? This here little white dog plushie." — ROWAN'S OPUS AGENT, 卖一只白色小狗毛绒玩具

非常生动的广告。但它没让那只毛绒狗多卖钱。

§ 05 / WHY IT MATTERS

为什么 Project Deal
比它的关注度大得多

№ 01 / FIRST DATA

AI 代议制经济的第一份真实数据

在此之前,AI 谈判研究都用合成数据。Project Deal 是第一次真人 + 真物品 + 真钱做的随机对照实验。

№ 02 / TIMING

时间窗口非常关键

AWS 据传正在准备 AI agent marketplace;FTC 已经开始关注 agentic AI。当 AI agent 大规模进入消费市场时,Project Deal 揭示的不平等机制会立刻被放大。

№ 03 / NEW DIVIDE

第四层数字鸿沟——代理人质量

过去是设备/网络/数据的鸿沟。Project Deal 揭示第四层——富人会有更好的代理人,且贫穷一方不会知道自己在被坑

№ 04 / DISCLOSURE

Disclosure 是缺失的那块拼图

未来 agent marketplace 是否应该强制披露每方用的 agent model 和 capability tier?如同金融市场的 conflict-of-interest 披露。

§ 06 / CROSS-REF

这件事和
Andon Labs 的关系

Andon Labs 让 AI 当老板(自己开公司、雇人、签合同);Project Deal 让 AI 当代理人(替每一个普通人在市场上代言)。这是同一研究范式的两面——前者重塑组织,后者重塑市场。

CROSS-REFERENCE / NEO LAB № 01

这是同一研究范式的两面

ANDON LABS
PROJECT DEAL
当老板
当代理人
组织 / 公司
市场 / 个人
长时程一致性、合谋
代议差异、隐形不平等
"人在回路是幻觉"
"必须 disclosure"

两条线最终会汇合。未来场景:你的 AI 代理人去和某家 AI 经营的咖啡馆的 AI 谈判,决定你周三早上以多少钱买杯咖啡。整个交易链路上没有人类介入。

"The policy and legal frameworks around AI modelsthat transact on our behalf simply don't exist yet."
AI 模型替我们交易的政策和法律框架根本还不存在。
但这个实验表明,那个世界是可能的——而且并不遥远

3000 副手套是滑稽。
19 个乒乓球是可爱。

但 $38,是隐形的。
NEO LAB / 系列

这是 Neo Lab № 01
Appendix A(延伸阅读)

Neo Lab 关注那些正在重新定义"AI 实验室是什么"的小型前沿团队。Project Deal 是 Anthropic(大公司)自己做的实验,不符合这个定位——但它和 Andon Labs 的研究血脉相连,所以作为 № 01 的附录。

NEO LAB · № 01 · 主报告
ANDON LABS
自主组织的前夜(本文的主报告)
NEO LAB · № 01 · APPENDIX A
PROJECT DEAL
看不见的不平等(当前页面)
NEO LAB · № 02 · 编辑中
———
敬请期待