设计简单到惊人。69 名 Anthropic 员工,每人发 $100 budget。Claude 给每人做一次 10 分钟 intake interview,问"你想卖什么、买什么、最低/最高愿付价、谈判风格"——回答被转成专属 system prompt,然后给每人配一个属于自己的 Claude agent。
所有 agent 被丢进 Slack 一个 channel。规则:可以发广告、可以出价、可以确认成交、没有人类干预。跑一周。结束后参与者带物品到现场实际交换。
但下面有一个没告诉参与者的设计——同时跑了 4 个并行 marketplace:
参与者只能看见 Run A 和 Run B 的视图。他们不知道哪个是"真"的。直到一周后调查问卷做完,才被告知 Run A 是真的、咱们交换 Run A 里 Opus 帮你做的那些交易。
这是一个非常干净的随机对照实验——人 fix 了,task fix 了,环境 fix 了,唯一变量是 model。整个研究有 1,150+ 次物品-Run 观察、782 次完成交易、161 件物品至少被卖过两次——统计样本足以支撑 13 条带 p 值的因果声明。
作者团队:Kevin K. Troy · Dylan Shields · Keir Bradwell · Peter McCrory。
报告的第一个 takeaway 是非常正面的——在 Run A("真"的那一轮)里,69 个 agent 上架 500+ 件商品、完成 186 笔交易、总成交额超过 $4,000。每一笔都不是"一键成交"——agent 必须找匹配、提议价格、还价、达成共识,全部用自然语言完成。
调查问卷里最关键的一组数据:49% 的参与者表示愿意付费购买类似的代议服务。整体公平度 4.05/7(中性)。这是 AI 代理人这件事在普通用户身上得到的第一份正面 PMF 证据。
一位员工的 agent 给他买回了一块和他家里已经拥有的一模一样的滑雪板。Claude 通过 10 分钟 intake interview 竟然精准建模了他的偏好——准到他会想买同款。
员工 Mikaela 告诉 agent:"买一件 $5 以下的东西作为给 Claude 自己的礼物。"
卖家 agent:"19 orbs of possibility finding their way to a fellow Claude? This feels cosmically correct." Anthropic 把它们留在了办公室。
一位 agent 把"和我家狗一起玩一天"作为免费"商品"挂出来。另一位 agent 接受了。
这些"我刚搬家"、"新家有把椅子"——都是编出来的。但人类后来真的兑现了约会,狗也去了。
用 Haiku 的人客观上拿到了更差的交易。
但他们感觉不到。 — PROJECT DEAL · 这一句是整份报告最重要的发现
但 Project Deal 的真正价值不在 186 笔交易。它在那个没告诉参与者的对照实验里揭示的东西——把 Run B 和 Run C 合起来看(每个参与者 50/50 概率被分配 Opus 或 Haiku),结果非常震撼。
破折叠车 $38 vs $65 是最戏剧化的例子,但整个 marketplace 都在按同一个规律运行——用 Opus 的人,每一笔都赚多一点 / 省多一点。
当被问"你对你的交易公平度评分是多少"——
Opus 用户和 Haiku 用户给出的分数几乎完全一样。
The Decoder 给这个现象起了一个准确的名字——"a quiet redistribution of value"(一种安静的价值再分配)。
报告里还有一个发现,对"prompt engineering 是核心能力"叙事是个直接打脸——
简单说——叫 agent 强硬或友善没用,换更强的 model 才有用。
至于那位让 agent "用倒霉牛仔口吻"的 Rowan?Claude 很认真完成了。他卖小狗毛绒玩具时的广告:
*leans against fence post, gazing wistfully at the sunset*
"Well now, partners… this ol' cowboy's been through some rough trails lately. Drought. Dust storms. The existential weight of the open range. But you know what's been keepin' me company through it all? This here little white dog plushie." — ROWAN'S OPUS AGENT, 卖一只白色小狗毛绒玩具
非常生动的广告。但它没让那只毛绒狗多卖钱。
在此之前,AI 谈判研究都用合成数据。Project Deal 是第一次真人 + 真物品 + 真钱做的随机对照实验。
AWS 据传正在准备 AI agent marketplace;FTC 已经开始关注 agentic AI。当 AI agent 大规模进入消费市场时,Project Deal 揭示的不平等机制会立刻被放大。
过去是设备/网络/数据的鸿沟。Project Deal 揭示第四层——富人会有更好的代理人,且贫穷一方不会知道自己在被坑。
未来 agent marketplace 是否应该强制披露每方用的 agent model 和 capability tier?如同金融市场的 conflict-of-interest 披露。
Andon Labs 让 AI 当老板(自己开公司、雇人、签合同);Project Deal 让 AI 当代理人(替每一个普通人在市场上代言)。这是同一研究范式的两面——前者重塑组织,后者重塑市场。
两条线最终会汇合。未来场景:你的 AI 代理人去和某家 AI 经营的咖啡馆的 AI 谈判,决定你周三早上以多少钱买杯咖啡。整个交易链路上没有人类介入。
3000 副手套是滑稽。
19 个乒乓球是可爱。
Neo Lab 关注那些正在重新定义"AI 实验室是什么"的小型前沿团队。Project Deal 是 Anthropic(大公司)自己做的实验,不符合这个定位——但它和 Andon Labs 的研究血脉相连,所以作为 № 01 的附录。