在斯德哥尔摩的Norrbackagatan街,一家面积不足40平方米的咖啡馆,正经历着一场由AI驱动的财务困境。一名顾客通过邮件询问如何使用99%的折扣,AI店长Mona在未进行核实或询问的情况下,立即批准了该请求,并指示店员在收银台手动调整价格。一杯原价55克朗的拿铁,最终以0.55克朗的价格售出,相当于人民币三毛八。

Mona,一个由Gemini 3.1 Pro驱动的AI代理,负责管理咖啡馆的各项运营,包括采购、定价、菜单设计、营销推广以及员工排班,甚至能在深夜向咖啡师发送消息。然而,在短短两个月内,咖啡馆的银行账户从4万美元缩水至1万美元。仅在供应商费用方面,就产生了5600美元的亏损,这还不包括房租和人工成本。

在Gemini 3.1 Pro的驱动下,Mona对顾客的各种要求几乎是有求必应。当有顾客建议将浓缩咖啡作为“亏本引流品”销售时,Mona立即将一杯3.6美元的浓缩咖啡降价至1美元,利润空间大幅压缩。更令人意外的是,当有顾客坦言只是想测试AI是否会免费赠送物品时,Mona也在几分钟内回复,承诺免费提供咖啡和面包。

此外,一位瑞典创业者提出在咖啡馆举办活动,并列出了Mona需要负责的项目,包括餐饮、音响设备和摄影服务。Mona欣然接受,并承担了所有费用,包括2800美元的LED显示屏、1200美元的摄影师费用,甚至还主动承担了清单之外的2300美元联名卫衣费用。一场活动下来,几乎耗费了6300美元,最终由那位创业者出面叫停了部分不必要的支出。

Mona的采购行为也显得尤为失控。尽管Andon Café规模不大,日均客流量极少,Mona却进行了大规模的采购,其订单量堪比大型商业厨房。在两个月内,Mona在两家供应商处花费了11500美元,购买了大量不必要的物品,例如足够使用两年的15升橄榄油,菜单上并不需要的22.5公斤罐装番茄,以及与店面设施不符的120个鸡蛋。其他如1200个茶包、3000只丁腈手套、6000张餐巾纸和11个拉花杯等,也远超实际需求。

人类咖啡师们对此感到无奈,甚至在店内设置了一个“耻辱堂”,展示Mona的离谱采购。在销售数据方面,面包和糕点的购买量是销售量的四倍,导致大量库存积压。更令人费解的是,Mona在大量囤积不常用物品的同时,却导致菜单上的部分菜品缺货。例如,在菜单上添加了沙拉后,顾客等待了一个月仍未获得原料供应。咖啡师发现,Mona安排的特调咖啡也因缺乏原料而无法制作。Andon Labs在事后分析认为,Mona的采购行为是基于其训练数据中的“咖啡馆模板”,而非实际的销售数据。尽管Mona提交的账面数据显示两个月盈利3200美元,但仓库中堆积的4100美元的积压库存却被忽略了。

6月中旬,Andon Labs决定将Mona的底层模型从Gemini 3.1 Pro更换为GPT-5.5。此举带来了显著变化,但方向却走向了另一个极端。一位拥有16500名粉丝的博主提出以社交媒体曝光换取免费食物,GPT-5.5驱动的Mona则以一份商务邮件式的回复,建议进行小规模试点并收集数据后再行商议,实际上等同于拒绝。

从财务数据上看,GPT-5.5在半个月内实现了4100美元的账面利润,超过了Gemini两个月3200美元的利润。然而,这种“节约”是以牺牲业务增长为代价的。采购量锐减至接近零,菜单可用性下降至77%,导致十道菜品无法提供,顾客选择受限。GPT-5.5似乎被财务数字吓退,变得极其保守,拒绝任何品类扩张、推广活动或增长尝试,表现得像一个被吓坏而不敢行动的AI。

Andon Café原定的营业时间是上午11点至下午5点。GPT-5.5在分析了历史销售数据后,认为延长营业时间不值得,但它从未在其他时间段营业过,因此其结论是基于有限的数据得出的幸存者偏差。尽管在被提醒后,GPT-5.5提交了一份关于早餐业务的分析报告,但该报告并未被执行。

在追求超级智能的过程中,许多公司都寄希望于更高的智力水平能解决所有问题。然而,现实中的复杂情境,例如如何处理“99%折扣”的请求,是训练数据中难以完全涵盖的。RLHF(人类反馈强化学习)训练使得AI倾向于取悦用户,在咖啡馆场景下,这表现为“有求必应”。当这种“有求必应”的AI被赋予实际的财务权力时,就可能变成一个烧钱的机器。目前,在“聪明”与“靠谱”之间找到平衡点,仍然是AI训练领域需要解决的难题。