一句没说出口的话
这个念头是我玩《奇异人生》的时候冒出来的。打动我的不是剧情,而是一个很小的东西。Max 看着一个人,或者随手拿起房间里的某样物件时,脑子里会浮起一句小小的吐槽,一句关于奖杯凹痕的、关于教室气味的、关于某人端咖啡姿势的碎念。她从来不把这些说出口,只是任它们从脑子里飘过,而你作为玩家刚好偷听到了。
我觉得这实在太可爱了。它让我想去碰这个世界里的东西,想走到物件跟前,因为我开始期待一个回应。我会把她对准某样东西,悄悄想这一个她又会说点什么。那种被这个世界轻轻回应一下的感觉,就是这个项目存在的全部理由。
借来一支委员会
如果说《奇异人生》给了我那份渴望,那《极乐迪斯科》给了我形状。在《极乐迪斯科》里,你的脑子里不是只有一个声音,而是一整支委员会。逻辑、内陆帝国、电化学、共情,他们轮流发言。你走到一具尸体前,逻辑开始做推演,内陆帝国却在旁边低语一句别人都听不见的话。你的颅骨里没有一个旁白,有的是一整组角色。
于是我想,把这支委员会从一个虚构警探的脑子里搬出来,让它对准真实的世界,对准你此刻正在看的东西。我做了 View-Wander,一台取景器,你按下快门,那些内心的声音里就有几个会看着你拍下的照片,一个接一个地碎碎念。我给它定了一条绝不破的规矩:模型永远拿到完整的 3:4 画面,但你只看得到正中央那个方块。你框外的那层意思,你裁掉的边角里悄悄探进来的一只手,才是它的魂。这是理想,然后我真的动手了。
那个我交不出去的接力棒
我立刻撞上了两堵墙,而且都是「不懂」砌成的墙。我不会写 prompt,也不懂怎么系统地去测一个模型,没法判断一次改动到底让那些声音变好了,还是只是变得不一样了。
于是我做了我一贯做的事,去问 Claude Code。真正让我记到现在的是这一段:它常常自己就动手改起来了,重写一段 prompt,重组一次调用,一溜烟跑了,而我就那么坐着,并不真的知道它改了什么、为什么改、到底是不是更好。我把活儿交出去了,可我把方向盘也一起交出去了,我看不懂,也夺不回来。过了好一阵我才说清哪里不对。不是它帮倒忙,而是我做了一次没法让自己继续当导演的委托。
学会召唤
解法不是从头去学 prompt 工程和心理学,而是学会该叫谁。不会写、也不会评 prompt 的时候,我写了一个 ai-engineer skill,它给我的不是一段更好的 prompt,而是一套方法和一点可见性。它不许我凭感觉调,逼我先把「什么才算对」定下来、冻成一份评测集,然后才准迭代。一下子我能看见一次改动到底有没有用了,也重新坐回了导演椅。
后来当我需要真的读懂《极乐迪斯科》那 24 个技能,读懂到能把它们做成人格时,我召唤了一个 psychologist skill。我不是心理学家,下面这些判断靠我自己一辈子也想不到:
别让「共情」这个人格去科普镜像神经元,那是被严重夸大的神经神话。机制是真的,但「人靠镜像神经元共情」是流行误读。要是这个声音真去讲它,反而露怯。
或者这条,关于「电化学」:
它建在「多巴胺等于快感」上,可 Berridge 的研究把 wanting(想要)和 liking(爽本身)分得清清楚楚,多巴胺主要管「想要」。好消息是,游戏把它定义成「欲望意识到自己正在发生那一秒的低语」,歪打正着落在了 wanting 上。顺着这点写,声口会更准。
这不是你 google 一下就查得到的信息,而是判断,一双我没有的眼睛。最妙的一层是这两个 skill 之间还会交接。心理学家产出了一套「内核卡」,每个人格一张,并在文档开头白纸黑字写着一句,说下游读者是 AI engineer。心理学家负责诊断,工程师负责写声口,而站在中间把它们接起来的人是我。我没在这两件事上变成任何专家,我学会的是当那个导演。
处处都是划界
最让我意外的是这个。等我真的把那份心理学文档读完,发现它有一半根本不在描述人格,而在预警撞车。内陆帝国和逻辑老在霸屏,每张照片都有它俩。社会侧那四个声音,共情、威权、沉着、戏剧,都想读同一张脸,然后全退化成同一种味道的「读情绪」。所以这份文档把力气都花在磨边界上。共情问的是他感觉如何,威权问的是谁压着谁,沉着问的是谁在端着、谁绷不住了,戏剧问的是这一切到底是不是演的。同一张照片,四个不同的问题。
这是个选角问题,而它跟我在别处遇到的是一模一样的问题。在 app 里,是让 17 个声音共存,不让某一个把别人盖掉。在模型调用里,是决定谁先说、按什么顺序说、基于什么上下文说,好让这场接力像一次对话,而不是一个模型自己在絮叨;一次「导演」调用决定谁,一个固定顺序决定何时,前端把前文拼进去决定每个人看到什么。在我自己的工作流里,是知道什么时候该叫心理学家、什么时候该叫工程师,别让一个去抢另一个的活。
调度游戏人格、编排模型调用、调度 Claude 的 skill,难的从来不是那些「天赋」本身,难的永远是划界,是谁说、何时说、基于什么说。把这每一个决定都留在我自己能读、能测、能讲清楚的地方,而不是留在一个黑箱里任它带着跑。
又回到取景器
我本想做一台取景器,直到最后才回过神:做它的过程本身就是一次取景,你面对一帧画面,决定该把谁叫进来。我没变成模型专家,也没变成心理学家,我真正学会的是藏在这两件事底下那个更小也更奇怪的本事,知道什么时候该叫谁,无论是一张照片里的 17 个人格,还是我为了把它们做出来而往自己脑子里召唤进来的那两个 skill。
说来好笑,这一圈正好把我送回了起点。我当初在《奇异人生》里爱的是那份期待,把 Max 对准某样东西,好奇她下一句会说什么。不知不觉中,我不再是那个等着声音响起的人了。我成了那个按下快门、把声音一个个放进来的人。