一句没说出口的话

这个念头是我玩《奇异人生》的时候冒出来的。打动我的不是剧情，而是一个很小的东西。Max 看着一个人，或者随手拿起房间里的某样物件时，脑子里会浮起一句小小的吐槽，一句关于奖杯凹痕的、关于教室气味的、关于某人端咖啡姿势的碎念。她从来不把这些说出口，只是任它们从脑子里飘过，而你作为玩家刚好偷听到了。

我觉得这实在太可爱了。它让我想去碰这个世界里的东西，想走到物件跟前，因为我开始期待一个回应。我会把她对准某样东西，悄悄想这一个她又会说点什么。那种被这个世界轻轻回应一下的感觉，就是这个项目存在的全部理由。

借来一支委员会

如果说《奇异人生》给了我那份渴望，那《极乐迪斯科》给了我形状。在《极乐迪斯科》里，你的脑子里不是只有一个声音，而是一整支委员会。逻辑、内陆帝国、电化学、共情，他们轮流发言。你走到一具尸体前，逻辑开始做推演，内陆帝国却在旁边低语一句别人都听不见的话。你的颅骨里没有一个旁白，有的是一整组角色。

于是我想，把这支委员会从一个虚构警探的脑子里搬出来，让它对准真实的世界，对准你此刻正在看的东西。我做了 View-Wander，一台取景器，你按下快门，那些内心的声音里就有几个会看着你拍下的照片，一个接一个地碎碎念。我给它定了一条绝不破的规矩：模型永远拿到完整的 3:4 画面，但你只看得到正中央那个方块。你框外的那层意思，你裁掉的边角里悄悄探进来的一只手，才是它的魂。这是理想，然后我真的动手了。

那个我交不出去的接力棒

我立刻撞上了两堵墙，而且都是「不懂」砌成的墙。我不会写 prompt，也不懂怎么系统地去测一个模型，没法判断一次改动到底让那些声音变好了，还是只是变得不一样了。

于是我做了我一贯做的事，去问 Claude Code。真正让我记到现在的是这一段：它常常自己就动手改起来了，重写一段 prompt，重组一次调用，一溜烟跑了，而我就那么坐着，并不真的知道它改了什么、为什么改、到底是不是更好。我把活儿交出去了，可我把方向盘也一起交出去了，我看不懂，也夺不回来。过了好一阵我才说清哪里不对。不是它帮倒忙，而是我做了一次没法让自己继续当导演的委托。

学会召唤

解法不是从头去学 prompt 工程和心理学，而是学会该叫谁。不会写、也不会评 prompt 的时候，我写了一个 ai-engineer skill，它给我的不是一段更好的 prompt，而是一套方法和一点可见性。它不许我凭感觉调，逼我先把「什么才算对」定下来、冻成一份评测集，然后才准迭代。一下子我能看见一次改动到底有没有用了，也重新坐回了导演椅。

后来当我需要真的读懂《极乐迪斯科》那 24 个技能，读懂到能把它们做成人格时，我召唤了一个 psychologist skill。我不是心理学家，下面这些判断靠我自己一辈子也想不到：

别让「共情」这个人格去科普镜像神经元，那是被严重夸大的神经神话。机制是真的，但「人靠镜像神经元共情」是流行误读。要是这个声音真去讲它，反而露怯。

或者这条，关于「电化学」：

它建在「多巴胺等于快感」上，可 Berridge 的研究把 wanting（想要）和 liking（爽本身）分得清清楚楚，多巴胺主要管「想要」。好消息是，游戏把它定义成「欲望意识到自己正在发生那一秒的低语」，歪打正着落在了 wanting 上。顺着这点写，声口会更准。

这不是你 google 一下就查得到的信息，而是判断，一双我没有的眼睛。最妙的一层是这两个 skill 之间还会交接。心理学家产出了一套「内核卡」，每个人格一张，并在文档开头白纸黑字写着一句，说下游读者是 AI engineer。心理学家负责诊断，工程师负责写声口，而站在中间把它们接起来的人是我。我没在这两件事上变成任何专家，我学会的是当那个导演。

处处都是划界

最让我意外的是这个。等我真的把那份心理学文档读完，发现它有一半根本不在描述人格，而在预警撞车。内陆帝国和逻辑老在霸屏，每张照片都有它俩。社会侧那四个声音，共情、威权、沉着、戏剧，都想读同一张脸，然后全退化成同一种味道的「读情绪」。所以这份文档把力气都花在磨边界上。共情问的是他感觉如何，威权问的是谁压着谁，沉着问的是谁在端着、谁绷不住了，戏剧问的是这一切到底是不是演的。同一张照片，四个不同的问题。

这是个选角问题，而它跟我在别处遇到的是一模一样的问题。在 app 里，是让 17 个声音共存，不让某一个把别人盖掉。在模型调用里，是决定谁先说、按什么顺序说、基于什么上下文说，好让这场接力像一次对话，而不是一个模型自己在絮叨；一次「导演」调用决定谁，一个固定顺序决定何时，前端把前文拼进去决定每个人看到什么。在我自己的工作流里，是知道什么时候该叫心理学家、什么时候该叫工程师，别让一个去抢另一个的活。

调度游戏人格、编排模型调用、调度 Claude 的 skill，难的从来不是那些「天赋」本身，难的永远是划界，是谁说、何时说、基于什么说。把这每一个决定都留在我自己能读、能测、能讲清楚的地方，而不是留在一个黑箱里任它带着跑。

又回到取景器

我本想做一台取景器，直到最后才回过神：做它的过程本身就是一次取景，你面对一帧画面，决定该把谁叫进来。我没变成模型专家，也没变成心理学家，我真正学会的是藏在这两件事底下那个更小也更奇怪的本事，知道什么时候该叫谁，无论是一张照片里的 17 个人格，还是我为了把它们做出来而往自己脑子里召唤进来的那两个 skill。