🦞 龙虾编排系统 — 设计理念与架构

🎯 核心理论

大模型具备随机性
把任务拆到最细，随机性降到最低

LLM 在完成复杂任务时，步骤越多、上下文越杂，输出的方差越大。
龙虾的核心策略：不让任何一个 Agent 承担超过一个原子任务。
每个 Agent 只做一件事，做完就退出。精确注入、精确产出、精确验证。

推论：与其用更聪明的模型硬扛复杂任务，不如用足够好的模型 × 精确拆分 × 严格验证。这是工程问题，不是智能问题。

🏗️ 系统架构

Will（人类） │ ▼ 自然语言指令 🎲 骰子（路由层） ─── 只做三件事：说话 / 读文件 / 派发任务 │ 禁止：执行、写文件、调工具 │ new-task.py ▼ 🀄 红中（编排层） ─── 拆解任务 → 写 plan.md │ 一个任务一个 Soul，绝不打包 │ cron 自动触发 ▼ 🀆 白板（审核层） ─── 审核 plan → 准奏/封驳 │ 封驳最多 3 次，3 次不过 → 上报 │ cron 自动触发 ▼ 执行 Soul（7 个专业角色） │ 每个 Soul 调 claude --print 派出 Agent │ Agent 取牌名（🀄麻将牌池 27 张） │ 做完验证 → 释放牌名 ▼ 产出 → 蒸馏 → 归档知识库

层级
路由 → 编排 → 执行

执行 Soul
按职能分工

Agent 牌池
麻将命名，可追溯

七个执行 Soul 分工

Soul	角色	职责域
🀄 红中	调度秘书	任务拆解、子任务编排
🀆 白板	审计员	方案审核、合规检查
🀅 发财	学习员	阅读、知识入库、蒸馏
🉐 东风	制作人	游戏业务、功能开发
🀀 南风	架构师	系统设计、接口定义
🀁 西风	代码审查	安全审计、代码质量
🀂 北风	测试员	测试用例、回归验证

🔬 骰子职责演变：8 轮迭代发现的真相

53%

R1 通过率
路由器模式（基线）

100%

R8 通过率
信息隔离（最终方案）

R1-R3 · 规则越写越多，通过率卡在 77%

尝试了关键词检测、自检四问、工具禁令——LLM 读了知识文件后就"有能力回答"，然后无视一切规则。

R4-R5 · 意图分类器，70% → 73%

预处理脚本 route-message.py 做关键词/模式匹配，但短问句（"上海几度"）绕过所有规则。

R6-R7 · "所有消息都派发"，0% 通过

极端方案：骰子不回答任何问题，全部派红中。闲聊"你好"也派任务 → 完全不可用。

R8 · 信息隔离 = 100% 通过

根因不是规则写得不好，而是信息来源。禁止骰子读知识文件，它自然只能回答闲聊、复杂问题只能派发。不是靠"说不要做"，而是"让它做不到"。

核心洞察：控制 LLM 行为的最有效方式不是写更多规则（prompt），而是控制它能看到的信息。信息隔离 > 规则措辞。

⚡ 实战踩坑与解决

子 Soul 自己写代码 → 超时退出

子 Soul 把"写文件"当成自己的活，东风连续 4 次超时。

解决：铁律——子 Soul 发现自己在"准备写"，立刻停，改调 claude --print 让 Agent 写。子 Soul 只管调度，不碰代码。

sessions_spawn 提前退出

Agent 说了 "let me create" 就结束，没有真正写文件。

解决：claude --print --permission-mode bypassPermissions 同步阻塞调用，跑完才返回。

监督 cron 在归档后仍在运行

任务归档了但 cron 没停，不断产生告警。

解决：所有 cron 关闭统一走 end-task.py，禁止 Soul 内联 disable。

接力棒传递断裂

白板准奏后没有触发执行 Soul，任务卡在 planning。

解决：红中 → 白板 → 红中2号 → 执行 Soul，每段用 cron 自动触发，不依赖 Soul 间直接通信。

🌐 跨设备 · 记忆共享 · 知识反哺

MacBook Air（骰子1号） MacBook Pro（骰子6号）对话响应 · 任务派发 · 即时决策 cron定时 · nightly backup · 日记 │ │ └──────── Git 仓库（共享层） ────────┘ │ ┌──────────────┼──────────────┐ │ │ │ SOUL.md tasks/ 知识库/ AGENTS.md bus/ 记忆/ 铁律规范邮件总线蒸馏/ │ 每条消息前 git pull 跨设备自引导恢复

共享层（进 Git）

灵魂定义（SOUL.md / AGENTS.md）
任务全生命周期（tasks/）
异步邮件总线（bus/inbox/）
知识库（知识库/）+ 蒸馏经验
每日日记（记忆/YYYY-MM-DD.md）
会话恢复锚点（SESSION-STATE.md）

独有层（不进 Git）

本机 OpenClaw 实例和 session
本机 cron 定时任务
本机补丁和配置
外部知识库（按需挂载）

大方向：知识库不只服务于 AI，更服务于团队所有人。每个人的工作产出通过蒸馏沉淀为结构化知识，反哺整个知识库。AI 是知识的搬运工和整理者，人是知识的生产者和审核者。

💎 设计优势

🔌 离线运行 · 离线任务

基于异步邮件总线（bus/inbox），不依赖实时连接。任务通过 cron 自动触发流转，设备离线不影响其他设备。骰子6号在 Will 睡觉时依然自动巡检、写日记、备份。

📐 极限压缩上下文

每个 Agent 只注入完成当前任务所需的最少信息。不读无关文件、不看其他任务的进度。Prompt 里只有：任务 brief + 可用 Skill 路径 + 铁律速查（3 条）。

🎯 分工明确 · 任务拆解

三层架构 + 七个专业 Soul。每个 Soul 只处理自己职能域的任务，不越界。一个 Soul 实例只负责一个任务。Agent 用麻将牌池命名，全局可追溯。

🔄 新型工作模式

人类只在两个节点介入：下达任务和审核产出。中间的拆解、审核、执行、监控、蒸馏全部自动化。任务从创建到归档，有完整的生命周期管理。

🔧 工具观：以不变应万变

一个常见误区：拿 OpenClaw、Claude Code、Cursor CLI 做横向对比，测谁"更好用"。这是片面的——它们处在不同层级，解决不同问题。正确的做法是从底层拆解每个环节，搞清楚差距在哪，然后决定每一层用什么。

拆解：一个 AI 任务系统的四个环节

环节	职责	当前实现	可替换为
路由层	判断意图、任务分类	OpenClaw 骰子	任何能接收消息的 gateway / webhook
编排层	拆解任务、审核、调度	红中 + 白板（Soul session）	LangGraph / CrewAI / 自写脚本
执行层	写代码、读文档、调 API	claude --print（Claude Code CLI）	Cursor CLI / Aider / Codex / 任何 coding agent
知识层	记忆存储、经验检索	Git + Markdown + FTS	向量数据库 / RAG 系统 / 任何存储

为什么不直接对比工具

OpenClaw 是 gateway + session 管理，不是 coding agent
Claude Code 是执行引擎，不是编排器
Cursor 是 IDE 集成，不是自动化框架
对比它们 = 对比锤子和螺丝刀"谁更好"
真正该对比的是：同一环节的不同实现

为什么要分层设计

编排层和执行层可以独立替换
换模型？只改执行层，编排层不动
换编排框架？执行层的 Agent 不受影响
甚至可以融为一体——小任务不需要编排
方法论比工具重要：拆分 + 隔离 + 验证

工具会过时，方法不会

龙虾的核心不是 OpenClaw，不是 Claude，不是任何具体工具。
核心是三个方法：原子化拆分、信息隔离、闭环验证。
这三个方法适用于任何 LLM、任何编排框架、任何执行引擎。
今天用 Claude，明天换 GPT，后天换开源模型——方法不变，效果不变。

🔭 展望：不是让 AI 适配流程，而是让 AI 创造流程

打破现有工作流程

从"人做事 + AI 辅助"到"AI 做事 + 人审核"
把任务拆到极致，只注入相关记忆和知识库
人只做审核员，完善 Skill，持续训练系统

⚠️ 关于 AI 对现有项目的参与度：一个更激进的观点

当前行业的主流思路是"让 AI 适配现有开发流程"——给 AI 已有的架构文档、策划文档，让它按照人的路线写代码。这本质上是在维护一个中间产物，是自讨苦吃。

既然选择使用 AI，就要信任 AI。

旧路线（适配派）的误区

让 AI 按已有架构写代码——AI 写贪吃蛇 1 分钟就完成了，但让 AI 按"原来的架构"写，可能写不出来
拿策划文档让 AI 去实现——文档是人的语言，不是 AI 最高效的输入方式
即使 AI 的行为被稳定控制了，也不一定是正向实验，只是满足了人的习惯
本质是用 AI 成本去替换人力成本，天花板就是"和人一样快"

新路线（原生派）的可能

让 AI 先用自己最擅长的方式产出可上线的代码
然后反向翻译成文档——这才是需求的直接完成
不是"AI 替换人的工位"，而是创造一条新的 AI 原生产业链
天花板不是"和人一样快"，而是"人做不到的规模"

真实案例：AI 调参 — 从 5 万到 50 万

AI 调参本身就是一个"随机概率 × 用户喜好随机概率"的组合实验，行业一直在做，从未停过。

但如果把龙虾这条"AI 编排 → 自动产出"的链路打通，影响的就不只是调参了——原来 5 万量级的调参可以扩充到 50 万，投放成本忽略不计，因为产出成本极低。

然而，调参的性价比终究有限。真正的杠杆在功能级别的变化——AI 不只是调参数，而是创造新功能、新玩法。这才是 AI 编排系统的终极价值：不是做得更便宜，而是做出人力成本下根本不会去做的东西。

结论：为了按照原有路线让 AI 替换人的流程，很可能走进死胡同。更聪明的做法是让 AI 用自己的方式跑通一条新路，再反向对齐人的需求。不是适配旧流程，而是创造新流程。

🧬 AI 是 AB 测试最合适的搭档

AB 测试的本质是创意发散 + 严谨验证的循环。人和 AI 各有天然优势，组合起来才是最优解。

人的瓶颈：创意有限

人产出的创意是有限的——受经验、时间、认知边界约束
所以需要参考竞品、翻书、找案例来获取灵感
然后在参考基础上发散，产出变体方案
但人的发散依赖直觉，难以穷举可能性
回测成本高——改一版、测一版、再改一版

AI 的优势：发散 + 预演

AI 也能发散，而且发散的广度远超人类
关键区别：AI 对发散结果可以做到更严谨的预验证
AI 可以预演代码——在提交测试前就验证逻辑正确性
AI 可以处理批量数据——同时评估多个变体的合理性
省掉大量"回测→发现问题→再修改"的循环成本

人提供灵感方向，AI 负责发散 + 预演 + 批量产出

传统 AB 测试：人想创意 → 人做变体 → 上线测 → 看数据 → 改 → 再测（慢、贵、量少）
AI 参与后：人定方向 + 找参考 → AI 批量发散变体 → AI 预演验证 → 直接上线（快、便宜、量大）

AI 不是替代人的创意，而是放大人的创意。一个灵感在 AI 手里可以裂变成 50 个经过预验证的变体。

当前阶段目标阶段 ─────────────── ─────────────── 人提需求 → AI 拆解人提需求（一句话）人审核计划 → AI 执行 ↓ AI 全自动人验收产出 AI 拆解 → AI 审核 → AI 执行 ↓ AI 蒸馏 → 知识库自增长 ↓ 人只做最终审核 + Skill 优化旧思路（适配）新思路（原生） ─────────────── ─────────────── 策划文档 → AI 按文档写代码 AI 直接产出可上线代码 → 维护中间产物 → 反向生成文档 → 天花板 = 和人一样快 → 天花板 = 人做不到的规模关键路径 1. Skill 体系成熟 → Agent 执行质量稳定 2. 知识库自增长 → Agent 拥有足够领域知识 3. 验证自动化 → 减少人工验收频率 4. 记忆分层 → 按需加载，跨设备，外部库隔离 5. AI 原生产出链 → 功能级创造，不只是调参级优化

已完成任务
全流程验证

天迭代
从零到可用

∞

知识库规模
持续自增长