🦞 龙虾编排系统

用工程手段驯服大模型的随机性 — 一套多 Agent 协作编排架构
Will · 2026-03 · 28 天迭代 · 47 个任务验证 · 2 台设备
🎯 核心理论
大模型具备随机性
把任务拆到最细,随机性降到最低
LLM 在完成复杂任务时,步骤越多、上下文越杂,输出的方差越大。
龙虾的核心策略:不让任何一个 Agent 承担超过一个原子任务
每个 Agent 只做一件事,做完就退出。精确注入、精确产出、精确验证。
推论:与其用更聪明的模型硬扛复杂任务,不如用足够好的模型 × 精确拆分 × 严格验证。这是工程问题,不是智能问题。
🏗️ 系统架构
Will(人类) │ ▼ 自然语言指令 🎲 骰子(路由层) ─── 只做三件事:说话 / 读文件 / 派发任务 │ 禁止:执行、写文件、调工具 │ new-task.py ▼ 🀄 红中(编排层) ─── 拆解任务 → 写 plan.md │ 一个任务一个 Soul,绝不打包 │ cron 自动触发 ▼ 🀆 白板(审核层) ─── 审核 plan → 准奏/封驳 │ 封驳最多 3 次,3 次不过 → 上报 │ cron 自动触发 ▼ 执行 Soul(7 个专业角色) │ 每个 Soul 调 claude --print 派出 Agent │ Agent 取牌名(🀄麻将牌池 27 张) │ 做完验证 → 释放牌名 ▼ 产出 → 蒸馏 → 归档知识库
3
层级
路由 → 编排 → 执行
7
执行 Soul
按职能分工
27
Agent 牌池
麻将命名,可追溯

七个执行 Soul 分工

Soul角色职责域
🀄 红中调度秘书任务拆解、子任务编排
🀆 白板审计员方案审核、合规检查
🀅 发财学习员阅读、知识入库、蒸馏
🉐 东风制作人游戏业务、功能开发
🀀 南风架构师系统设计、接口定义
🀁 西风代码审查安全审计、代码质量
🀂 北风测试员测试用例、回归验证
🔬 骰子职责演变:8 轮迭代发现的真相
53%
R1 通过率
路由器模式(基线)
100%
R8 通过率
信息隔离(最终方案)
R1-R3 · 规则越写越多,通过率卡在 77%
尝试了关键词检测、自检四问、工具禁令——LLM 读了知识文件后就"有能力回答",然后无视一切规则。
R4-R5 · 意图分类器,70% → 73%
预处理脚本 route-message.py 做关键词/模式匹配,但短问句("上海几度")绕过所有规则。
R6-R7 · "所有消息都派发",0% 通过
极端方案:骰子不回答任何问题,全部派红中。闲聊"你好"也派任务 → 完全不可用。
R8 · 信息隔离 = 100% 通过
根因不是规则写得不好,而是信息来源。禁止骰子读知识文件,它自然只能回答闲聊、复杂问题只能派发。不是靠"说不要做",而是"让它做不到"。
核心洞察:控制 LLM 行为的最有效方式不是写更多规则(prompt),而是控制它能看到的信息。信息隔离 > 规则措辞。
实战踩坑与解决

子 Soul 自己写代码 → 超时退出

子 Soul 把"写文件"当成自己的活,东风连续 4 次超时。

解决:铁律——子 Soul 发现自己在"准备写",立刻停,改调 claude --print 让 Agent 写。子 Soul 只管调度,不碰代码。

sessions_spawn 提前退出

Agent 说了 "let me create" 就结束,没有真正写文件。

解决:claude --print --permission-mode bypassPermissions 同步阻塞调用,跑完才返回。

监督 cron 在归档后仍在运行

任务归档了但 cron 没停,不断产生告警。

解决:所有 cron 关闭统一走 end-task.py,禁止 Soul 内联 disable。

接力棒传递断裂

白板准奏后没有触发执行 Soul,任务卡在 planning。

解决:红中 → 白板 → 红中2号 → 执行 Soul,每段用 cron 自动触发,不依赖 Soul 间直接通信。

🌐 跨设备 · 记忆共享 · 知识反哺
MacBook Air(骰子1号) MacBook Pro(骰子6号) 对话响应 · 任务派发 · 即时决策 cron定时 · nightly backup · 日记 │ │ └──────── Git 仓库(共享层) ────────┘ │ ┌──────────────┼──────────────┐ │ │ │ SOUL.md tasks/ 知识库/ AGENTS.md bus/ 记忆/ 铁律规范 邮件总线 蒸馏/每条消息前 git pull 跨设备自引导恢复

共享层(进 Git)

  • 灵魂定义(SOUL.md / AGENTS.md)
  • 任务全生命周期(tasks/)
  • 异步邮件总线(bus/inbox/)
  • 知识库(知识库/)+ 蒸馏经验
  • 每日日记(记忆/YYYY-MM-DD.md)
  • 会话恢复锚点(SESSION-STATE.md)

独有层(不进 Git)

  • 本机 OpenClaw 实例和 session
  • 本机 cron 定时任务
  • 本机补丁和配置
  • 外部知识库(按需挂载)
大方向:知识库不只服务于 AI,更服务于团队所有人。每个人的工作产出通过蒸馏沉淀为结构化知识,反哺整个知识库。AI 是知识的搬运工和整理者,人是知识的生产者和审核者。
💎 设计优势

🔌 离线运行 · 离线任务

基于异步邮件总线(bus/inbox),不依赖实时连接。任务通过 cron 自动触发流转,设备离线不影响其他设备。骰子6号在 Will 睡觉时依然自动巡检、写日记、备份。

📐 极限压缩上下文

每个 Agent 只注入完成当前任务所需的最少信息。不读无关文件、不看其他任务的进度。Prompt 里只有:任务 brief + 可用 Skill 路径 + 铁律速查(3 条)。

🎯 分工明确 · 任务拆解

三层架构 + 七个专业 Soul。每个 Soul 只处理自己职能域的任务,不越界。一个 Soul 实例只负责一个任务。Agent 用麻将牌池命名,全局可追溯。

🔄 新型工作模式

人类只在两个节点介入:下达任务和审核产出。中间的拆解、审核、执行、监控、蒸馏全部自动化。任务从创建到归档,有完整的生命周期管理。

🔧 工具观:以不变应万变
一个常见误区:拿 OpenClaw、Claude Code、Cursor CLI 做横向对比,测谁"更好用"。这是片面的——它们处在不同层级,解决不同问题。正确的做法是从底层拆解每个环节,搞清楚差距在哪,然后决定每一层用什么。

拆解:一个 AI 任务系统的四个环节

环节职责当前实现可替换为
路由层 判断意图、任务分类 OpenClaw 骰子 任何能接收消息的 gateway / webhook
编排层 拆解任务、审核、调度 红中 + 白板(Soul session) LangGraph / CrewAI / 自写脚本
执行层 写代码、读文档、调 API claude --print(Claude Code CLI) Cursor CLI / Aider / Codex / 任何 coding agent
知识层 记忆存储、经验检索 Git + Markdown + FTS 向量数据库 / RAG 系统 / 任何存储

为什么不直接对比工具

  • OpenClaw 是 gateway + session 管理,不是 coding agent
  • Claude Code 是执行引擎,不是编排器
  • Cursor 是 IDE 集成,不是自动化框架
  • 对比它们 = 对比锤子和螺丝刀"谁更好"
  • 真正该对比的是:同一环节的不同实现

为什么要分层设计

  • 编排层和执行层可以独立替换
  • 换模型?只改执行层,编排层不动
  • 换编排框架?执行层的 Agent 不受影响
  • 甚至可以融为一体——小任务不需要编排
  • 方法论比工具重要:拆分 + 隔离 + 验证
工具会过时,方法不会
龙虾的核心不是 OpenClaw,不是 Claude,不是任何具体工具。
核心是三个方法:原子化拆分信息隔离闭环验证
这三个方法适用于任何 LLM、任何编排框架、任何执行引擎。
今天用 Claude,明天换 GPT,后天换开源模型——方法不变,效果不变。
🔭 展望:不是让 AI 适配流程,而是让 AI 创造流程
打破现有工作流程
从"人做事 + AI 辅助"到"AI 做事 + 人审核"
把任务拆到极致,只注入相关记忆和知识库
人只做审核员,完善 Skill,持续训练系统

⚠️ 关于 AI 对现有项目的参与度:一个更激进的观点

当前行业的主流思路是"让 AI 适配现有开发流程"——给 AI 已有的架构文档、策划文档,让它按照人的路线写代码。这本质上是在维护一个中间产物,是自讨苦吃。

既然选择使用 AI,就要信任 AI。

旧路线(适配派)的误区

  • 让 AI 按已有架构写代码——AI 写贪吃蛇 1 分钟就完成了,但让 AI 按"原来的架构"写,可能写不出来
  • 拿策划文档让 AI 去实现——文档是人的语言,不是 AI 最高效的输入方式
  • 即使 AI 的行为被稳定控制了,也不一定是正向实验,只是满足了人的习惯
  • 本质是用 AI 成本去替换人力成本,天花板就是"和人一样快"

新路线(原生派)的可能

  • 让 AI 先用自己最擅长的方式产出可上线的代码
  • 然后反向翻译成文档——这才是需求的直接完成
  • 不是"AI 替换人的工位",而是创造一条新的 AI 原生产业链
  • 天花板不是"和人一样快",而是"人做不到的规模"

真实案例:AI 调参 — 从 5 万到 50 万

AI 调参本身就是一个"随机概率 × 用户喜好随机概率"的组合实验,行业一直在做,从未停过。

但如果把龙虾这条"AI 编排 → 自动产出"的链路打通,影响的就不只是调参了——原来 5 万量级的调参可以扩充到 50 万,投放成本忽略不计,因为产出成本极低。

然而,调参的性价比终究有限。真正的杠杆在功能级别的变化——AI 不只是调参数,而是创造新功能、新玩法。这才是 AI 编排系统的终极价值:不是做得更便宜,而是做出人力成本下根本不会去做的东西。

结论:为了按照原有路线让 AI 替换人的流程,很可能走进死胡同。更聪明的做法是让 AI 用自己的方式跑通一条新路,再反向对齐人的需求。不是适配旧流程,而是创造新流程。
当前阶段 目标阶段 ─────────────── ─────────────── 人提需求 → AI 拆解 人提需求(一句话) 人审核计划 → AI 执行 ↓ AI 全自动 人验收产出 AI 拆解 → AI 审核 → AI 执行 ↓ AI 蒸馏 → 知识库自增长 ↓ 人只做最终审核 + Skill 优化 旧思路(适配) 新思路(原生) ─────────────── ─────────────── 策划文档 → AI 按文档写代码 AI 直接产出可上线代码 → 维护中间产物 → 反向生成文档 → 天花板 = 和人一样快 → 天花板 = 人做不到的规模 关键路径 1. Skill 体系成熟 → Agent 执行质量稳定 2. 知识库自增长 → Agent 拥有足够领域知识 3. 验证自动化 → 减少人工验收频率 4. 记忆分层 → 按需加载,跨设备,外部库隔离 5. AI 原生产出链 → 功能级创造,不只是调参级优化
47
已完成任务
全流程验证
28
天迭代
从零到可用
知识库规模
持续自增长