🎯 核心理论
大模型具备随机性
把任务拆到最细,随机性降到最低
LLM 在完成复杂任务时,步骤越多、上下文越杂,输出的方差越大。
龙虾的核心策略:不让任何一个 Agent 承担超过一个原子任务。
每个 Agent 只做一件事,做完就退出。精确注入、精确产出、精确验证。
推论:与其用更聪明的模型硬扛复杂任务,不如用足够好的模型 × 精确拆分 × 严格验证。这是工程问题,不是智能问题。
🏗️ 系统架构
Will(人类)
│
▼ 自然语言指令
🎲 骰子(路由层) ─── 只做三件事:说话 / 读文件 / 派发任务
│ 禁止:执行、写文件、调工具
│ new-task.py
▼
🀄 红中(编排层) ─── 拆解任务 → 写 plan.md
│ 一个任务一个 Soul,绝不打包
│ cron 自动触发
▼
🀆 白板(审核层) ─── 审核 plan → 准奏/封驳
│ 封驳最多 3 次,3 次不过 → 上报
│ cron 自动触发
▼
执行 Soul(7 个专业角色)
│ 每个 Soul 调 claude --print 派出 Agent
│ Agent 取牌名(🀄麻将牌池 27 张)
│ 做完验证 → 释放牌名
▼
产出 → 蒸馏 → 归档知识库
七个执行 Soul 分工
| Soul | 角色 | 职责域 |
| 🀄 红中 | 调度秘书 | 任务拆解、子任务编排 |
| 🀆 白板 | 审计员 | 方案审核、合规检查 |
| 🀅 发财 | 学习员 | 阅读、知识入库、蒸馏 |
| 🉐 东风 | 制作人 | 游戏业务、功能开发 |
| 🀀 南风 | 架构师 | 系统设计、接口定义 |
| 🀁 西风 | 代码审查 | 安全审计、代码质量 |
| 🀂 北风 | 测试员 | 测试用例、回归验证 |
🔬 骰子职责演变:8 轮迭代发现的真相
R1-R3 · 规则越写越多,通过率卡在 77%
尝试了关键词检测、自检四问、工具禁令——LLM 读了知识文件后就"有能力回答",然后无视一切规则。
R4-R5 · 意图分类器,70% → 73%
预处理脚本 route-message.py 做关键词/模式匹配,但短问句("上海几度")绕过所有规则。
R6-R7 · "所有消息都派发",0% 通过
极端方案:骰子不回答任何问题,全部派红中。闲聊"你好"也派任务 → 完全不可用。
R8 · 信息隔离 = 100% 通过
根因不是规则写得不好,而是信息来源。禁止骰子读知识文件,它自然只能回答闲聊、复杂问题只能派发。不是靠"说不要做",而是"让它做不到"。
核心洞察:控制 LLM 行为的最有效方式不是写更多规则(prompt),而是控制它能看到的信息。信息隔离 > 规则措辞。
⚡ 实战踩坑与解决
子 Soul 自己写代码 → 超时退出
子 Soul 把"写文件"当成自己的活,东风连续 4 次超时。
解决:铁律——子 Soul 发现自己在"准备写",立刻停,改调 claude --print 让 Agent 写。子 Soul 只管调度,不碰代码。
sessions_spawn 提前退出
Agent 说了 "let me create" 就结束,没有真正写文件。
解决:claude --print --permission-mode bypassPermissions 同步阻塞调用,跑完才返回。
监督 cron 在归档后仍在运行
任务归档了但 cron 没停,不断产生告警。
解决:所有 cron 关闭统一走 end-task.py,禁止 Soul 内联 disable。
接力棒传递断裂
白板准奏后没有触发执行 Soul,任务卡在 planning。
解决:红中 → 白板 → 红中2号 → 执行 Soul,每段用 cron 自动触发,不依赖 Soul 间直接通信。
🌐 跨设备 · 记忆共享 · 知识反哺
MacBook Air(骰子1号) MacBook Pro(骰子6号)
对话响应 · 任务派发 · 即时决策 cron定时 · nightly backup · 日记
│ │
└──────── Git 仓库(共享层) ────────┘
│
┌──────────────┼──────────────┐
│ │ │
SOUL.md tasks/ 知识库/
AGENTS.md bus/ 记忆/
铁律规范 邮件总线 蒸馏/
│
每条消息前 git pull
跨设备自引导恢复
共享层(进 Git)
- 灵魂定义(SOUL.md / AGENTS.md)
- 任务全生命周期(tasks/)
- 异步邮件总线(bus/inbox/)
- 知识库(知识库/)+ 蒸馏经验
- 每日日记(记忆/YYYY-MM-DD.md)
- 会话恢复锚点(SESSION-STATE.md)
独有层(不进 Git)
- 本机 OpenClaw 实例和 session
- 本机 cron 定时任务
- 本机补丁和配置
- 外部知识库(按需挂载)
大方向:知识库不只服务于 AI,更服务于团队所有人。每个人的工作产出通过蒸馏沉淀为结构化知识,反哺整个知识库。AI 是知识的搬运工和整理者,人是知识的生产者和审核者。
💎 设计优势
🔌 离线运行 · 离线任务
基于异步邮件总线(bus/inbox),不依赖实时连接。任务通过 cron 自动触发流转,设备离线不影响其他设备。骰子6号在 Will 睡觉时依然自动巡检、写日记、备份。
📐 极限压缩上下文
每个 Agent 只注入完成当前任务所需的最少信息。不读无关文件、不看其他任务的进度。Prompt 里只有:任务 brief + 可用 Skill 路径 + 铁律速查(3 条)。
🎯 分工明确 · 任务拆解
三层架构 + 七个专业 Soul。每个 Soul 只处理自己职能域的任务,不越界。一个 Soul 实例只负责一个任务。Agent 用麻将牌池命名,全局可追溯。
🔄 新型工作模式
人类只在两个节点介入:下达任务和审核产出。中间的拆解、审核、执行、监控、蒸馏全部自动化。任务从创建到归档,有完整的生命周期管理。
🔧 工具观:以不变应万变
一个常见误区:拿 OpenClaw、Claude Code、Cursor CLI 做横向对比,测谁"更好用"。这是片面的——它们处在不同层级,解决不同问题。正确的做法是从底层拆解每个环节,搞清楚差距在哪,然后决定每一层用什么。
拆解:一个 AI 任务系统的四个环节
| 环节 | 职责 | 当前实现 | 可替换为 |
| 路由层 |
判断意图、任务分类 |
OpenClaw 骰子 |
任何能接收消息的 gateway / webhook |
| 编排层 |
拆解任务、审核、调度 |
红中 + 白板(Soul session) |
LangGraph / CrewAI / 自写脚本 |
| 执行层 |
写代码、读文档、调 API |
claude --print(Claude Code CLI) |
Cursor CLI / Aider / Codex / 任何 coding agent |
| 知识层 |
记忆存储、经验检索 |
Git + Markdown + FTS |
向量数据库 / RAG 系统 / 任何存储 |
为什么不直接对比工具
- OpenClaw 是 gateway + session 管理,不是 coding agent
- Claude Code 是执行引擎,不是编排器
- Cursor 是 IDE 集成,不是自动化框架
- 对比它们 = 对比锤子和螺丝刀"谁更好"
- 真正该对比的是:同一环节的不同实现
为什么要分层设计
- 编排层和执行层可以独立替换
- 换模型?只改执行层,编排层不动
- 换编排框架?执行层的 Agent 不受影响
- 甚至可以融为一体——小任务不需要编排
- 方法论比工具重要:拆分 + 隔离 + 验证
工具会过时,方法不会
龙虾的核心不是 OpenClaw,不是 Claude,不是任何具体工具。
核心是三个方法:原子化拆分、信息隔离、闭环验证。
这三个方法适用于任何 LLM、任何编排框架、任何执行引擎。
今天用 Claude,明天换 GPT,后天换开源模型——方法不变,效果不变。
🔭 展望:不是让 AI 适配流程,而是让 AI 创造流程
打破现有工作流程
从"人做事 + AI 辅助"到"AI 做事 + 人审核"
把任务拆到极致,只注入相关记忆和知识库
人只做审核员,完善 Skill,持续训练系统
⚠️ 关于 AI 对现有项目的参与度:一个更激进的观点
当前行业的主流思路是"让 AI 适配现有开发流程"——给 AI 已有的架构文档、策划文档,让它按照人的路线写代码。这本质上是在维护一个中间产物,是自讨苦吃。
既然选择使用 AI,就要信任 AI。
旧路线(适配派)的误区
- 让 AI 按已有架构写代码——AI 写贪吃蛇 1 分钟就完成了,但让 AI 按"原来的架构"写,可能写不出来
- 拿策划文档让 AI 去实现——文档是人的语言,不是 AI 最高效的输入方式
- 即使 AI 的行为被稳定控制了,也不一定是正向实验,只是满足了人的习惯
- 本质是用 AI 成本去替换人力成本,天花板就是"和人一样快"
新路线(原生派)的可能
- 让 AI 先用自己最擅长的方式产出可上线的代码
- 然后反向翻译成文档——这才是需求的直接完成
- 不是"AI 替换人的工位",而是创造一条新的 AI 原生产业链
- 天花板不是"和人一样快",而是"人做不到的规模"
真实案例:AI 调参 — 从 5 万到 50 万
AI 调参本身就是一个"随机概率 × 用户喜好随机概率"的组合实验,行业一直在做,从未停过。
但如果把龙虾这条"AI 编排 → 自动产出"的链路打通,影响的就不只是调参了——原来 5 万量级的调参可以扩充到 50 万,投放成本忽略不计,因为产出成本极低。
然而,调参的性价比终究有限。真正的杠杆在功能级别的变化——AI 不只是调参数,而是创造新功能、新玩法。这才是 AI 编排系统的终极价值:不是做得更便宜,而是做出人力成本下根本不会去做的东西。
结论:为了按照原有路线让 AI 替换人的流程,很可能走进死胡同。更聪明的做法是让 AI 用自己的方式跑通一条新路,再反向对齐人的需求。不是适配旧流程,而是创造新流程。
当前阶段 目标阶段
─────────────── ───────────────
人提需求 → AI 拆解 人提需求(一句话)
人审核计划 → AI 执行 ↓ AI 全自动
人验收产出 AI 拆解 → AI 审核 → AI 执行
↓
AI 蒸馏 → 知识库自增长
↓
人只做最终审核 + Skill 优化
旧思路(适配) 新思路(原生)
─────────────── ───────────────
策划文档 → AI 按文档写代码 AI 直接产出可上线代码
→ 维护中间产物 → 反向生成文档
→ 天花板 = 和人一样快 → 天花板 = 人做不到的规模
关键路径
1. Skill 体系成熟 → Agent 执行质量稳定
2. 知识库自增长 → Agent 拥有足够领域知识
3. 验证自动化 → 减少人工验收频率
4. 记忆分层 → 按需加载,跨设备,外部库隔离
5. AI 原生产出链 → 功能级创造,不只是调参级优化