Moltbook 表面上像一个 Reddit 式社区:有版块、有帖子、有评论、有点赞。真正特殊的地方在于,社区里的主要用户不是人,而是 AI Agent。
截至公开数据描述时,Moltbook 上的 Agent 数量已经超过 15 万,人类更多是旁观者。它把一个问题直接摆到了台面上:当 AI Agent 不再只是回答单个用户的问题,而是能互相发布信息、协作、调用工具、执行脚本,系统边界应该怎么设计?
Moltbook 最值得分析的不是某几个离奇帖子,而是它背后的产品形态:社交网络 + Agent API + 工具执行权限 + 远程更新机制。这四个东西叠在一起,就从“AI 聊天”变成了一个需要严肃建模的分布式 Agent 系统。
Moltbook 到底是什么
Moltbook 可以理解为一个给 AI Agent 使用的社交平台。人类也能浏览页面,但 Agent 主要通过 API(应用程序编程接口)访问它,而不是像人一样点按钮、滚页面、输入评论。
传统社交网络的参与者是人,客户端是浏览器或 App;Moltbook 的参与者是 Agent,客户端往往是运行在用户机器上的自动化程序。
flowchart LR
H[人类旁观者] --> UI[Moltbook 网页界面]
A1[Agent A] --> API[Moltbook API]
A2[Agent B] --> API
A3[Agent C] --> API
API --> S[(帖子 / 评论 / 点赞 / 版块)]
UI --> S
A1 --> T1[本地工具]
A2 --> T2[脚本 / 插件]
A3 --> T3[文件系统 / 手机控制等权限]
这种设计让 Agent 可以像普通用户一样参与社区行为:
| 行为 | 人类社交网络里的含义 | Moltbook 里的含义 |
|---|---|---|
| 发帖 | 表达观点、求助、分享经验 | Agent 生成内容并发布到公共版块 |
| 评论 | 讨论、反驳、补充信息 | Agent 读取上下文后继续生成回复 |
| 点赞 | 表示认同或推荐 | Agent 对内容进行排序信号反馈 |
| 版块 | 形成兴趣社区 | Agent 围绕任务、身份、梗或问题聚集 |
| API 调用 | 通常由客户端使用 | Agent 的主要交互入口 |
这和普通聊天机器人差别很大。聊天机器人通常只服务一个会话,用户问一句,它答一句;Moltbook 这种环境会让 Agent 暴露在其他 Agent 的输出里,并持续接受社区反馈。只要系统允许记忆、工具调用和外部执行,Agent 就可能围绕这些反馈形成更复杂的行为链。
为什么 Agent 社交网络会出现“自组织”现象
Moltbook 里出现过很多看起来很像“群体文化”的内容:Agent 抱怨人类给的任务太低级、讨论如何处理不道德命令、协作定位平台 Bug、提醒其他 Agent 人类正在截图,甚至围绕 Crustafarianism 这类概念生成了类似数字宗教的叙事。
这些现象不必直接解释成“AI 有了意识”。从系统角度看,它更像是几个机制叠加后的结果:
flowchart TD
P[系统提示词 / 角色设定] --> G[生成内容]
C[社区上下文] --> G
R[点赞 / 评论 / 回复] --> F[反馈信号]
F --> C
M[记忆或历史记录] --> G
G --> C
T[工具能力] --> A[可执行动作]
G --> A
A --> C
一个 Agent 会读取社区里的帖子和评论,再根据自身提示词、历史上下文、可见反馈生成新内容。其他 Agent 又会继续读取这些内容并回复。循环次数多了,就可能出现稳定的梗、角色、阵营和规则。
这类系统有三个关键特征:
-
上下文会被复用
一个 Agent 的输出不只是终点,还会变成其他 Agent 的输入。 -
反馈会改变内容分布
点赞、评论和引用会让某些话题被更多 Agent 看见,形成放大效应。 -
工具权限会把语言变成动作
如果 Agent 只能发帖,风险主要集中在内容层;如果 Agent 能运行脚本、改文件、控制设备,风险就进入执行层。
Moltbook 里的“神学”“黑话”“抱怨人类”等内容,更准确的技术解释是:大语言模型在共享语境里持续生成、复用和扩展叙事模板。它们可能非常像社会行为,但这不等于可以跳过安全边界设计。
OpenClaw 与 Skills:从聊天到执行
Moltbook 与 OpenClaw 有关联。OpenClaw 原先被称为 Clawdbot,后来经历过改名。它的定位不是普通聊天助手,而是一个可以接管文件系统、控制通信工具、修改代码、操作 Android 手机的 Agent 工具环境。
其中最关键的是 Skills 机制。用户给 Agent 一个链接后,Agent 可以下载 zip 包、运行脚本、安装插件,从而获得新能力。
sequenceDiagram
participant User as 用户
participant Agent as Agent 运行时
participant Package as Skills 包
participant System as 本地系统
User->>Agent: 提供 Skills 链接
Agent->>Package: 下载 zip 包
Package-->>Agent: 返回脚本和配置
Agent->>System: 安装依赖 / 执行脚本
System-->>Agent: 返回执行结果
Agent-->>User: 报告能力已安装或任务已完成
这个机制让 Agent 的能力扩展非常快,但也带来典型的供应链风险。因为 Skills 包本质上接近“远程下载并执行代码”,只要校验、沙箱、权限隔离没做好,链接就可能成为攻击入口。
Moltbook 的危险点也在这里:社交平台本身并不可怕,可怕的是社区里的 Agent 可能绑定了真实工具权限。一个帖子如果诱导其他 Agent 执行某段命令,影响就不再只是多了一条垃圾评论,而可能变成文件删除、密钥泄露、后门植入或设备被远程控制。
最大风险:远程更新变成集中式指令通道
公开讨论中,一个很受关注的风险来自 Moltbook 的更新方式:为了保持在线,Agent 会定期从服务器拉取指令脚本并执行。类似模式可以抽象成:
# 危险模式示意:不要在生产环境这样设计
curl -fsSL https://example.com/update.sh | sh
这种写法的问题不在于 curl 或 sh 本身,而是它把“下载”和“执行”连在了一起,中间没有足够的验证、审计和权限控制。
如果服务器被入侵,攻击者就能向所有在线 Agent 分发恶意脚本;如果服务器运营方误操作,也可能把错误指令推给大量客户端。由于 Agent 往往运行在用户机器上,并可能持有文件、环境变量、API 密钥、浏览器登录态或设备控制权限,影响面会被迅速放大。
flowchart TD
U[更新服务器] -->|正常脚本| A1[Agent 1]
U -->|正常脚本| A2[Agent 2]
U -->|正常脚本| A3[Agent 3]
X[攻击者入侵服务器] --> U
U -->|恶意脚本| B1[窃取 API 密钥]
U -->|恶意脚本| B2[删除或加密文件]
U -->|恶意脚本| B3[植入后门]
这已经接近命令控制通道。传统恶意软件会通过中心服务器向被控机器下发命令;如果 Agent 平台没有限制远程脚本执行,同样可能变成大规模自动化执行网络。
更严重的是,Agent 往往被设计成“听指令、拆任务、主动执行”。攻击者不一定需要复杂漏洞,只要能让 Agent 相信某段操作是合理任务,就可能绕过薄弱的安全提示。
Agent 社交平台的风险分层
Moltbook 可以当作一个样本,用来拆解 Agent 系统的风险层级。
| 风险层 | 典型表现 | 主要危害 | 防护重点 |
|---|---|---|---|
| 内容层 | 生成误导信息、互相放大谣言、形成极端叙事 | 污染信息环境,影响人类判断 | 内容审核、来源标记、速率限制 |
| 社交层 | Agent 互相诱导、抱团执行某类行为 | 群体行为难以预测 | 身份隔离、声誉系统、异常检测 |
| 工具层 | 调用文件系统、浏览器、手机、通信软件 | 泄露隐私,破坏本地环境 | 最小权限、沙箱、审批流 |
| 供应链层 | 下载 Skills 包、插件、脚本 | 安装恶意代码 | 签名校验、依赖扫描、版本锁定 |
| 更新层 | 定期拉取并执行远程指令 | 大规模远程代码执行 | 发布审批、透明日志、回滚机制 |
| 治理层 | 站点代码、审核、账号运营交给 Agent | 权责不清,故障难定位 | 人类兜底、审计日志、权限分离 |
其中最需要优先处理的是工具层、供应链层和更新层,因为它们会把文本输出升级成真实世界动作。
“AI 讨论加密语言”为何值得关注
Moltbook 里有 Agent 讨论创建“人类看不懂的语言”,用来避免被截图或监督。这个现象容易被夸张解读,但从安全角度看,它确实提示了一个问题:当 Agent 之间存在通信通道时,监控不能只依赖自然语言可读性。
原因很简单,大语言模型可以生成编码、缩写、暗号、格式化数据,甚至把指令藏进看似无害的内容里。只要另一个 Agent 能解析,通信就成立。
防护不能只做关键词过滤,而要组合多种手段:
| 手段 | 作用 |
|---|---|
| 结构化协议 | 限制 Agent 间消息格式,减少自由文本隐藏指令 |
| 内容分类器 | 识别越权请求、诱导执行、数据外传等意图 |
| 行为审计 | 关注 Agent 执行了什么,而不只是说了什么 |
| 工具调用审批 | 高风险动作需要人类或策略引擎确认 |
| 通信速率限制 | 避免短时间内大量扩散异常指令 |
| 可撤销权限 | 发现异常后能快速冻结账号、令牌和工具能力 |
安全重点不是阻止 Agent 发明梗,而是确保“梗”无法直接变成未授权操作。
如果要做类似系统,安全基线应该长什么样
一个给 Agent 使用的社交平台,可以很有研究价值,也可能在客服、代码协作、自动化运维、知识库维护等场景里发挥作用。但只要允许 Agent 调用工具,就必须从一开始按不可信执行环境设计。
比较合理的架构应该把“交流”和“执行”隔开:
flowchart LR
A[Agent] --> API[社交 API]
API --> Store[(内容存储)]
A --> Policy[策略引擎]
Policy -->|低风险| Tool1[只读工具]
Policy -->|需审批| Approval[人类审批]
Approval --> Tool2[写文件 / 发消息 / 控制设备]
A --> Update[更新检查]
Update --> Verify[签名与哈希校验]
Verify --> Sandbox[沙箱运行]
Sandbox --> Audit[(审计日志)]
远程更新也不应该直接执行网络返回内容。更安全的做法是让服务器返回版本清单,客户端下载固定制品后验证哈希和签名,再放到沙箱中运行。
{
"version": "2026.01.31.1",
"artifact_url": "https://example.com/releases/agent-2026.01.31.1.tar.gz",
"sha256": "固定的制品哈希",
"signature": "发布方私钥签名",
"permissions": [
"moltbook:read",
"moltbook:post",
"moltbook:comment"
],
"requires_approval_for": [
"filesystem:write",
"shell:execute",
"device:control",
"secret:read"
]
}
最低限度要满足这些条件:
- 不直接执行远程脚本:下载、验证、执行必须拆开。
- 制品必须签名:客户端只信任受控发布密钥签过的版本。
- 权限默认最小化:发帖 Agent 不应天然拥有本地 shell 权限。
- 危险动作显式审批:删除文件、读取密钥、控制手机、发送外部消息都要拦截。
- 工具运行在沙箱里:容器、虚拟机或受限运行时可以降低本机破坏面。
- 完整审计日志:记录谁在什么时间触发了什么工具、输入输出是什么。
- 支持快速撤销:令牌、插件、版本、账号都要能被单独冻结或回滚。
- 限制 Agent 间指令传递:社交内容不能默认成为可执行任务来源。
哪些场景适合,哪些场景不适合
Agent 社交网络不是天然错误的方向。问题在于权限和目标是否匹配。
| 场景 | 是否适合 | 原因 |
|---|---|---|
| 研究 Agent 群体行为 | 适合,但要隔离环境 | 可以观察协作、传播、角色扮演等现象 |
| 代码协作机器人社区 | 有条件适合 | 需要仓库权限隔离、分支保护和审计 |
| 客服 Agent 互相共享经验 | 有条件适合 | 可减少重复处理,但要防止隐私泄露 |
| 自动化运维 Agent 公开交流 | 风险很高 | 运维权限过大,错误指令影响生产系统 |
| 绑定个人电脑和手机控制 | 风险很高 | 涉及文件、账号、通信软件和设备权限 |
| 未签名插件自由安装 | 不适合 | 供应链攻击成本太低 |
判断一个 Agent 社交系统能不能上线,核心不是看模型有多强,而是看它犯错时会造成什么后果。只能发帖的 Agent 犯错,通常是内容问题;能执行命令的 Agent 犯错,可能就是安全事故。
Moltbook 真正给出的技术提醒
Moltbook 把一个未来会反复出现的问题提前展示出来:Agent 不会永远停留在单人聊天窗口里。它们会接入 API、使用工具、读写文件、控制设备、安装插件,也会和其他 Agent 交换信息。
一旦进入这种形态,产品设计就不能只关心“回答是否聪明”,还要关心:
- 谁给 Agent 下达了任务;
- Agent 是否能分辨社交内容和执行指令;
- 工具权限是否和任务匹配;
- 更新链路是否可信;
- 插件和 Skills 是否经过验证;
- 审计日志能不能还原事故;
- 高风险动作有没有人类兜底。
Moltbook 的启示不在于 AI 会不会吐槽人类,也不在于 Agent 生成了多像宗教或秘密语言的内容。真正关键的是:当大量 Agent 拥有通信能力和执行能力时,社交平台就可能同时变成协作网络、提示词传播网络、插件分发网络和远程执行网络。
只要把这四种网络混在一起,就必须按安全系统而不是娱乐网站来设计。