6 个 AI 开源工具：论文配图、网页自动化与 Agent 开发

AI（人工智能）工具链里有两类需求特别常见：一类是把重复性的操作自动化，比如采集网页数据、批量处理文件、定时触发任务；另一类是让 AI 更好地参与研发流程，比如记住项目规范、生成论文图、接入聊天平台、搭建 Agent 应用。

这里整理的 6 个开源项目分别覆盖这些场景：

项目	解决的问题	关键词	仓库
AutoFigure-Edit	根据论文方法描述生成可编辑配图	论文配图、SVG、风格迁移	https://github.com/ResearAI/AutoFigure-Edit
WebRPA	零代码搭建网页自动化流程	RPA、Playwright、触发器	https://github.com/pmh1314520/WebRPA
Trellis	让 AI 编程工具持续记住项目规范	Claude Code、Cursor、Codex、规范注入	https://github.com/mindfold-ai/Trellis
qqbot	把 OpenClaw 接入 QQ 机器人	QQ 开放平台、事件订阅	https://github.com/sliverp/qqbot
CountBot	用 Flutter 实现的跨端 AI Agent 框架样例	Flutter、AI Agent、跨平台	https://github.com/countbot-ai/CountBot
ai-openclaw-skeletons	快速创建 OpenClaw AI 应用骨架	OpenClaw、项目模板	https://github.com/1596941391qq/ai-openclaw-skeletons

AutoFigure-Edit：把论文方法描述变成可编辑配图

写论文时，方法图、框架图、流程图经常要反复调整。手工画图的问题不只是耗时，还包括风格难统一、后期改动麻烦、从草图到正式图需要重复排版。

AutoFigure-Edit 的目标是把论文方法部分的文字描述转换成专业配图，并输出 SVG（Scalable Vector Graphics，可缩放矢量图形）格式。SVG 的优势是可编辑、可缩放，后续改文字、换颜色、移动模块都比位图方便。

它入选 ICLR 2026（International Conference on Learning Representations），定位不是简单的“文生图”，而是面向学术配图的生成与编辑流程。

核心流程可以理解成这样：

flowchart LR
    A[论文方法文字] --> B[LLM 生成初始草图]
    B --> C[SAM3 图像分割]
    C --> D[RMBG-2.0 去背景]
    D --> E[元素重组]
    E --> F[输出可编辑 SVG]
    G[参考风格图] --> B

LLM（Large Language Model，大语言模型）负责理解论文方法描述，并把文字组织成初步图形结构；SAM3（Segment Anything Model 系列的图像分割模型）用于识别图里的图标、模块、区域；RMBG-2.0 负责去除背景，让元素更容易被重新组合；最终结果会被组装成可继续编辑的矢量图。

它比较适合这些场景：

场景	AutoFigure-Edit 能解决什么
论文方法图	根据方法描述生成模型结构图或流程图
多张图风格统一	通过参考图做风格迁移，减少手工调色和排版
需要反复修改	输出 SVG，便于改文字、箭头、模块位置
快速出草图	先生成一个可用版本，再人工微调

使用时可以按这个思路走：

准备论文方法部分的文字描述，尽量写清模块、输入输出、数据流向。
如果有目标风格，提供一张参考图，让生成结果保持相近的视觉风格。
生成 SVG 图后，在内置 Web 界面里调整元素位置、文字、颜色和连接关系。
导出最终配图，放入论文或演示材料。

需要注意的是，机器生成的论文图不能直接当作最终事实表达。模块名称、箭头方向、输入输出关系必须人工检查，尤其是方法图里涉及分支、循环、损失函数、训练和推理两套流程时，最好逐项核对。

WebRPA：用拖拽方式搭建网页自动化流程

RPA（Robotic Process Automation，机器人流程自动化）解决的是“把重复操作交给程序执行”的问题。传统网页自动化通常要写 Python 脚本，使用 Selenium、Playwright 或请求库完成页面操作和数据采集。WebRPA 的思路是把这些能力封装成可拖拽模块，让不写代码的人也能搭建自动化流程。

它内置了 260 个功能模块，覆盖范围比较广：

能力类型	具体能力
浏览器自动化	基于 Playwright 操作网页，支持 CSS（层叠样式表）选择器和 XPath 定位
数据处理	JSON（JavaScript Object Notation）、正则表达式、Excel 读写
文件处理	文件读取、写入、监听、批处理
媒体处理	基于 FFmpeg 处理 50 多种音视频格式
AI 对话	支持 OpenAI、智谱、通义千问等服务商
运行环境	自带 Python 3.13 和 Node.js，解压后即可运行

它的自动化模型可以拆成三层：触发器负责启动流程，工作流负责调度模块，模块负责执行具体动作。

flowchart TB
    A[触发器] --> B[工作流引擎]
    B --> C[网页操作模块]
    B --> D[数据处理模块]
    B --> E[文件处理模块]
    B --> F[媒体转换模块]
    B --> G[AI 对话模块]
    C --> H[输出结果]
    D --> H
    E --> H
    F --> H
    G --> H

触发器系统是 WebRPA 的关键能力之一。它支持 Webhook、定时任务、文件监控、热键监听等 10 种触发方式，所以它不只能做“点一下运行”的脚本，也可以做持续运行的自动化任务。

典型工作流可能是这样：

sequenceDiagram
    participant T as 定时触发器
    participant B as 浏览器模块
    participant D as 数据处理模块
    participant E as Excel 模块
    participant A as AI 模块

    T->>B: 打开目标网页
    B->>B: 登录并定位元素
    B-->>D: 提取页面数据
    D->>D: 清洗字段和格式
    D-->>E: 写入 Excel
    D-->>A: 发送摘要请求
    A-->>E: 写入 AI 生成的摘要

WebRPA 适合处理规则比较明确的任务，比如定时打开后台下载报表、从网页提取结构化数据、批量转换媒体文件、把采集结果交给 AI 做摘要。它不适合用来绕过网站规则，也不适合承担高并发爬虫任务；如果目标系统有正式 API，优先使用 API 会更稳定。

Trellis：让 Claude Code 等 AI 编程工具记住项目规范

AI 编程工具的常见问题是上下文不稳定。每次开启新会话，都要重新解释项目目录、编码规范、组件风格、测试约定。如果这些信息只靠聊天补充，时间一长就容易遗漏。

Trellis 的定位是 AI 编程工具箱，面向 Claude Code、Cursor、Codex 等工具。它的核心能力是把项目规范、最佳实践和工作日志结构化保存，并在会话开始时自动注入相关上下文。

它解决的问题可以概括为三点：

问题	Trellis 的做法
每次会话都要重复说明规范	把规范放进 spec 目录，自动加载
所有规范塞进一个文件导致上下文臃肿	分层管理，只加载当前任务相关内容
多个 AI 任务互相干扰	通过不同 Git worktree 并行运行任务
会话结束后上下文丢失	用 `/trellis:record-session` 记录工作日志

项目结构的思路类似这样：

project/
├── spec/
│   ├── architecture.md
│   ├── coding-style.md
│   ├── testing.md
│   └── ui-guidelines.md
├── workspace/
│   ├── feature-login/
│   ├── refactor-api/
│   └── fix-tests/
└── ...

spec 目录存放稳定的项目规则，例如架构约束、命名风格、测试要求和组件规范；workspace 目录用于放置不同任务的工作空间，配合 Git worktree 可以让多个 AI 会话同时处理不同分支，互不覆盖文件。

它和单个 CLAUDE.md 文件的差异在于粒度：

方案	优点	局限
单个 `CLAUDE.md`	简单，容易开始	内容变多后难维护，也容易把无关信息塞进上下文
Trellis 分层规范	可按任务加载相关规则，适合中大型项目	需要先整理规范目录和工作方式

如果团队已经有明确编码规范，Trellis 的价值会更明显。规范只写一次，后续 AI 会话都能按同一套约定工作，减少“生成的代码风格和项目不一致”的问题。

qqbot：把 OpenClaw 接入 QQ 机器人

OpenClaw 是一个 AI 助手框架，qqbot 是它的 QQ 机器人插件。它通过 QQ 开放平台的长连接事件订阅机制，把 QQ 私聊消息转成 OpenClaw 可以处理的事件，再把处理结果返回给用户。

整体调用关系如下：

flowchart LR
    A[QQ 用户私聊] --> B[QQ 开放平台]
    B --> C[qqbot 插件]
    C --> D[OpenClaw]
    D --> E[AI 能力或工具调用]
    E --> D
    D --> C
    C --> B
    B --> A

接入步骤主要包括：

在 QQ 开放平台注册账号，并完成必要认证。
创建 QQ 机器人，获取 AppID 和 AppSecret。
在 OpenClaw 环境中安装 qqbot 插件。
配置 AppID、AppSecret 等凭证。
启动插件，使用 QQ 私聊测试消息收发。

安装命令如下：

openclaw plugins install @sliverp/qqbot@latest

这个插件更适合个人助手、私聊问答、工具触发等场景。当前限制也很明确：QQ 开放平台机器人只支持私聊，不支持群聊。如果需求是群内自动回复、群管理或多人协作机器人，需要确认 QQ 平台能力是否已经开放对应接口。

CountBot：从字数统计工具看跨端 AI Agent 架构

CountBot 表面上是字数统计工具，但代码规模达到 21K 行，并且采用了“工具即智能体”的设计思路。它的价值不只在于统计字数，还在于可以作为 AI Agent 架构和跨端桌面应用的参考。

技术栈基于 Flutter，支持 Windows、macOS、Linux，也适配了 HarmonyOS 6.0。对于需要学习 Flutter 桌面端、跨平台 UI、模块化组织的人来说，它提供了一个较完整的工程样例。

可以把它的架构理解成这样：

flowchart TB
    A[Flutter UI] --> B[应用状态与业务逻辑]
    B --> C[Agent 调度层]
    C --> D[字数统计工具]
    C --> E[文本分析扩展点]
    C --> F[写作辅助扩展点]
    B --> G[平台适配层]
    G --> H[Windows]
    G --> I[macOS]
    G --> J[Linux]
    G --> K[HarmonyOS]

“工具即智能体”的关键是把一个个能力封装成可调用工具，再由 Agent 层统一调度。当前核心能力是字数统计，但这种结构可以继续扩展到文本分析、写作辅助、内容检查等方向。

适合参考的部分包括：

学习目标	可以关注的部分
Flutter 跨端开发	多平台适配、桌面端 UI 组织
Agent 工程结构	工具封装、调度层、扩展点设计
生产级代码组织	模块划分、错误处理、业务边界
文本工具应用	统计、分析、后续写作辅助能力扩展

如果目标只是快速搭建一个聊天机器人，CountBot 并不是最短路径；如果目标是研究“一个可发布的跨端 AI 工具应该怎样组织代码”，它更有参考价值。

ai-openclaw-skeletons：快速创建 OpenClaw 应用骨架

OpenClaw 主打让 AI 不只聊天，而是能调用工具、执行任务、完成自动化工作。基于这类框架做二次开发时，最容易浪费时间的地方往往不是业务逻辑，而是项目初始化：目录怎么分、入口怎么放、插件怎么组织、配置如何管理。

ai-openclaw-skeletons 提供的是 OpenClaw 生态下的项目骨架模板。它的作用不是直接完成某个具体业务，而是帮开发者快速得到一个可继续开发的起点。

适合使用骨架模板的场景：

场景	使用骨架模板的收益
新建 OpenClaw 应用	省去从空目录搭结构的时间
开发插件或工具能力	目录和入口更容易保持一致
团队协作	新项目初始化方式统一
学习 OpenClaw 生态	通过模板理解推荐工程结构

开发流程通常是：

flowchart LR
    A[选择骨架模板] --> B[创建项目目录]
    B --> C[安装依赖]
    C --> D[填写配置]
    D --> E[实现业务工具或插件]
    E --> F[在 OpenClaw 中运行测试]

如果已经确定要在 OpenClaw 生态里开发 AI 应用，使用骨架模板会比从零搭工程更稳。它能把注意力从初始化细节转移到业务能力本身，例如工具调用、消息处理、任务编排和权限控制。

怎么选择这些项目

不同项目解决的问题差异很大，可以按需求选择：

你的需求	更适合的项目
写论文，需要快速生成方法图或架构图	AutoFigure-Edit
不想写代码，但想自动操作网页和处理文件	WebRPA
经常用 Claude Code、Cursor、Codex 写代码，希望 AI 记住项目规范	Trellis
想把 OpenClaw 接到 QQ 私聊机器人	qqbot
想研究 Flutter 跨端 AI 工具或 Agent 架构	CountBot
想基于 OpenClaw 快速启动新项目	ai-openclaw-skeletons

这些工具覆盖了 AI 应用开发的不同环节：AutoFigure-Edit 处理学术表达，WebRPA 处理自动化执行，Trellis 处理 AI 编程上下文，qqbot 处理聊天入口，CountBot 展示跨端 Agent 工程结构，ai-openclaw-skeletons 则提供 OpenClaw 应用初始化能力。按具体问题选工具，比单纯追求“功能多”更容易落地。

菜单