芥末
发布于 2026-02-24 / 0 阅读
0
0

6 个 AI 开源工具:论文配图、网页自动化与 Agent 开发

AI(人工智能)工具链里有两类需求特别常见:一类是把重复性的操作自动化,比如采集网页数据、批量处理文件、定时触发任务;另一类是让 AI 更好地参与研发流程,比如记住项目规范、生成论文图、接入聊天平台、搭建 Agent 应用。

这里整理的 6 个开源项目分别覆盖这些场景:

项目解决的问题关键词仓库
AutoFigure-Edit根据论文方法描述生成可编辑配图论文配图、SVG、风格迁移https://github.com/ResearAI/AutoFigure-Edit
WebRPA零代码搭建网页自动化流程RPA、Playwright、触发器https://github.com/pmh1314520/WebRPA
Trellis让 AI 编程工具持续记住项目规范Claude Code、Cursor、Codex、规范注入https://github.com/mindfold-ai/Trellis
qqbot把 OpenClaw 接入 QQ 机器人QQ 开放平台、事件订阅https://github.com/sliverp/qqbot
CountBot用 Flutter 实现的跨端 AI Agent 框架样例Flutter、AI Agent、跨平台https://github.com/countbot-ai/CountBot
ai-openclaw-skeletons快速创建 OpenClaw AI 应用骨架OpenClaw、项目模板https://github.com/1596941391qq/ai-openclaw-skeletons

AutoFigure-Edit:把论文方法描述变成可编辑配图

写论文时,方法图、框架图、流程图经常要反复调整。手工画图的问题不只是耗时,还包括风格难统一、后期改动麻烦、从草图到正式图需要重复排版。

AutoFigure-Edit 的目标是把论文方法部分的文字描述转换成专业配图,并输出 SVG(Scalable Vector Graphics,可缩放矢量图形)格式。SVG 的优势是可编辑、可缩放,后续改文字、换颜色、移动模块都比位图方便。

它入选 ICLR 2026(International Conference on Learning Representations),定位不是简单的“文生图”,而是面向学术配图的生成与编辑流程。

核心流程可以理解成这样:

flowchart LR
    A[论文方法文字] --> B[LLM 生成初始草图]
    B --> C[SAM3 图像分割]
    C --> D[RMBG-2.0 去背景]
    D --> E[元素重组]
    E --> F[输出可编辑 SVG]
    G[参考风格图] --> B

LLM(Large Language Model,大语言模型)负责理解论文方法描述,并把文字组织成初步图形结构;SAM3(Segment Anything Model 系列的图像分割模型)用于识别图里的图标、模块、区域;RMBG-2.0 负责去除背景,让元素更容易被重新组合;最终结果会被组装成可继续编辑的矢量图。

它比较适合这些场景:

场景AutoFigure-Edit 能解决什么
论文方法图根据方法描述生成模型结构图或流程图
多张图风格统一通过参考图做风格迁移,减少手工调色和排版
需要反复修改输出 SVG,便于改文字、箭头、模块位置
快速出草图先生成一个可用版本,再人工微调

使用时可以按这个思路走:

  1. 准备论文方法部分的文字描述,尽量写清模块、输入输出、数据流向。
  2. 如果有目标风格,提供一张参考图,让生成结果保持相近的视觉风格。
  3. 生成 SVG 图后,在内置 Web 界面里调整元素位置、文字、颜色和连接关系。
  4. 导出最终配图,放入论文或演示材料。

需要注意的是,机器生成的论文图不能直接当作最终事实表达。模块名称、箭头方向、输入输出关系必须人工检查,尤其是方法图里涉及分支、循环、损失函数、训练和推理两套流程时,最好逐项核对。

WebRPA:用拖拽方式搭建网页自动化流程

RPA(Robotic Process Automation,机器人流程自动化)解决的是“把重复操作交给程序执行”的问题。传统网页自动化通常要写 Python 脚本,使用 Selenium、Playwright 或请求库完成页面操作和数据采集。WebRPA 的思路是把这些能力封装成可拖拽模块,让不写代码的人也能搭建自动化流程。

它内置了 260 个功能模块,覆盖范围比较广:

能力类型具体能力
浏览器自动化基于 Playwright 操作网页,支持 CSS(层叠样式表)选择器和 XPath 定位
数据处理JSON(JavaScript Object Notation)、正则表达式、Excel 读写
文件处理文件读取、写入、监听、批处理
媒体处理基于 FFmpeg 处理 50 多种音视频格式
AI 对话支持 OpenAI、智谱、通义千问等服务商
运行环境自带 Python 3.13 和 Node.js,解压后即可运行

它的自动化模型可以拆成三层:触发器负责启动流程,工作流负责调度模块,模块负责执行具体动作。

flowchart TB
    A[触发器] --> B[工作流引擎]
    B --> C[网页操作模块]
    B --> D[数据处理模块]
    B --> E[文件处理模块]
    B --> F[媒体转换模块]
    B --> G[AI 对话模块]
    C --> H[输出结果]
    D --> H
    E --> H
    F --> H
    G --> H

触发器系统是 WebRPA 的关键能力之一。它支持 Webhook、定时任务、文件监控、热键监听等 10 种触发方式,所以它不只能做“点一下运行”的脚本,也可以做持续运行的自动化任务。

典型工作流可能是这样:

sequenceDiagram
    participant T as 定时触发器
    participant B as 浏览器模块
    participant D as 数据处理模块
    participant E as Excel 模块
    participant A as AI 模块

    T->>B: 打开目标网页
    B->>B: 登录并定位元素
    B-->>D: 提取页面数据
    D->>D: 清洗字段和格式
    D-->>E: 写入 Excel
    D-->>A: 发送摘要请求
    A-->>E: 写入 AI 生成的摘要

WebRPA 适合处理规则比较明确的任务,比如定时打开后台下载报表、从网页提取结构化数据、批量转换媒体文件、把采集结果交给 AI 做摘要。它不适合用来绕过网站规则,也不适合承担高并发爬虫任务;如果目标系统有正式 API,优先使用 API 会更稳定。

Trellis:让 Claude Code 等 AI 编程工具记住项目规范

AI 编程工具的常见问题是上下文不稳定。每次开启新会话,都要重新解释项目目录、编码规范、组件风格、测试约定。如果这些信息只靠聊天补充,时间一长就容易遗漏。

Trellis 的定位是 AI 编程工具箱,面向 Claude Code、Cursor、Codex 等工具。它的核心能力是把项目规范、最佳实践和工作日志结构化保存,并在会话开始时自动注入相关上下文。

它解决的问题可以概括为三点:

问题Trellis 的做法
每次会话都要重复说明规范把规范放进 spec 目录,自动加载
所有规范塞进一个文件导致上下文臃肿分层管理,只加载当前任务相关内容
多个 AI 任务互相干扰通过不同 Git worktree 并行运行任务
会话结束后上下文丢失/trellis:record-session 记录工作日志

项目结构的思路类似这样:

project/
├── spec/
│   ├── architecture.md
│   ├── coding-style.md
│   ├── testing.md
│   └── ui-guidelines.md
├── workspace/
│   ├── feature-login/
│   ├── refactor-api/
│   └── fix-tests/
└── ...

spec 目录存放稳定的项目规则,例如架构约束、命名风格、测试要求和组件规范;workspace 目录用于放置不同任务的工作空间,配合 Git worktree 可以让多个 AI 会话同时处理不同分支,互不覆盖文件。

它和单个 CLAUDE.md 文件的差异在于粒度:

方案优点局限
单个 CLAUDE.md简单,容易开始内容变多后难维护,也容易把无关信息塞进上下文
Trellis 分层规范可按任务加载相关规则,适合中大型项目需要先整理规范目录和工作方式

如果团队已经有明确编码规范,Trellis 的价值会更明显。规范只写一次,后续 AI 会话都能按同一套约定工作,减少“生成的代码风格和项目不一致”的问题。

qqbot:把 OpenClaw 接入 QQ 机器人

OpenClaw 是一个 AI 助手框架,qqbot 是它的 QQ 机器人插件。它通过 QQ 开放平台的长连接事件订阅机制,把 QQ 私聊消息转成 OpenClaw 可以处理的事件,再把处理结果返回给用户。

整体调用关系如下:

flowchart LR
    A[QQ 用户私聊] --> B[QQ 开放平台]
    B --> C[qqbot 插件]
    C --> D[OpenClaw]
    D --> E[AI 能力或工具调用]
    E --> D
    D --> C
    C --> B
    B --> A

接入步骤主要包括:

  1. 在 QQ 开放平台注册账号,并完成必要认证。
  2. 创建 QQ 机器人,获取 AppID 和 AppSecret。
  3. 在 OpenClaw 环境中安装 qqbot 插件。
  4. 配置 AppID、AppSecret 等凭证。
  5. 启动插件,使用 QQ 私聊测试消息收发。

安装命令如下:

openclaw plugins install @sliverp/qqbot@latest

这个插件更适合个人助手、私聊问答、工具触发等场景。当前限制也很明确:QQ 开放平台机器人只支持私聊,不支持群聊。如果需求是群内自动回复、群管理或多人协作机器人,需要确认 QQ 平台能力是否已经开放对应接口。

CountBot:从字数统计工具看跨端 AI Agent 架构

CountBot 表面上是字数统计工具,但代码规模达到 21K 行,并且采用了“工具即智能体”的设计思路。它的价值不只在于统计字数,还在于可以作为 AI Agent 架构和跨端桌面应用的参考。

技术栈基于 Flutter,支持 Windows、macOS、Linux,也适配了 HarmonyOS 6.0。对于需要学习 Flutter 桌面端、跨平台 UI、模块化组织的人来说,它提供了一个较完整的工程样例。

可以把它的架构理解成这样:

flowchart TB
    A[Flutter UI] --> B[应用状态与业务逻辑]
    B --> C[Agent 调度层]
    C --> D[字数统计工具]
    C --> E[文本分析扩展点]
    C --> F[写作辅助扩展点]
    B --> G[平台适配层]
    G --> H[Windows]
    G --> I[macOS]
    G --> J[Linux]
    G --> K[HarmonyOS]

“工具即智能体”的关键是把一个个能力封装成可调用工具,再由 Agent 层统一调度。当前核心能力是字数统计,但这种结构可以继续扩展到文本分析、写作辅助、内容检查等方向。

适合参考的部分包括:

学习目标可以关注的部分
Flutter 跨端开发多平台适配、桌面端 UI 组织
Agent 工程结构工具封装、调度层、扩展点设计
生产级代码组织模块划分、错误处理、业务边界
文本工具应用统计、分析、后续写作辅助能力扩展

如果目标只是快速搭建一个聊天机器人,CountBot 并不是最短路径;如果目标是研究“一个可发布的跨端 AI 工具应该怎样组织代码”,它更有参考价值。

ai-openclaw-skeletons:快速创建 OpenClaw 应用骨架

OpenClaw 主打让 AI 不只聊天,而是能调用工具、执行任务、完成自动化工作。基于这类框架做二次开发时,最容易浪费时间的地方往往不是业务逻辑,而是项目初始化:目录怎么分、入口怎么放、插件怎么组织、配置如何管理。

ai-openclaw-skeletons 提供的是 OpenClaw 生态下的项目骨架模板。它的作用不是直接完成某个具体业务,而是帮开发者快速得到一个可继续开发的起点。

适合使用骨架模板的场景:

场景使用骨架模板的收益
新建 OpenClaw 应用省去从空目录搭结构的时间
开发插件或工具能力目录和入口更容易保持一致
团队协作新项目初始化方式统一
学习 OpenClaw 生态通过模板理解推荐工程结构

开发流程通常是:

flowchart LR
    A[选择骨架模板] --> B[创建项目目录]
    B --> C[安装依赖]
    C --> D[填写配置]
    D --> E[实现业务工具或插件]
    E --> F[在 OpenClaw 中运行测试]

如果已经确定要在 OpenClaw 生态里开发 AI 应用,使用骨架模板会比从零搭工程更稳。它能把注意力从初始化细节转移到业务能力本身,例如工具调用、消息处理、任务编排和权限控制。

怎么选择这些项目

不同项目解决的问题差异很大,可以按需求选择:

你的需求更适合的项目
写论文,需要快速生成方法图或架构图AutoFigure-Edit
不想写代码,但想自动操作网页和处理文件WebRPA
经常用 Claude Code、Cursor、Codex 写代码,希望 AI 记住项目规范Trellis
想把 OpenClaw 接到 QQ 私聊机器人qqbot
想研究 Flutter 跨端 AI 工具或 Agent 架构CountBot
想基于 OpenClaw 快速启动新项目ai-openclaw-skeletons

这些工具覆盖了 AI 应用开发的不同环节:AutoFigure-Edit 处理学术表达,WebRPA 处理自动化执行,Trellis 处理 AI 编程上下文,qqbot 处理聊天入口,CountBot 展示跨端 Agent 工程结构,ai-openclaw-skeletons 则提供 OpenClaw 应用初始化能力。按具体问题选工具,比单纯追求“功能多”更容易落地。


评论