芥末
发布于 2026-05-10 / 0 阅读
0
0

7 个 AI 开发工作流 GitHub 项目:模型路由、Agent 记忆与自动内容生成

AI(人工智能)开发工具正在从“单个聊天窗口”变成一整套工作流:模型要路由,代码要自动改,Agent 要记住上下文,教程要能动手跑,三维资产和短视频也开始进入浏览器与自动化流水线。

这 7 个 GitHub 项目可以放在同一张工作流图里理解:

flowchart LR
    Dev[开发者 / 内容创作者] --> Coding[AI Coding 工具]
    Coding --> Router[9router<br/>模型路由与降成本]
    Coding --> Harness[jcode<br/>高性能 Agent 外壳]
    Coding --> Memory[agentmemory<br/>跨会话记忆]

    Learn[dive-into-llms<br/>大模型实践教程] --> Dev

    Asset[3DGS 数据] --> SuperSplat[SuperSplat<br/>浏览器 3DGS 编辑]
    Notes[技术材料 / 提纲] --> Diagram[ian-handdrawn-ppt<br/>手绘解释图]
    Topic[短视频主题] --> Video[Pixelle-Video<br/>自动视频生成]
项目解决的问题核心能力适合场景
9routerAI Coding 的模型额度和成本压力多模型路由、自动故障转移、Token 压缩经常使用 Claude Code、Cursor、Copilot 等工具
jcodeCoding Agent 外壳太重、终端体验慢Rust 终端渲染、多 Agent 协作、语义记忆追求低内存、低延迟的命令行开发者
dive-into-llms大语言模型学习资料零散课件、教程、Notebook 实验系统学习大模型实践
agentmemoryAgent 跨会话失忆工作记忆、情景记忆、语义记忆、程序记忆长期维护同一个代码仓库或项目知识库
SuperSplat3DGS 数据缺少轻量编辑器浏览器查看、裁剪、合并、优化处理三维高斯溅射资产
ian-handdrawn-ppt技术解释图制作耗时从材料生成手绘风格 PNG 图做课程、分享、技术配图
Pixelle-Video短视频制作链路太长文案、配图、配音、BGM、合成自动化批量生成知识类或口播类短视频

1. 9router:给 AI Coding 工具加一层模型路由

使用 Claude Code、Cursor、Copilot 这类 AI Coding 工具时,最容易遇到两个问题:

  1. 高质量模型额度有限,用一段时间就触发限制。
  2. 不同模型价格差别很大,但手动切换模型很麻烦。

9router 的做法是在 AI Coding 工具和大语言模型(LLM,Large Language Model)服务之间加一层路由。前端工具仍然按原来的方式调用,背后实际请求哪个模型,由 9router 统一调度。

flowchart LR
    Tool[Claude Code / Cursor / Copilot] --> Router[9router 本地路由]
    Router --> A[高质量订阅模型]
    Router --> B[低价模型]
    Router --> C[免费模型]

    Router --> Saver[RTK Token Saver]
    Saver --> Compress[压缩 git diff / grep / ls 输出]

它把 40 多个 AI 提供商、100 多个模型接到同一个路由层里。正常情况下可以优先走质量更高的模型;当订阅额度耗尽,路由层自动切到更便宜的模型;如果低价模型也不可用,再继续切到免费模型。

这种模式的价值不只是省钱,还能减少开发过程中的中断。AI Coding 工具不需要知道后面到底换了哪个供应商,开发者也不用在多个配置文件之间来回改。

9router 还有一个 RTK Token Saver,用来压缩工具输出。AI Coding 过程中,git diffgrepls 这类命令经常产生很长的上下文,直接塞进提示词会消耗大量 token。压缩这些结构化输出后,每个请求大约可以减少 20% 到 40% 的 token。Caveman 模式会注入更精简的提示词,进一步减少输出 token。

上手方式很简单:

npm install -g 9router
9router

启动后打开本地控制台:

http://localhost:20128

部署方式除了本机运行,还支持 Docker、VPS(虚拟专用服务器)、Cloudflare Workers。

项目地址:

https://github.com/decolua/9router

适合使用 9router 的情况:

场景是否适合
经常用 AI Coding 工具,额度消耗快适合
同时有多个模型供应商账号适合
希望自动切换模型,减少手动配置适合
对模型输出稳定性要求极高,不能接受模型切换带来的风格变化需要谨慎
代码和上下文不能经过第三方模型需要先确认数据合规要求

2. jcode:用 Rust 写的高性能 Coding Agent Harness

jcode 不是一个大模型,而是一个 Coding Agent Harness,可以理解为包在模型外面的终端交互层、工具调用层和任务执行层。

传统 AI Coding 工具通常要做很多事情:渲染终端界面、维护上下文、调用文件系统、执行命令、展示 diff、处理多轮对话。jcode 选择用 Rust 重新实现这些底层能力,目标是降低内存占用和交互延迟。

flowchart TB
    User[用户输入任务] --> TUI[jcode 终端界面]
    TUI --> Runtime[Agent 运行时]
    Runtime --> Tools[文件 / Shell / Git 工具]
    Runtime --> Model[LLM 服务]
    Runtime --> Memory[语义记忆]
    Tools --> Runtime
    Model --> Runtime
    Runtime --> TUI

资料给出的性能数据比较直接:

指标jcodeClaude Code
内存占用约为 Claude Code 的 1/14基准
首次渲染14 毫秒3.4 秒
Mermaid 渲染自研渲染库mermaid-cli
Mermaid 渲染速度约快 1800 倍基准

jcode 的一个重点能力是 Swarm 多 Agent 协作模式。多个 Agent 可以在同一个仓库中同时工作,例如一个负责前端,一个负责后端。它们之间会协调任务、检测冲突、交换信息,避免所有 Agent 都改同一块代码。

flowchart LR
    Task[同一个开发任务] --> Planner[jcode 协调层]
    Planner --> A[Agent A<br/>前端改动]
    Planner --> B[Agent B<br/>后端改动]
    Planner --> C[Agent C<br/>测试与修复]
    A --> Sync[冲突检测 / 通信]
    B --> Sync
    C --> Sync
    Sync --> Repo[(代码仓库)]

它还内置语义记忆系统。每轮对话会生成向量嵌入,后续对话通过余弦相似度检索相关记忆,再把相关内容注入上下文。这样 Agent 不必完全依赖当前窗口里的文本,也能回忆起之前讨论过的实现细节。

安装命令:

curl -fsSL https://raw.githubusercontent.com/1jehuang/jcode/master/scripts/install.sh | bash

项目地址:

https://github.com/1jehuang/jcode

Swarm 模式仍处于实验阶段,适合在可回滚、可审查的仓库中尝试。多 Agent 同时改代码时,仍然需要人工检查 diff,尤其是涉及架构调整、数据库迁移和安全逻辑的改动。

3. dive-into-llms:把大模型知识拆成可运行实验

学习大语言模型最容易卡在两个地方:概念很多,动手材料却不成体系;教程讲了原理,但没有可运行的实验。dive-into-llms 是上海交通大学推出的《动手学大模型》系列实践教程,重点是把大模型能力拆成章节、课件和 Notebook 实验。

它覆盖 11 个章节,内容从基础提示学习一直延伸到 Agent 安全和多模态任务:

方向涉及主题
提示与推理提示学习、思维链、数学推理
模型修改知识编辑、模型水印
安全攻防越狱攻击、大模型隐写
对齐训练RLHF(基于人类反馈的强化学习)
多模态与交互多模态、GUI(图形用户界面)Agent
国产化实践华为昇腾相关课程线、实验手册、视频资料

每个章节通常包含三类材料:

flowchart LR
    Chapter[一个知识点] --> PPT[课件]
    Chapter --> Doc[教程文档]
    Chapter --> Notebook[Jupyter Notebook 实验]

这类资料适合用“边看边跑”的方式学习。比如看完提示学习相关内容后,直接打开 Notebook 修改提示词;学到知识编辑时,观察模型被编辑前后的输出变化;研究越狱攻击时,用实验理解安全边界为什么会被绕过。

使用方式不复杂:

git clone https://github.com/Lordog/dive-into-llms.git
cd dive-into-llms

然后按照各章节说明打开对应的课件、文档或 Jupyter Notebook。

项目地址:

https://github.com/Lordog/dive-into-llms

它更适合系统学习大模型实践,不太适合只想快速查一个 API(应用程序编程接口)用法的人。课程型仓库的价值在于完整路径,而不是单个片段。

4. agentmemory:让 AI Agent 拥有跨会话记忆

很多 AI Coding Agent 都有一个共同问题:当前会话结束后,项目背景、代码风格、历史决策、用户偏好都会丢失。下一次打开工具,还要重新解释仓库结构、技术栈和约定。

agentmemory 专门解决这个问题。它可以接入 Claude Code、Cursor、Gemini CLI、Codex 等工具,为 Agent 提供持久化记忆。

它把记忆分成四层:

记忆类型含义示例
工作记忆当前任务正在用的短期信息“正在修复登录接口的鉴权 bug”
情景记忆某次交互或某个事件的上下文“上次讨论过支付模块不能引入新依赖”
语义记忆抽象后的长期知识“项目采用分层架构,Controller 不直接访问数据库”
程序记忆操作习惯和流程偏好“提交前需要运行单元测试和 lint”

记忆从短期到长期逐步沉淀:

flowchart TB
    Input[用户对话 / 项目信息] --> Working[工作记忆]
    Working --> Episodic[情景记忆]
    Episodic --> Semantic[语义记忆]
    Semantic --> LongTerm[(长期知识库)]
    Input --> Procedural[程序记忆]

    Query[新一轮任务] --> Search[混合检索]
    LongTerm --> Search
    Procedural --> Search
    Search --> Context[注入相关上下文]
    Context --> Agent[AI Agent]

检索层使用混合方案:

  • BM25:一种基于关键词匹配的检索算法,适合找精确术语、函数名、文件名。
  • 向量搜索:适合找语义相近但措辞不同的内容。
  • 知识图谱:适合表达实体和关系,例如“模块 A 依赖模块 B”。

三路检索并行后,前 5 条结果的召回率可以达到 95.2%。对 Coding Agent 来说,这意味着它更容易找回真正相关的项目知识,而不是把上下文窗口塞满无关历史。

启动命令:

npx @agentmemory/agentmemory

项目地址:

https://github.com/rohitg00/agentmemory

agentmemory 适合长期项目。如果只是一次性问答,持久记忆意义不大;如果一个 Agent 要连续几周参与同一个仓库,记忆系统能明显减少重复解释成本。

5. SuperSplat:在浏览器里编辑 3D Gaussian Splatting 数据

3D Gaussian Splatting(3DGS,三维高斯溅射)是一种三维场景表示方式。它不用传统网格来描述场景,而是用大量带有位置、颜色、透明度和形状参数的高斯点来重建三维画面。优点是渲染速度快,视觉效果接近真实拍摄结果。

3DGS 数据生成后,常见需求包括:

  • 查看场景是否有噪点或漂浮点。
  • 裁剪不需要的区域。
  • 合并多个 splat 数据。
  • 优化数据体积和渲染效果。
  • 把结果发布到网页中展示。

SuperSplat 是 PlayCanvas 团队做的浏览器端 3DGS 编辑器,不需要本地安装大型软件,打开网页就能处理数据。

flowchart LR
    Import[导入 3DGS 数据] --> Inspect[查看与检查]
    Inspect --> Crop[裁剪]
    Crop --> Merge[合并]
    Merge --> Optimize[优化]
    Optimize --> Render[视频渲染 / 网页发布]

它基于 WebGL(Web Graphics Library)和 WebGPU(Web Graphics Processing Unit)渲染,因此可以直接利用浏览器图形能力完成交互式编辑。对于不想搭建本地 3D 工具链的人来说,这种网页编辑器门槛更低。

在线编辑器:

https://superspl.at/editor

项目地址:

https://github.com/playcanvas/supersplat

SuperSplat 适合处理已有 3DGS 数据。如果需求是从零训练 3DGS,仍然需要配套的重建或训练工具;如果只是检查、裁剪和发布,浏览器端编辑器更轻量。

6. ian-handdrawn-ppt:把技术材料生成手绘风格解释图

技术解释图最难的不是画线条,而是把复杂内容压缩成一张图能讲清的结构。ian-handdrawn-ppt 的思路是先理解输入材料,再选择合适版式生成手绘风格图片。

它生成的图有几个固定风格特征:

  • 接近白纸的背景。
  • 细铅笔线条和排线。
  • 淡蓝、淡绿等柔和标记色。
  • 留白较多,信息密度不至于压得太满。
  • 输出为 PNG(便携式网络图形)格式,可直接用于封面或正文配图。

生成流程可以抽象成这样:

flowchart LR
    Material[技术材料 / 课程笔记 / 提纲] --> Understand[理解主题]
    Understand --> Structure[提炼叙事结构]
    Structure --> Layout[选择版式]
    Layout --> Style[应用手绘风格]
    Style --> PNG[输出 21:9 或 16:9 PNG]

它支持的版式包括封面隐喻、左右对比、流程图、矩阵图等。不同内容适合不同结构,例如:

内容类型更适合的图形结构
新旧方案差异左右对比
系统执行过程流程图
多个方案选型矩阵图
抽象概念解释隐喻封面
知识点之间的关系分层结构图

项目地址:

https://github.com/helloianneo/ian-handdrawn-ppt

这个项目更适合生成解释型配图,不适合生成精确工程图。架构图、时序图、数据库关系图这类需要严格语义的内容,仍然应该优先用 Mermaid、PlantUML 或专业绘图工具。

7. Pixelle-Video:基于 ComfyUI 的自动短视频生成流水线

短视频制作通常包含多个环节:确定主题、写脚本、生成素材、配音、加背景音乐、剪辑合成。每一步都可以用 AI 辅助,但如果工具之间不能串起来,仍然需要大量手工操作。

Pixelle-Video 是阿里 AIDC-AI 团队开源的自动短视频引擎。输入一个主题后,它可以自动完成文案、配图、配音、BGM(背景音乐)和视频合成。

flowchart LR
    Topic[输入主题] --> Script[生成文案]
    Script --> Image[生成配图]
    Script --> Voice[TTS 文本转语音]
    Image --> Compose[视频合成]
    Voice --> Compose
    BGM[背景音乐] --> Compose
    Compose --> Video[完整短视频]

它底层基于 ComfyUI 架构。ComfyUI 的核心是节点式工作流,每个节点负责一个明确步骤,比如生图、配音、视频合成。Pixelle-Video 把短视频生产拆成多个原子节点,因此可以替换其中的组件:

环节可替换内容
文案生成不同语言模型
配图生成不同生图模型
配音不同 TTS(文本转语音)引擎
视频生成图生视频、动作迁移等节点
口播数字人相关组件

除了基础短视频生成,它还支持数字人口播、图生视频、动作迁移等更复杂的玩法。

项目地址:

https://github.com/AIDC-AI/Pixelle-Video

Pixelle-Video 适合把固定类型内容做成自动流水线,例如知识科普、产品介绍、口播脚本转视频。它不适合完全替代精细剪辑,尤其是需要复杂镜头语言、人工审美判断和品牌级后期制作的场景。

选型建议

需求优先看哪个项目原因
AI Coding 成本高、额度不够9router通过模型路由和 token 压缩降低消耗
想要更快的终端 Agent 体验jcodeRust 实现,强调低内存和快速渲染
想系统学习大模型实践dive-into-llms课件、文档、Notebook 组合完整
Agent 总是忘记项目背景agentmemory提供跨会话长期记忆
要编辑 3DGS 场景SuperSplat浏览器直接处理 splat 数据
想快速生成技术解释图ian-handdrawn-ppt自动抽取结构并生成统一手绘风格
想把主题自动变成短视频Pixelle-Video把文案、素材、配音、合成串成流水线

这些项目覆盖了 AI 工具链的不同层次:9router 处理模型调用成本,jcode 和 agentmemory 强化 Coding Agent,dive-into-llms 负责学习路径,SuperSplat、ian-handdrawn-ppt、Pixelle-Video 则把 AI 能力扩展到三维资产、解释图和视频生产。选择时不需要追求全都装上,先判断当前最痛的是额度、速度、记忆、学习,还是内容生产链路,再挑对应工具验证。


评论