AI(人工智能)开发工具正在从“单个聊天窗口”变成一整套工作流:模型要路由,代码要自动改,Agent 要记住上下文,教程要能动手跑,三维资产和短视频也开始进入浏览器与自动化流水线。
这 7 个 GitHub 项目可以放在同一张工作流图里理解:
flowchart LR
Dev[开发者 / 内容创作者] --> Coding[AI Coding 工具]
Coding --> Router[9router<br/>模型路由与降成本]
Coding --> Harness[jcode<br/>高性能 Agent 外壳]
Coding --> Memory[agentmemory<br/>跨会话记忆]
Learn[dive-into-llms<br/>大模型实践教程] --> Dev
Asset[3DGS 数据] --> SuperSplat[SuperSplat<br/>浏览器 3DGS 编辑]
Notes[技术材料 / 提纲] --> Diagram[ian-handdrawn-ppt<br/>手绘解释图]
Topic[短视频主题] --> Video[Pixelle-Video<br/>自动视频生成]
| 项目 | 解决的问题 | 核心能力 | 适合场景 |
|---|---|---|---|
| 9router | AI Coding 的模型额度和成本压力 | 多模型路由、自动故障转移、Token 压缩 | 经常使用 Claude Code、Cursor、Copilot 等工具 |
| jcode | Coding Agent 外壳太重、终端体验慢 | Rust 终端渲染、多 Agent 协作、语义记忆 | 追求低内存、低延迟的命令行开发者 |
| dive-into-llms | 大语言模型学习资料零散 | 课件、教程、Notebook 实验 | 系统学习大模型实践 |
| agentmemory | Agent 跨会话失忆 | 工作记忆、情景记忆、语义记忆、程序记忆 | 长期维护同一个代码仓库或项目知识库 |
| SuperSplat | 3DGS 数据缺少轻量编辑器 | 浏览器查看、裁剪、合并、优化 | 处理三维高斯溅射资产 |
| ian-handdrawn-ppt | 技术解释图制作耗时 | 从材料生成手绘风格 PNG 图 | 做课程、分享、技术配图 |
| Pixelle-Video | 短视频制作链路太长 | 文案、配图、配音、BGM、合成自动化 | 批量生成知识类或口播类短视频 |
1. 9router:给 AI Coding 工具加一层模型路由
使用 Claude Code、Cursor、Copilot 这类 AI Coding 工具时,最容易遇到两个问题:
- 高质量模型额度有限,用一段时间就触发限制。
- 不同模型价格差别很大,但手动切换模型很麻烦。
9router 的做法是在 AI Coding 工具和大语言模型(LLM,Large Language Model)服务之间加一层路由。前端工具仍然按原来的方式调用,背后实际请求哪个模型,由 9router 统一调度。
flowchart LR
Tool[Claude Code / Cursor / Copilot] --> Router[9router 本地路由]
Router --> A[高质量订阅模型]
Router --> B[低价模型]
Router --> C[免费模型]
Router --> Saver[RTK Token Saver]
Saver --> Compress[压缩 git diff / grep / ls 输出]
它把 40 多个 AI 提供商、100 多个模型接到同一个路由层里。正常情况下可以优先走质量更高的模型;当订阅额度耗尽,路由层自动切到更便宜的模型;如果低价模型也不可用,再继续切到免费模型。
这种模式的价值不只是省钱,还能减少开发过程中的中断。AI Coding 工具不需要知道后面到底换了哪个供应商,开发者也不用在多个配置文件之间来回改。
9router 还有一个 RTK Token Saver,用来压缩工具输出。AI Coding 过程中,git diff、grep、ls 这类命令经常产生很长的上下文,直接塞进提示词会消耗大量 token。压缩这些结构化输出后,每个请求大约可以减少 20% 到 40% 的 token。Caveman 模式会注入更精简的提示词,进一步减少输出 token。
上手方式很简单:
npm install -g 9router
9router
启动后打开本地控制台:
http://localhost:20128
部署方式除了本机运行,还支持 Docker、VPS(虚拟专用服务器)、Cloudflare Workers。
项目地址:
https://github.com/decolua/9router
适合使用 9router 的情况:
| 场景 | 是否适合 |
|---|---|
| 经常用 AI Coding 工具,额度消耗快 | 适合 |
| 同时有多个模型供应商账号 | 适合 |
| 希望自动切换模型,减少手动配置 | 适合 |
| 对模型输出稳定性要求极高,不能接受模型切换带来的风格变化 | 需要谨慎 |
| 代码和上下文不能经过第三方模型 | 需要先确认数据合规要求 |
2. jcode:用 Rust 写的高性能 Coding Agent Harness
jcode 不是一个大模型,而是一个 Coding Agent Harness,可以理解为包在模型外面的终端交互层、工具调用层和任务执行层。
传统 AI Coding 工具通常要做很多事情:渲染终端界面、维护上下文、调用文件系统、执行命令、展示 diff、处理多轮对话。jcode 选择用 Rust 重新实现这些底层能力,目标是降低内存占用和交互延迟。
flowchart TB
User[用户输入任务] --> TUI[jcode 终端界面]
TUI --> Runtime[Agent 运行时]
Runtime --> Tools[文件 / Shell / Git 工具]
Runtime --> Model[LLM 服务]
Runtime --> Memory[语义记忆]
Tools --> Runtime
Model --> Runtime
Runtime --> TUI
资料给出的性能数据比较直接:
| 指标 | jcode | Claude Code |
|---|---|---|
| 内存占用 | 约为 Claude Code 的 1/14 | 基准 |
| 首次渲染 | 14 毫秒 | 3.4 秒 |
| Mermaid 渲染 | 自研渲染库 | mermaid-cli |
| Mermaid 渲染速度 | 约快 1800 倍 | 基准 |
jcode 的一个重点能力是 Swarm 多 Agent 协作模式。多个 Agent 可以在同一个仓库中同时工作,例如一个负责前端,一个负责后端。它们之间会协调任务、检测冲突、交换信息,避免所有 Agent 都改同一块代码。
flowchart LR
Task[同一个开发任务] --> Planner[jcode 协调层]
Planner --> A[Agent A<br/>前端改动]
Planner --> B[Agent B<br/>后端改动]
Planner --> C[Agent C<br/>测试与修复]
A --> Sync[冲突检测 / 通信]
B --> Sync
C --> Sync
Sync --> Repo[(代码仓库)]
它还内置语义记忆系统。每轮对话会生成向量嵌入,后续对话通过余弦相似度检索相关记忆,再把相关内容注入上下文。这样 Agent 不必完全依赖当前窗口里的文本,也能回忆起之前讨论过的实现细节。
安装命令:
curl -fsSL https://raw.githubusercontent.com/1jehuang/jcode/master/scripts/install.sh | bash
项目地址:
https://github.com/1jehuang/jcode
Swarm 模式仍处于实验阶段,适合在可回滚、可审查的仓库中尝试。多 Agent 同时改代码时,仍然需要人工检查 diff,尤其是涉及架构调整、数据库迁移和安全逻辑的改动。
3. dive-into-llms:把大模型知识拆成可运行实验
学习大语言模型最容易卡在两个地方:概念很多,动手材料却不成体系;教程讲了原理,但没有可运行的实验。dive-into-llms 是上海交通大学推出的《动手学大模型》系列实践教程,重点是把大模型能力拆成章节、课件和 Notebook 实验。
它覆盖 11 个章节,内容从基础提示学习一直延伸到 Agent 安全和多模态任务:
| 方向 | 涉及主题 |
|---|---|
| 提示与推理 | 提示学习、思维链、数学推理 |
| 模型修改 | 知识编辑、模型水印 |
| 安全攻防 | 越狱攻击、大模型隐写 |
| 对齐训练 | RLHF(基于人类反馈的强化学习) |
| 多模态与交互 | 多模态、GUI(图形用户界面)Agent |
| 国产化实践 | 华为昇腾相关课程线、实验手册、视频资料 |
每个章节通常包含三类材料:
flowchart LR
Chapter[一个知识点] --> PPT[课件]
Chapter --> Doc[教程文档]
Chapter --> Notebook[Jupyter Notebook 实验]
这类资料适合用“边看边跑”的方式学习。比如看完提示学习相关内容后,直接打开 Notebook 修改提示词;学到知识编辑时,观察模型被编辑前后的输出变化;研究越狱攻击时,用实验理解安全边界为什么会被绕过。
使用方式不复杂:
git clone https://github.com/Lordog/dive-into-llms.git
cd dive-into-llms
然后按照各章节说明打开对应的课件、文档或 Jupyter Notebook。
项目地址:
https://github.com/Lordog/dive-into-llms
它更适合系统学习大模型实践,不太适合只想快速查一个 API(应用程序编程接口)用法的人。课程型仓库的价值在于完整路径,而不是单个片段。
4. agentmemory:让 AI Agent 拥有跨会话记忆
很多 AI Coding Agent 都有一个共同问题:当前会话结束后,项目背景、代码风格、历史决策、用户偏好都会丢失。下一次打开工具,还要重新解释仓库结构、技术栈和约定。
agentmemory 专门解决这个问题。它可以接入 Claude Code、Cursor、Gemini CLI、Codex 等工具,为 Agent 提供持久化记忆。
它把记忆分成四层:
| 记忆类型 | 含义 | 示例 |
|---|---|---|
| 工作记忆 | 当前任务正在用的短期信息 | “正在修复登录接口的鉴权 bug” |
| 情景记忆 | 某次交互或某个事件的上下文 | “上次讨论过支付模块不能引入新依赖” |
| 语义记忆 | 抽象后的长期知识 | “项目采用分层架构,Controller 不直接访问数据库” |
| 程序记忆 | 操作习惯和流程偏好 | “提交前需要运行单元测试和 lint” |
记忆从短期到长期逐步沉淀:
flowchart TB
Input[用户对话 / 项目信息] --> Working[工作记忆]
Working --> Episodic[情景记忆]
Episodic --> Semantic[语义记忆]
Semantic --> LongTerm[(长期知识库)]
Input --> Procedural[程序记忆]
Query[新一轮任务] --> Search[混合检索]
LongTerm --> Search
Procedural --> Search
Search --> Context[注入相关上下文]
Context --> Agent[AI Agent]
检索层使用混合方案:
- BM25:一种基于关键词匹配的检索算法,适合找精确术语、函数名、文件名。
- 向量搜索:适合找语义相近但措辞不同的内容。
- 知识图谱:适合表达实体和关系,例如“模块 A 依赖模块 B”。
三路检索并行后,前 5 条结果的召回率可以达到 95.2%。对 Coding Agent 来说,这意味着它更容易找回真正相关的项目知识,而不是把上下文窗口塞满无关历史。
启动命令:
npx @agentmemory/agentmemory
项目地址:
https://github.com/rohitg00/agentmemory
agentmemory 适合长期项目。如果只是一次性问答,持久记忆意义不大;如果一个 Agent 要连续几周参与同一个仓库,记忆系统能明显减少重复解释成本。
5. SuperSplat:在浏览器里编辑 3D Gaussian Splatting 数据
3D Gaussian Splatting(3DGS,三维高斯溅射)是一种三维场景表示方式。它不用传统网格来描述场景,而是用大量带有位置、颜色、透明度和形状参数的高斯点来重建三维画面。优点是渲染速度快,视觉效果接近真实拍摄结果。
3DGS 数据生成后,常见需求包括:
- 查看场景是否有噪点或漂浮点。
- 裁剪不需要的区域。
- 合并多个 splat 数据。
- 优化数据体积和渲染效果。
- 把结果发布到网页中展示。
SuperSplat 是 PlayCanvas 团队做的浏览器端 3DGS 编辑器,不需要本地安装大型软件,打开网页就能处理数据。
flowchart LR
Import[导入 3DGS 数据] --> Inspect[查看与检查]
Inspect --> Crop[裁剪]
Crop --> Merge[合并]
Merge --> Optimize[优化]
Optimize --> Render[视频渲染 / 网页发布]
它基于 WebGL(Web Graphics Library)和 WebGPU(Web Graphics Processing Unit)渲染,因此可以直接利用浏览器图形能力完成交互式编辑。对于不想搭建本地 3D 工具链的人来说,这种网页编辑器门槛更低。
在线编辑器:
https://superspl.at/editor
项目地址:
https://github.com/playcanvas/supersplat
SuperSplat 适合处理已有 3DGS 数据。如果需求是从零训练 3DGS,仍然需要配套的重建或训练工具;如果只是检查、裁剪和发布,浏览器端编辑器更轻量。
6. ian-handdrawn-ppt:把技术材料生成手绘风格解释图
技术解释图最难的不是画线条,而是把复杂内容压缩成一张图能讲清的结构。ian-handdrawn-ppt 的思路是先理解输入材料,再选择合适版式生成手绘风格图片。
它生成的图有几个固定风格特征:
- 接近白纸的背景。
- 细铅笔线条和排线。
- 淡蓝、淡绿等柔和标记色。
- 留白较多,信息密度不至于压得太满。
- 输出为 PNG(便携式网络图形)格式,可直接用于封面或正文配图。
生成流程可以抽象成这样:
flowchart LR
Material[技术材料 / 课程笔记 / 提纲] --> Understand[理解主题]
Understand --> Structure[提炼叙事结构]
Structure --> Layout[选择版式]
Layout --> Style[应用手绘风格]
Style --> PNG[输出 21:9 或 16:9 PNG]
它支持的版式包括封面隐喻、左右对比、流程图、矩阵图等。不同内容适合不同结构,例如:
| 内容类型 | 更适合的图形结构 |
|---|---|
| 新旧方案差异 | 左右对比 |
| 系统执行过程 | 流程图 |
| 多个方案选型 | 矩阵图 |
| 抽象概念解释 | 隐喻封面 |
| 知识点之间的关系 | 分层结构图 |
项目地址:
https://github.com/helloianneo/ian-handdrawn-ppt
这个项目更适合生成解释型配图,不适合生成精确工程图。架构图、时序图、数据库关系图这类需要严格语义的内容,仍然应该优先用 Mermaid、PlantUML 或专业绘图工具。
7. Pixelle-Video:基于 ComfyUI 的自动短视频生成流水线
短视频制作通常包含多个环节:确定主题、写脚本、生成素材、配音、加背景音乐、剪辑合成。每一步都可以用 AI 辅助,但如果工具之间不能串起来,仍然需要大量手工操作。
Pixelle-Video 是阿里 AIDC-AI 团队开源的自动短视频引擎。输入一个主题后,它可以自动完成文案、配图、配音、BGM(背景音乐)和视频合成。
flowchart LR
Topic[输入主题] --> Script[生成文案]
Script --> Image[生成配图]
Script --> Voice[TTS 文本转语音]
Image --> Compose[视频合成]
Voice --> Compose
BGM[背景音乐] --> Compose
Compose --> Video[完整短视频]
它底层基于 ComfyUI 架构。ComfyUI 的核心是节点式工作流,每个节点负责一个明确步骤,比如生图、配音、视频合成。Pixelle-Video 把短视频生产拆成多个原子节点,因此可以替换其中的组件:
| 环节 | 可替换内容 |
|---|---|
| 文案生成 | 不同语言模型 |
| 配图生成 | 不同生图模型 |
| 配音 | 不同 TTS(文本转语音)引擎 |
| 视频生成 | 图生视频、动作迁移等节点 |
| 口播 | 数字人相关组件 |
除了基础短视频生成,它还支持数字人口播、图生视频、动作迁移等更复杂的玩法。
项目地址:
https://github.com/AIDC-AI/Pixelle-Video
Pixelle-Video 适合把固定类型内容做成自动流水线,例如知识科普、产品介绍、口播脚本转视频。它不适合完全替代精细剪辑,尤其是需要复杂镜头语言、人工审美判断和品牌级后期制作的场景。
选型建议
| 需求 | 优先看哪个项目 | 原因 |
|---|---|---|
| AI Coding 成本高、额度不够 | 9router | 通过模型路由和 token 压缩降低消耗 |
| 想要更快的终端 Agent 体验 | jcode | Rust 实现,强调低内存和快速渲染 |
| 想系统学习大模型实践 | dive-into-llms | 课件、文档、Notebook 组合完整 |
| Agent 总是忘记项目背景 | agentmemory | 提供跨会话长期记忆 |
| 要编辑 3DGS 场景 | SuperSplat | 浏览器直接处理 splat 数据 |
| 想快速生成技术解释图 | ian-handdrawn-ppt | 自动抽取结构并生成统一手绘风格 |
| 想把主题自动变成短视频 | Pixelle-Video | 把文案、素材、配音、合成串成流水线 |
这些项目覆盖了 AI 工具链的不同层次:9router 处理模型调用成本,jcode 和 agentmemory 强化 Coding Agent,dive-into-llms 负责学习路径,SuperSplat、ian-handdrawn-ppt、Pixelle-Video 则把 AI 能力扩展到三维资产、解释图和视频生产。选择时不需要追求全都装上,先判断当前最痛的是额度、速度、记忆、学习,还是内容生产链路,再挑对应工具验证。