13 个 GitHub 开源项目：AI 编程、Agent、SRE 与安全工具速览

AI（人工智能）开发工具正在从“聊天式问答”变成一套完整工程链路：有的项目负责约束 AI 写代码的方式，有的负责压缩上下文，有的负责让多个 Agent（智能体）协作，还有的把 AI 接进生产故障排查、安全分析和企业架构治理流程里。

这些项目不能只看 Star 数。更重要的是弄清楚三件事：

判断维度	要看什么
解决的问题	是提升编码效率、补齐上下文、做自动化运维，还是做底层性能优化
接入成本	需要装插件、跑代理服务、部署后端，还是只是一份配置文件
使用边界	是否依赖特定模型、特定硬件、特定安全权限，能不能放进生产环境

1. andrej-karpathy-skills：给 Claude Code 加一份编码行为规范

开源地址： https://github.com/forrestchang/andrej-karpathy-skills

这个项目本质上是一份面向 Claude Code 的 CLAUDE.md 规则文件，目标不是新增某个 API，而是约束 AI 编程时的行为。

它强调四个原则：

原则	作用
写代码前先想清楚	避免 AI 没确认需求就开始改文件
尽量少写代码	减少无关封装和过度设计
只改必须改的地方	避免顺手重构、误删注释、改坏旁边逻辑
以目标为导向	每次修改都要服务于当前任务，而不是展示能力

这种规则文件适合放在项目根目录，让 Claude Code 在每次会话开始时读取。它解决的是 AI 编程里很常见的问题：模型能写代码，但容易“太主动”。

一个简化版规则可以长这样：

# Coding Rules

## Before editing
- State assumptions before modifying files.
- Ask questions when requirements are ambiguous.
- Inspect existing code before proposing changes.

## While editing
- Change only the files required by the task.
- Keep existing comments unless they are clearly wrong.
- Prefer small patches over large rewrites.

## After editing
- Explain what changed.
- Mention tests that should be run.

适合场景：

场景	是否适合
已经在用 Claude Code，希望减少乱改代码	适合
团队希望统一 AI 编码习惯	适合
需要模型自动理解复杂业务并独立设计系统	不能只靠它，还需要更完整的上下文和评审流程

2. OpenAI Agents SDK：轻量级多 Agent 协作框架

开源地址： https://github.com/openai/openai-agents-python

OpenAI Agents SDK 是一个 Python Agent 框架，重点是把多个 Agent 组织成可协作的系统。每个 Agent 可以有自己的指令、工具和安全规则，也可以把任务交给另一个 Agent。

它的核心结构可以理解成这样：

flowchart LR
    U[用户请求] --> T[分诊 Agent]

    T -->|代码问题| C[代码 Agent]
    T -->|数据问题| D[数据分析 Agent]
    T -->|需要人工确认| H[Human-in-the-loop]

    C --> G[Guardrails 安全检查]
    D --> G

    G --> R[返回结果]

几个关键能力：

能力	说明
Handoff	一个 Agent 可以把任务转交给另一个 Agent
Tools	Agent 可以调用工具，例如搜索、数据库查询、内部 API
Guardrails	在输入或输出阶段做安全检查
Sessions	自动管理对话历史
Tracing	追踪 Agent 调用链，方便调试
Realtime Voice Agent	支持基于实时语音模型构建语音 Agent

安装方式很直接：

pip install openai-agents

一个最小化的 Agent 结构通常包含名称、指令和运行入口：

from agents import Agent, Runner

agent = Agent(
    name="Code Reviewer",
    instructions="Review code changes and point out risky logic, missing tests, and maintainability issues."
)

result = Runner.run_sync(agent, "Review this pull request diff...")
print(result.final_output)

虽然名字里带 OpenAI，但它的定位不是只能调用 OpenAI 模型，而是提供一套组织 Agent 工作流的框架。实际选型时要重点看工具调用、模型适配、日志追踪和权限隔离是否符合自己的工程要求。

3. free-claude-code：用代理把 Claude Code 请求路由到其他模型

开源地址： https://github.com/Alishahryar1/free-claude-code

这个项目的思路是跑一个本地代理服务，让 Claude Code 的 API 请求不直接进入原始模型服务，而是转发到 NVIDIA NIM、OpenRouter、DeepSeek、LM Studio、llama.cpp 等后端。

架构大概是这样：

flowchart LR
    C[Claude Code] --> P[本地代理服务]

    P -->|高复杂度任务| A[远程大模型 API]
    P -->|普通代码任务| B[低成本模型]
    P -->|标题/配额探测等小请求| L[本地直接响应]
    P -->|本地推理| M[LM Studio / llama.cpp]

它比较有意思的地方在于可以按请求类型路由：

请求类型	可能的后端
复杂架构设计	更强的远程模型
常规代码修改	成本更低的模型
标题生成、探测类请求	本地拦截
离线或隐私敏感任务	本地模型

启动方式通常是先运行代理，再把 Claude Code 的请求地址指向本地服务：

# 示例：实际端口和变量名以项目配置为准
export ANTHROPIC_BASE_URL=http://localhost:8080

这个方案适合想统一管理模型成本、尝试不同模型后端、或把一部分请求放到本地推理的人。需要注意两点：一是代理层会成为新的稳定性依赖；二是接入方式要确认符合相关服务的使用条款和团队合规要求。

4. context-mode：把 AI 编程会话从“半小时上下文满”拉长

开源地址： https://github.com/mksglu/context-mode

AI 编码工具最大的限制之一是上下文窗口。模型一开始能记住当前任务、改过哪些文件、用户做过什么决策，但会话变长后，上下文会被压缩，很多细节就丢了。

Context Mode 的做法是把工具输出、文件编辑、Git 操作、任务状态和用户决策沉淀到本地存储里，再通过搜索把需要的内容取回来。

flowchart TB
    A[AI 编码工具] --> B[Context Mode]

    B --> C[工具输出压缩]
    B --> D[(SQLite)]
    D --> E[FTS5 全文索引]
    D --> F[BM25 排序]

    B --> G[文件编辑记录]
    B --> H[Git 操作记录]
    B --> I[任务状态]
    B --> J[用户决策]

    E --> K[恢复相关上下文]
    F --> K
    K --> A

这里涉及两个检索概念：

FTS5：SQLite 内置全文搜索能力，适合在本地做轻量索引。
BM25：经典文本相关性排序算法，常用于搜索引擎结果排序。

它的压缩效果主要来自“不要把原始大块输出直接塞给模型”。例如浏览器快照、GitHub Issue 页面这类内容可能几十 KB，但真正有用的信息只是一小部分。Context Mode 会把这些信息结构化存储，后续需要时再检索。

支持的平台包括 Claude Code、Gemini CLI、VS Code Copilot、Cursor、OpenCode 和 Codex CLI。适合长时间编码会话、复杂重构、跨文件调试这类任务；如果只是让 AI 写一个独立函数，它的收益不会太明显。

5. claude-context：给代码库装语义搜索

开源地址： https://github.com/zilliztech/claude-context

大代码库里使用 AI 编程时，经常出现一个问题：模型不知道相关代码在哪里，只能反复 grep、打开目录、猜文件名。这样既消耗 Token，也容易漏掉关键实现。

Claude Context 是一个 MCP（Model Context Protocol，模型上下文协议）插件，用混合检索帮 AI 快速定位代码。它结合了两类搜索方式：

检索方式	擅长什么
BM25	关键词匹配，例如函数名、类名、错误码
稠密向量检索	语义匹配，例如“用户认证逻辑在哪里”

混合检索的流程可以表示为：

flowchart LR
    Q[自然语言查询] --> A[关键词检索 BM25]
    Q --> B[向量检索]

    A --> C[候选代码片段]
    B --> C

    C --> D[结果融合与排序]
    D --> E[返回文件位置和代码片段]

它还支持增量索引，只重新索引发生变化的文件。对于每天频繁改动的大型仓库，这一点很关键，因为全量索引会拖慢开发流程。

适合场景：

场景	说明
大型单体仓库	AI 能更快找到相关模块
多语言项目	语义检索比单纯文件名搜索更稳
Token 成本敏感	不需要把整个目录丢进上下文
小脚本项目	收益有限，直接打开文件更快

6. GenericAgent：用少量原子工具控制整台电脑

开源地址： https://github.com/lsdefine/GenericAgent

GenericAgent 的定位不是单纯聊天，也不是只写代码，而是让 Agent 能操作真实计算机环境。它通过浏览器、终端、文件系统、键鼠输入、屏幕视觉和 Android ADB（Android Debug Bridge，安卓调试桥）等工具完成任务。

它的关键设计是把复杂任务拆成少量“原子能力”：

flowchart TB
    A[任务目标] --> B[规划器]

    B --> C[浏览器操作]
    B --> D[终端命令]
    B --> E[文件系统]
    B --> F[键盘鼠标]
    B --> G[屏幕视觉]
    B --> H[ADB 手机控制]

    C --> I[任务结果]
    D --> I
    E --> I
    F --> I
    G --> I
    H --> I

    I --> J[沉淀 Skill]
    J --> B

它还有两个设计点：

设计	作用
Skill 自我沉淀	完成新任务后，把过程转成可复用技能
多层记忆结构	用较小上下文窗口维持任务状态

它使用真实浏览器而不是纯无头浏览器，这意味着可以保留登录状态，适合需要访问已登录 Web 系统的任务。不过，能控制整台电脑也意味着权限风险更高，必须放在隔离环境里运行，避免 Agent 误操作真实账号、生产系统或敏感文件。

7. Thunderbolt：面向隐私和私有化部署的 AI 聊天客户端

开源地址： https://github.com/thunderbird/thunderbolt

Thunderbolt 是 Thunderbird 团队做的 AI 聊天客户端，基于 Tauri 构建，目标是覆盖 Web、macOS、Linux、Windows、Android 和 iOS。

它解决的问题不是“再做一个聊天框”，而是让用户或团队掌握模型和数据：

能力	价值
支持远程前沿模型	适合追求模型能力的场景
支持 Ollama 本地模型	数据可以留在本机
支持私有化部署	企业可以放进内网
跨平台客户端	降低团队多设备使用成本
Docker Compose / Kubernetes	方便服务端部署

企业功能方向包括 OIDC（OpenID Connect，身份认证协议）、端到端加密、跨设备同步、Google 和 Microsoft 集成，以及 MCP 支持。

适合对隐私、账号体系、部署边界有要求的团队；如果只是个人偶尔问答，直接使用现成模型网页端会更省事。

8. OpenSRE：把 AI 接进生产事故调查流程

开源地址： https://github.com/Tracer-Cloud/opensre

OpenSRE 是一个 AI SRE（Site Reliability Engineering，站点可靠性工程）Agent 框架，用来自动化生产事故调查和响应。

典型流程如下：

sequenceDiagram
    participant Alert as 告警系统
    participant SRE as OpenSRE
    participant Logs as 日志平台
    participant Metrics as 指标系统
    participant Traces as 链路追踪
    participant LLM as 大语言模型
    participant Chat as Slack/PagerDuty

    Alert->>SRE: 触发告警
    SRE->>Logs: 拉取相关日志
    SRE->>Metrics: 查询指标变化
    SRE->>Traces: 获取请求链路
    SRE->>LLM: 汇总上下文并分析
    LLM-->>SRE: 根因假设与证据链
    SRE->>Chat: 推送调查报告

它集成的对象包括：

类型	示例
大语言模型	Anthropic、OpenAI、Ollama
监控平台	Grafana、Datadog、Honeycomb、CloudWatch、Sentry
基础设施	Kubernetes、AWS、GCP、Azure
协作系统	Slack、PagerDuty

这类工具的价值在于缩短事故初期的信息收集时间。人仍然需要判断根因是否成立，尤其是涉及回滚、扩容、数据修复这类操作时，不应该让 Agent 直接做高风险变更。

它还提供 RCA（Root Cause Analysis，根因分析）测试套件，可以用合成事故评估 Agent 的排障能力。当前阶段更适合实验环境、内部平台集成和低风险辅助分析。

9. ArcKit：把企业架构治理做成 AI 辅助工作流

开源地址： https://github.com/tractorjuice/arc-kit

ArcKit 面向企业架构治理。很多团队的架构工作散落在文档、会议纪要、需求评审和合规表格里，ArcKit 试图把这些活动变成可执行的 AI 工作流。

它覆盖的内容包括：

领域	示例
架构原则	定义系统设计约束和决策边界
利益相关者分析	梳理业务、技术、合规相关方
风险管理	识别技术风险、供应商风险、交付风险
商业案例	解释为什么要投入某项架构改造
需求文档	生成更结构化的需求说明
数据建模	协助整理实体、关系和数据流
合规	包括 GDPR（通用数据保护条例）相关考虑

它内置多个命令和自主研究 Agent，覆盖 Wardley Mapping 战略规划、供应商 RFP（Request for Proposal，招标请求）管理、正式设计评审等流程，同时支持 Claude Code、Gemini CLI、GitHub Copilot 和 Codex CLI。

它更适合中大型组织里的架构团队、平台团队和技术管理团队。对于小团队而言，完整治理流程可能偏重，可以只借鉴其中的设计评审、风险分析和决策记录模板。

10. hackingtool：安全工具集合与快速安装入口

开源地址： https://github.com/Z4nzu/hackingtool

hackingtool 是一个安全工具集合，集成了 185 个以上工具，覆盖信息收集、Web 漏洞测试、无线安全、后渗透、取证、逆向工程、云安全和移动安全等类别。

它的价值主要是把分散工具整理到统一入口里：

类别	常见用途
信息收集	域名、IP、端口、服务探测
SQL 注入测试	验证数据库注入风险
XSS 测试	检测跨站脚本问题
取证	分析日志、磁盘、内存或文件痕迹
逆向工程	分析二进制或移动应用
云安全	检查云资源配置风险
移动安全	分析 Android/iOS 应用安全问题

它还提供搜索能力，可以根据关键词找到对应工具，并支持 Docker 部署和分类批量安装。

这类工具只能用于授权范围内的安全测试，例如自己的系统、公司批准的渗透测试环境、靶场或 CTF。不要把它当成自动攻击平台放到公网环境里随意使用，否则会带来法律和合规风险。

11. Open-Generative-AI：多模型图像和视频生成工作台

开源地址： https://github.com/Anil-matcha/Open-Generative-AI

Open-Generative-AI 是一个面向创意工作流的生成式 AI 工作台，集成了大量图像和视频模型，覆盖文生图、图生图、文生视频、图生视频和唇形同步等任务。

它的功能可以按工作流拆开：

flowchart LR
    A[输入] --> B{任务类型}

    B --> C[文生图]
    B --> D[图生图]
    B --> E[文生视频]
    B --> F[图生视频]
    B --> G[唇形同步]

    C --> H[模型选择]
    D --> H
    E --> H
    F --> H
    G --> H

    H --> I[本地推理或远程服务]
    I --> J[生成结果]

它支持的模型覆盖 Flux、Kling、Sora、Veo，以及本地推理模型如 Z-Image Turbo、Dreamshaper、SDXL 等。部署方式包括 Web 版、本地运行和桌面客户端，桌面端覆盖 macOS、Windows、Linux，并支持 Apple Silicon 的 Metal GPU 加速。

需要特别注意内容安全边界。生成式图像和视频工具如果缺少严格审核机制，不适合直接开放给没有权限管理和内容审查流程的公共产品。企业内部使用时也应明确版权、肖像权、数据来源和输出审核规则。

12. DeepGEMM：面向大模型推理和训练的 CUDA 内核库

开源地址： https://github.com/deepseek-ai/DeepGEMM

DeepGEMM 是 DeepSeek 开源的底层计算内核库，面向大模型里的高性能矩阵计算。它不是上层推理框架，而是更靠近 GPU（图形处理器）执行层的 CUDA（NVIDIA 的并行计算平台）代码库。

它覆盖的大模型计算原语包括：

计算类型	用途
FP8 / FP4 / BF16 GEMM	低精度矩阵乘法，影响模型推理和训练吞吐
MoE 融合	优化混合专家模型的专家分发和计算
MQA 评分	优化多查询注意力相关计算
JIT 编译	运行时生成适配当前形状和硬件的内核

Mega MoE 融合内核是它的重点能力之一。传统 MoE（Mixture of Experts，混合专家）计算通常包含多步：专家并行分发、线性计算、激活函数、专家并行合并。DeepGEMM 将这些步骤融合到一个 mega-kernel 里，让通信和计算尽量重叠。

flowchart LR
    A[Token 输入] --> B[EP 分发]
    B --> C[专家线性计算]
    C --> D[SwiGLU 激活]
    D --> E[EP 合并]
    E --> F[输出]

    subgraph DeepGEMM Mega Kernel
        B
        C
        D
        E
    end

它对硬件要求较高，需要 NVIDIA H100、H800、B200 等 SM90 以上 GPU。对于普通应用开发者，它可能不会直接进入业务代码；对于做大模型训练、推理引擎、低精度计算优化和 MoE 系统的人，它属于底层性能工具。

13. android-reverse-engineering-skill：用 Claude Code 辅助 Android 逆向分析

开源地址： https://github.com/SimoneAvogadro/android-reverse-engineering-skill

这个项目是 Claude Code 的 Android 逆向分析插件，输入 APK、XAPK、JAR 或 AAR 文件后，使用 jadx 和 Fernflower 进行反编译，并让 AI 协助整理代码结构、网络接口和调用链。

典型分析流程如下：

flowchart TB
    A[APK / XAPK / JAR / AAR] --> B[反编译]

    B --> C[jadx]
    B --> D[Fernflower]

    C --> E[Java/Kotlin 代码]
    D --> E

    E --> F[识别 Retrofit 端点]
    E --> G[识别 OkHttp 调用]
    E --> H[提取硬编码 URL]
    E --> I[分析认证模式和 Token]
    E --> J[调用链追踪]

    J --> K[Activities / Fragments]
    K --> L[ViewModels]
    L --> M[Repositories]
    M --> N[HTTP 调用层]

它适合没有源码但需要快速理解 App 网络接口的场景，例如：

场景	说明
企业内部安全审计	分析自家 App 是否暴露敏感接口或硬编码密钥
供应链安全检查	检查第三方 SDK 或交付包行为
兼容性排查	理解旧版本 App 的接口调用方式
教学和靶场	学习 Android 反编译与调用链分析

使用前需要准备 Java JDK 17 以上和 jadx CLI。逆向分析必须限定在有授权的应用、自己的应用或合法测试环境中，不能用于窃取接口、绕过认证或侵犯他人软件权益。

选型速查表

不同项目解决的问题不一样，放在同一张表里更容易判断优先级。

项目	解决的问题	适合场景	主要限制
andrej-karpathy-skills	约束 Claude Code 编码行为	AI 经常乱改代码、团队需要统一规则	只是一份规则，不提供检索和执行能力
OpenAI Agents SDK	构建多 Agent 协作流程	客服、数据分析、工具调用、工作流编排	需要设计 Agent 边界和安全策略
free-claude-code	通过代理路由模型请求	控制模型成本、接入本地模型	代理稳定性和合规要求要确认
context-mode	延长 AI 编码上下文	长会话重构、跨文件调试	短任务收益不明显
claude-context	代码库语义搜索	大仓库、跨模块定位代码	需要建立和维护索引
GenericAgent	控制真实计算机环境	浏览器自动化、终端任务、复杂桌面操作	权限风险高，建议沙箱运行
Thunderbolt	私有化 AI 聊天客户端	企业内网、隐私敏感团队	需要部署和账号体系规划
OpenSRE	自动化事故调查	日志、指标、链路追踪关联分析	不能替代人工决策
ArcKit	企业架构治理工作流	架构评审、风险分析、供应商管理	小团队可能感觉流程偏重
hackingtool	安全工具集合	授权渗透测试、靶场、审计	必须限定合法授权范围
Open-Generative-AI	图像和视频生成工作台	创意制作、本地模型实验	内容安全和版权边界要自建
DeepGEMM	大模型底层计算优化	推理引擎、训练框架、MoE 优化	依赖高端 NVIDIA GPU
android-reverse-engineering-skill	Android 逆向辅助分析	App 安全审计、接口梳理	需要授权和逆向基础

如果只想改善日常 AI 编码体验，可以从 CLAUDE.md 规则、代码库语义搜索和上下文压缩这三类工具开始。要做复杂自动化，再考虑 Agent 框架、桌面控制和 SRE Agent。涉及安全、逆向、生成式媒体和 GPU 内核优化的项目，门槛和风险都更高，更适合有明确技术目标和边界约束的团队。

菜单