Codex Record & Replay:把桌面操作录成可复用 Skill

Codex Record & Replay 可以把一次桌面操作演示沉淀为可复用 skill,用于后续自动执行类似任务。内容围绕工作原理、启用步骤、Computer Use 等底层能力、适用边界和安全注意事项展开。

发布于 2026-06-19

Loop Engineering:让 Agent 自己完成开发、验证与迭代

Loop Engineering 是一种面向 Agent 的闭环工程方法,把开发、测试、验收、反馈和迭代设计成可自动运行的流程。它不是简单的 Agent 内部循环,而是让 Agent 在更上层的任务闭环里持续逼近目标。

发布于 2026-06-18

Harness 工作流评测系统:用考试机制量化 Agent 质量

Harness 工作流由 Prompt、规则、技能和模型共同决定,行为天然不稳定,不能只靠体感判断好坏。通过题库、考官、裁判、执行引擎和结果归因,可以建立一套可重复、可回归、可驱动改进的评测闭环。

发布于 2026-06-18

Loop Engineering:让 AI Agent 自己推进任务的循环系统

Loop Engineering 是在单次 AI Agent 运行之上设计自动循环,让系统能够发现任务、生成方案、验证结果、记录状态并决定下一步。核心不是写更长的提示词,而是搭建一个能持续推进任务、可验证、可恢复的 Agent 工作流。

发布于 2026-06-17

AI 编程工具的 Token 成本机制:缓存、配置与对话策略

AI 编程工具的一次调用不只包含用户输入,还会带上系统指令、工具定义、配置规则和历史消息。掌握 Token 计费、缓存命中、配置加载和会话管理方式,可以显著减少重复消耗。

发布于 2026-06-17

AI Agent 测评体系设计:从评分器、用例集到工程落地

AI Agent 从演示走向生产,需要一套可重复、可量化、可回归的测评体系。围绕评分器选择、测评维度、用例设计、基线管理、稳定性评估和流水线落地,系统讲清如何搭建 Agent 与 Skill 的工程化测评方案。

发布于 2026-06-16

4 个比较实用的 GitHub 开源项目,浅浅的收藏一波。

我会把素材改成一篇独立的开源工具导览,保留能支撑技术理解的结果图和界面图,去掉 GIF、WebP 和推广尾巴。正文会用表格与 Mermaid 补足流程和适用场景,而不是按原素材逐段复述。--- title: 用 4 个 GitHub 项目理解 AI Agent 工作流的成本、并行与提示词 date:

发布于 2026-06-16

从 Prompt 到 Agent Loop:让 AI Agent 稳定工作的循环设计方法

Agent Loop 的重点不是写一段更长的 Prompt,而是设计目标、上下文、工具、记忆、反馈和停止条件组成的执行循环。这里系统讲清 Agent Loop 的核心结构、多 Agent 编排方式、治理层设计,以及实际落地时最容易踩的坑。

发布于 2026-06-16

Agent Loop 工程化:让 AI Agent 自主执行又能及时停下

Agent Loop 是让大语言模型从一次性文本生成器变成自主行动者的核心结构。围绕感知、推理、规划、行动、观察的循环机制,可以构建能使用工具、处理错误、控制成本并按条件停止的生产级 AI Agent。

发布于 2026-06-16

面向 AI Agent 的后端架构改造:从系统事实到无人值守开发

后端系统要让 AI Agent 安全参与开发、排障和发布,关键是把架构、服务、领域、接口、数据和运行态知识结构化,并用 Harness、测试、权限和 CI/CD 把自动化变成可验证流程。

发布于 2026-06-15