Codex Record & Replay 可以把一次桌面操作演示沉淀为可复用 skill,用于后续自动执行类似任务。内容围绕工作原理、启用步骤、Computer Use 等底层能力、适用边界和安全注意事项展开。
Loop Engineering 是一种面向 Agent 的闭环工程方法,把开发、测试、验收、反馈和迭代设计成可自动运行的流程。它不是简单的 Agent 内部循环,而是让 Agent 在更上层的任务闭环里持续逼近目标。
Harness 工作流由 Prompt、规则、技能和模型共同决定,行为天然不稳定,不能只靠体感判断好坏。通过题库、考官、裁判、执行引擎和结果归因,可以建立一套可重复、可回归、可驱动改进的评测闭环。
Loop Engineering 是在单次 AI Agent 运行之上设计自动循环,让系统能够发现任务、生成方案、验证结果、记录状态并决定下一步。核心不是写更长的提示词,而是搭建一个能持续推进任务、可验证、可恢复的 Agent 工作流。
AI 编程工具的一次调用不只包含用户输入,还会带上系统指令、工具定义、配置规则和历史消息。掌握 Token 计费、缓存命中、配置加载和会话管理方式,可以显著减少重复消耗。
AI Agent 从演示走向生产,需要一套可重复、可量化、可回归的测评体系。围绕评分器选择、测评维度、用例设计、基线管理、稳定性评估和流水线落地,系统讲清如何搭建 Agent 与 Skill 的工程化测评方案。
我会把素材改成一篇独立的开源工具导览,保留能支撑技术理解的结果图和界面图,去掉 GIF、WebP 和推广尾巴。正文会用表格与 Mermaid 补足流程和适用场景,而不是按原素材逐段复述。--- title: 用 4 个 GitHub 项目理解 AI Agent 工作流的成本、并行与提示词 date:
Agent Loop 的重点不是写一段更长的 Prompt,而是设计目标、上下文、工具、记忆、反馈和停止条件组成的执行循环。这里系统讲清 Agent Loop 的核心结构、多 Agent 编排方式、治理层设计,以及实际落地时最容易踩的坑。
Agent Loop 是让大语言模型从一次性文本生成器变成自主行动者的核心结构。围绕感知、推理、规划、行动、观察的循环机制,可以构建能使用工具、处理错误、控制成本并按条件停止的生产级 AI Agent。
后端系统要让 AI Agent 安全参与开发、排障和发布,关键是把架构、服务、领域、接口、数据和运行态知识结构化,并用 Harness、测试、权限和 CI/CD 把自动化变成可验证流程。