Harness 工作流评测系统:用考试机制量化 Agent 质量

Harness 工作流由 Prompt、规则、技能和模型共同决定,行为天然不稳定,不能只靠体感判断好坏。通过题库、考官、裁判、执行引擎和结果归因,可以建立一套可重复、可回归、可驱动改进的评测闭环。

发布于 2026-06-18

AI 编程工具的 Token 成本机制:缓存、配置与对话策略

AI 编程工具的一次调用不只包含用户输入,还会带上系统指令、工具定义、配置规则和历史消息。掌握 Token 计费、缓存命中、配置加载和会话管理方式,可以显著减少重复消耗。

发布于 2026-06-17

用鲁班 Skill 把 Claude Skill 从自用脚本打磨成可发布工具

鲁班 Skill 是一个用于升级 Claude Skill 的元工作流:它不只润色 SKILL.md,而是从定位、竞品分析、评分、候选改写、验证闭环几个阶段,把一个能自用的 Skill 打磨成别人能理解、愿意安装、可以复现结果的公开工具。

发布于 2026-06-11