AI Agent 测评体系设计：从评分器、用例集到工程落地

AI Agent 从演示走向生产，需要一套可重复、可量化、可回归的测评体系。围绕评分器选择、测评维度、用例设计、基线管理、稳定性评估和流水线落地，系统讲清如何搭建 Agent 与 Skill 的工程化测评方案。

发布于 2026-06-16