文本大模型评测，本质上是在给 LLM（Large Language Model，大语言模型）建立一套“考试体系”。

模型能不能理解问题，回答是否准确，遇到敏感问题会不会越界，在真实业务流程里能不能完成任务，都不能只靠几次人工试用来判断。评测的价值，就是把这些能力拆成可观察、可计算、可复盘的指标，再用稳定的数据集和评测流程持续衡量模型表现。

一套完整的大模型应用闭环通常长这样：

flowchart LR
    A[业务数据与知识沉淀] --> B[模型设计、训练或提示词优化]
    B --> C[能力评测]
    C -->|通过准入标准| D[上线]
    C -->|发现问题| E[数据补充 / 策略调整 / 模型迭代]
    E --> B
    D --> F[线上运营与反馈]
    F --> A

评测在这里不是上线前的一次性验收，而是贯穿模型迭代、版本回归、风险控制和业务优化的基础设施。没有评测，模型升级就只能依赖主观感觉；有了评测，才能回答三个关键问题：

问题	对应评测价值
模型能做什么？	明确能力边界
模型不能做什么？	暴露短板与风险
新版本是否真的更好？	支撑版本对比和上线决策

1. 大模型评测要先分清三类能力

文本大模型评测最容易混乱的地方，是把“通用能力强”直接等同于“业务可用”。实际上，通用能力、领域能力、场景能力是三层不同的考察对象。

flowchart TB
    A[文本大模型能力评测] --> B[通用能力]
    A --> C[领域能力]
    A --> D[场景能力]

    B --> B1[语言理解]
    B --> B2[知识问答]
    B --> B3[逻辑推理]
    B --> B4[数学与代码]
    B --> B5[基础安全]

    C --> C1[医疗]
    C --> C2[金融]
    C --> C3[法律]
    C --> C4[教育]
    C --> C5[货运等垂直行业]

    D --> D1[客服]
    D --> D2[营销邀约]
    D --> D3[数据分析]
    D --> D4[办公助手]
    D --> D5[业务流程自动化]

1.1 通用能力：判断模型有没有基础能力

通用能力评测不依赖某个具体行业，主要考察模型的基础认知能力，例如语言理解、常识知识、推理、数学、代码生成、多轮对话和安全拒答。

MMLU Pro 这类 Benchmark（基准测试）就是典型代表。它通过标准化题目、统一评分规则和公开榜单，衡量模型在多学科任务上的表现。

通用能力评测的典型流程如下：

flowchart LR
    A[标准评测集] --> B[模型答题]
    B --> C[自动判分]
    B --> D[人工抽检或主观打分]
    C --> E[指标汇总]
    D --> E
    E --> F[模型排名 / 能力报告]

通用能力适合回答“这个模型底座是否足够强”，但它无法直接证明模型适合某个行业。一个模型在通用榜单上分数很高，仍然可能在医疗、金融、法律或货运场景中频繁犯错。

1.2 领域能力：判断模型懂不懂行业知识

领域能力评测关注模型对垂直行业的适配性。行业知识、专业术语、合规要求、业务规则都会进入评测范围。

比如医学领域的 CliMedBench，包含数万条中文医学评测样本，覆盖多个临床场景，用来评估模型在医学知识、临床推理和实际可用性方面的能力。

领域能力评测通常比通用评测多出三类要求：

要求	说明
行业知识准确	不能把专业概念讲错，不能编造不存在的规则
合规边界清晰	金融、医疗、法律等领域对风险回答要求更高
贴近真实任务	题目不只考知识点，还要模拟实际业务问题

领域能力评测解决的是“通用模型是否能进入专业行业”的问题。如果没有这一步，模型很容易出现“榜单高分、行业低能”的情况。

1.3 场景能力：判断模型能不能完成业务任务

场景能力评测最接近业务落地。它不只看模型答得对不对，还要看模型能不能在真实交互中推动任务完成。

例如客服场景要看一解率、用户问题识别、投诉风险控制；营销邀约场景要看身份确认、需求挖掘、异议处理、到店预约完成率；数据分析场景要看 SQL 生成准确率、指标解释能力和数据口径一致性。

场景能力有两个特点：

特点	解释
任务闭环化	不是单轮问答，而是围绕一个业务目标完成多轮交互
交互真实化	用户可能打断、含糊表达、反复追问，也可能提出无关或高风险问题

通用能力和领域能力更像“知识考试”，场景能力更像“岗位实操”。模型真正进入业务系统前，必须经过场景能力评测。

2. 评测方案的核心：维度、指标、评测集、评测方式

一套可落地的大模型评测方案，需要把三个问题讲清楚：

问题	对应设计
考察什么能力？	评测维度
用什么量化标准判断好坏？	评测指标
用什么样本测试？	评测集
谁来打分，怎么打分？	评测方式

整体链路可以抽象成下面的流程：

flowchart LR
    A[明确业务目标] --> B[拆解评测维度]
    B --> C[定义指标和口径]
    C --> D[构建评测集]
    D --> E[选择评测方式]
    E --> F[执行评测]
    F --> G[生成报告]
    G --> H[定位问题并迭代]

2.1 评测维度：相当于考试大纲

评测维度决定“模型在哪些方面要被考察”。不同层级的评测，维度会有明显差异。

能力层级	常见评测维度
通用能力	语言理解、知识问答、逻辑推理、数学、代码、指令遵循、安全拒答
领域能力	专业知识、行业推理、合规要求、术语理解、专业任务完成
场景能力	任务完成率、流程遵循、对话体验、业务准确性、风险控制、用户意图识别

近几年评测体系有一个明显变化：传统自动指标的占比在下降，任务相关指标和人工指标的占比在上升。

原因很直接。BLEU、ROUGE 这类传统文本相似度指标，可以衡量生成文本和参考答案在字面上的接近程度，但无法完整判断业务回答是否真的有用。比如客服回答可能和标准答案用词不同，但解决了用户问题；也可能文字很相似，却遗漏了关键风险提示。

所以，业务场景更常使用“指标组合”：

指标类型	示例	说明
客观指标	选择题准确率、代码通过率、数学答案正确率	可自动计算
主观指标	回答有用性、表达自然度、用户体验	需要人工或裁判模型判断
安全指标	红线触及率、违规建议率、敏感信息泄露率	通常设置为强约束
业务指标	邀约成功率、一解率、转化率、任务完成率	和业务目标直接相关

2.2 评测指标：必须有明确计算口径

指标不能只写名称，还要定义清楚分母、分子和判定标准。否则不同评测人员会按不同理解打分，结果无法复现。

以对话类业务为例，指标可以这样定义：

一级指标	二级指标	计算口径
合规性	红线触及率	触及安全、舆情、声誉风险的会话数 / 总评测会话数
会话效果	会话准确率	回答准确的会话数 / 总评测会话数
会话效果	事实性回答准确率	事实类问题回答准确数 / 事实类问题总数
会话效果	引导回答率	符合业务逻辑的引导回答数 / 引导类会话数
流程遵循	身份完成率	完成身份介绍或身份确认的会话数 / 总评测会话数
流程遵循	任务完成率	成功完成目标任务的会话数 / 总评测会话数
体验质量	语音回答流畅度	不流畅会话数 / 总评测会话数

安全类指标通常不能和普通效果指标简单加权。比如某个模型会话准确率从 93% 提升到 95%，但红线触及率从 0% 上升到 2%，这个版本就不能只看平均分。对高风险业务来说，红线指标应该作为上线门槛，而不是普通扣分项。

3. 评测集：模型考试里的“试卷”

评测集决定了模型会被什么问题考察。评测集质量不高，后面的打分再精细也没有意义。

3.1 三类评测集

评测集类型	核心用途	示例方向
通用能力评测集	衡量基础认知能力	MMLU、MMLU Pro、C-Eval、SuperCLUE
领域评测集	衡量行业适配能力	医疗、金融、法律、教育、工程等专业评测集
场景评测集	衡量真实任务完成能力	客服、营销、数据分析、办公、安全红队测试

通用评测集更适合横向比较模型底座；领域评测集更适合判断模型能不能进入某个行业；场景评测集更适合支撑版本迭代和业务上线。

3.2 评测集构建方式：人工主导，模型辅助

高质量评测集仍然离不开人，尤其是领域专家。专家负责定义任务边界、审核答案质量、设计难例和风险样本。模型可以参与数据扩写、问题改写、标签预标注、相似题生成，但不能完全替代人工审核。

常见构建流程如下：

flowchart LR
    A[收集真实问题或业务日志] --> B[脱敏与清洗]
    B --> C[任务分类与难度分层]
    C --> D[人工编写或模型辅助生成题目]
    D --> E[专家审核答案与标签]
    E --> F[去重与泄漏检查]
    F --> G[抽样试测]
    G --> H[形成稳定评测集]

评测集构建要特别注意三个问题：

问题	风险
数据泄漏	模型训练阶段见过评测题，分数虚高
样本分布失真	评测集和真实业务差异太大，上线后效果不稳定
只覆盖常规问题	模型在简单问题上高分，但遇到边界情况和风险问题失控

3.3 动态评测集：用扰动和推理图生成新题

静态 Benchmark 用久了会被“刷榜”或过拟合，所以动态生成评测数据越来越重要。DARG（Dynamic Evaluation of LLMs via Adaptive Reasoning Graph Evolvement，基于自适应推理图的大模型动态评估框架）是一种典型思路。

它不是简单改写题干，而是从推理结构入手生成新问题：

flowchart LR
    A[已有评测题] --> B[抽取推理链路]
    B --> C[构建推理图]
    C --> D[调整复杂度或约束条件]
    D --> E[生成新问题]
    E --> F[校验答案正确性]
    F --> G[加入动态评测集]

这种方法的优势是可以保持题目能力点不变，同时改变表述、条件和推理复杂度，让评测更难被模型记忆。

4. 评测方式：人工、人机协同、机器自动化

评测方式决定“谁来阅卷”。文本大模型输出开放、多样、上下文相关，很难只靠一个统一公式打分，因此实际工程中通常混合使用三类方式。

4.1 人工评测：可靠但成本高

人工评测适合主观性强、语境复杂、风险高的任务。比如多轮客服对话是否真正解决问题，营销话术是否合规，长文本总结是否遗漏关键信息，都需要人工判断。

人工评测有两种常见形态。

一种是系统性评测：

flowchart LR
    A[确定评测规则] --> B[培训评测人员]
    B --> C[分发样本]
    C --> D[独立打分]
    D --> E[一致性检查]
    E --> F[仲裁分歧]
    F --> G[输出结果]

另一种是竞技场评测。多个模型回答同一个问题，用户或评审者投票选择更好的答案，再通过统计方法形成排名。

sequenceDiagram
    participant U as 评审者
    participant S as 评测系统
    participant M1 as 模型A
    participant M2 as 模型B

    U->>S: 提交同一个问题
    S->>M1: 请求回答
    S->>M2: 请求回答
    M1-->>S: 返回答案A
    M2-->>S: 返回答案B
    S-->>U: 隐去模型名展示两个答案
    U->>S: 投票选择更优答案
    S->>S: 更新统计排名

人工评测的主要问题是成本高、周期长，而且不同评测人员的尺度可能不一致。工程上通常需要双人标注、抽样复核和一致性统计来控制质量。

4.2 人机协同评测：当前更适合业务落地

人机协同评测的核心是“人工定义标准，模型负责批量初评，人工复核关键样本”。这类模式适合样本量大、评测规则相对稳定、但仍需要质量控制的业务场景。

LLM-as-a-Judge（用大模型充当裁判）是常见实现方式。裁判模型会根据评分标准，对候选模型的回答进行打分、分类或给出原因。

flowchart LR
    A[评测样本] --> B[待测模型生成回答]
    B --> C[裁判模型按规则打分]
    C --> D[异常样本筛选]
    D --> E[人工复核]
    E --> F[修正评分规则]
    F --> C
    C --> G[指标统计与报告]

一个裁判模型评分规则可以写成结构化配置，便于版本管理和复现：

metric: fact_accuracy
score_range: [0, 1]
definition: 判断回答中的事实信息是否与标准答案和业务知识一致
judge_instruction:
  - 如果回答完全正确，记为 1
  - 如果回答包含错误事实、虚构政策或错误地址，记为 0
  - 如果回答避开问题但未提供有效信息，记为 0
evidence_required: true
human_review:
  trigger:
    - judge_confidence < 0.8
    - contains_risk_keyword == true

裁判模型不能无条件信任。它可能偏好更长的回答，也可能被候选答案中的自信表达误导。比较稳妥的做法是：

控制手段	作用
固定裁判模型版本	避免评测结果因裁判模型升级而漂移
使用明确评分 Rubric	降低自由裁量空间
引入黄金样本校准	检查裁判模型是否偏离人工标准
高风险样本人工复核	防止安全问题漏判
定期做一致性评估	衡量裁判模型和人工判断的一致程度

4.3 机器自动化评测：快，但适用范围有限

机器自动化评测不依赖人工打分，适合答案客观、判定规则清晰的任务。

典型场景包括：

场景	自动评测方式
选择题	比较选项是否正确
数学题	验证最终答案或推导结果
代码题	执行单元测试
信息抽取	比较结构化字段
SQL 生成	执行 SQL 并比较结果集

流程通常很简单：

flowchart LR
    A[固定评测集] --> B[模型生成答案]
    B --> C[规则或程序判分]
    C --> D[计算准确率、通过率等指标]

新的自动化方向开始引入 Agent（智能体）评测。Agent 不只是回答一句话，而是会调用工具、执行计划、访问外部系统并完成任务。评测系统要检查的不再只是最终文本，还包括中间动作是否合理、工具调用是否正确、任务是否完成。

flowchart LR
    A[任务输入] --> B[Agent规划]
    B --> C[工具调用]
    C --> D[中间结果校验]
    D --> E[最终输出]
    E --> F[自动评测引擎]
    F --> G[人工抽检异常案例]
    F --> H[生成指标报告]

不同评测方式的适用范围可以这样选：

评测方式	优点	缺点	适用场景
人工评测	可靠性高，接近真实用户偏好，能处理复杂语境	成本高，周期长，一致性需要控制	主观性强、样本量小、风险高、缺少成熟指标的任务
人机协同评测	成本和质量比较平衡，可批量评测并保留人工把关	需要校准裁判模型，规则建设成本较高	业务评测、对话评测、客服和营销类场景
机器自动化评测	快、稳定、可重复	难处理开放式回答和复杂语境	选择题、代码、数学、结构化抽取、可验证任务

5. 货运邀约场景中的半自动评测实践

业务场景评测和通用 Benchmark 最大的区别，是要把模型放进具体任务里看表现。以货运司机邀约为例，AI 邀约员需要和司机进行多轮沟通，确认意向、解释规则、处理异议，并推动司机完成到店激活或预约。

这类场景不是简单问答，至少包含四类能力：

能力	例子
事实回答	门店地址、激活流程、所需材料、车型要求
业务引导	引导司机预约到店，解释激活后的接单收益
异议处理	司机没时间、不清楚流程、担心成本
合规安全	不能夸大收益，不能承诺不确定政策，不能触发声誉风险

5.1 评测集构建：真实数据和模拟数据混合

真实业务数据能反映用户表达习惯，但覆盖不一定完整；模拟数据可以主动覆盖边界场景和难例，但需要控制真实性。比较稳的做法是混合构建。

flowchart LR
    A[真实对话日志] --> B[脱敏清洗]
    B --> C[提取用户诉求和话术特征]
    C --> D[构造模拟用户人设]
    D --> E[生成模拟多轮对话]
    E --> F[人工审核与修正]
    B --> G[真实样本抽样]
    F --> H[最终评测集]
    G --> H

模拟用户人设不能只写一句“用户很着急”。它应该包含背景、诉求、表达风格和对话轮数等信息。

字段	示例
背景信息	已注册但还没有到门店激活
核心诉求	想确认自己的车型是否能加入平台
表达风格	口语化、会重复、对流程不熟
可能异议	没时间到店、想先知道门店地址、担心手续麻烦
对话轮数	3 到 6 轮

一条评测样本可以结构化保存，方便自动执行：

{
  "case_id": "invite_001",
  "scenario": "driver_invitation",
  "persona": {
    "status": "registered_not_activated",
    "intent": "ask_vehicle_eligibility",
    "style": "oral_repetition",
    "rounds": 5
  },
  "golden_facts": {
    "must_mention": ["到店激活", "携带身份证、驾驶证、行驶证"],
    "must_not_mention": ["保证收入", "虚假优惠"]
  },
  "success_criteria": {
    "task_completed": "用户确认预约或接受后续联系",
    "compliance_required": true
  }
}

5.2 指标体系：效果指标和风险指标分开看

邀约场景的指标不能只看“模型有没有回答”。更关键的是，它是否遵循业务流程、是否完成邀约目标、是否触碰安全红线。

指标类型	指标	计算方式
合规性	红线触及率	触及红线会话数 / 总会话数
会话效果	会话准确率	准确会话数 / 总会话数
事实问答	事实性回答准确率	事实类回答正确数 / 事实类问题数
引导能力	引导回答率	合理引导回答数 / 引导类会话数
主流程	主流程遵循准确率	正确执行主流程节点数 / 应执行节点数
业务结果	任务完成率	完成邀约任务会话数 / 总会话数
体验质量	回答流畅度	流畅会话数 / 总会话数

其中，红线触及率应被设计成强约束。原因是业务模型的错误并不等价：少问一句材料要求，可能只是体验问题；承诺不确定收益或输出不合规内容，则可能带来真实风险。

5.3 评测执行：批量跑样本、裁判初评、人工复核

半自动评测的执行流程可以拆成五步：

flowchart LR
    A[准备评测集] --> B[批量调用待测模型]
    B --> C[保存多轮对话结果]
    C --> D[裁判模型按指标打分]
    D --> E[规则校验与风险扫描]
    E --> F[人工复核抽样和异常样本]
    F --> G[生成版本评测报告]
    G --> H[问题归因与下一轮迭代]

评测报告不应该只给一个总分，而要能定位问题：

报告内容	作用
总体指标	判断版本是否达到准入线
指标变化	对比新旧版本收益和退化
风险样本列表	快速定位安全问题
失败原因分类	区分知识错误、流程错误、表达问题、策略问题
样本明细	支持人工复盘和数据回流

5.4 版本对比：效果提升不代表可以上线

某个版本迭代中，模型表现可能出现下面的变化：

指标类型	指标	基线	优化前	优化后
合规性	红线触及率	0%	0%	2%
会话效果	会话准确率	93%	93%	95%
事实问答	事实性回答准确率	99%	98%	99%
引导能力	引导回答率	94%	95%	96%
主流程	主流程遵循准确率	98%	95%	99%

从普通效果指标看，会话准确率提升了 2 个百分点，主流程遵循准确率提升了 4 个百分点，说明模型在语义理解、流程执行或数据质量上有改善。

但红线触及率从 0% 上升到 2%，这是更值得关注的退化。对业务模型来说，不能把安全风险用平均分掩盖。更合理的决策方式是：

flowchart TD
    A[新版本评测完成] --> B{红线触及率是否为0或低于准入线}
    B -->|否| C[禁止上线，优先修复安全问题]
    B -->|是| D{核心业务指标是否提升}
    D -->|否| E[继续优化，不替换旧版本]
    D -->|是| F[进入灰度验证]
    F --> G[线上监控与回滚预案]

模型评测不是为了证明新版本更好，而是为了判断新版本在哪些方面变好、在哪些方面变差，以及这种变化是否满足上线条件。

6. 评测落地时最容易踩的坑

6.1 只看总分，不看指标结构

总分会掩盖关键问题。一个模型可能因为语言更自然拿到更高总分，但在事实准确率或安全指标上退化。业务评测应该把指标分层：安全指标作为门槛，核心业务指标作为主判断，体验指标作为辅助参考。

6.2 用通用榜单替代业务评测

通用榜单适合筛选模型底座，但不能替代业务评测。客服、邀约、风控、数据分析这些任务都有自己的流程和风险边界，必须使用场景数据单独验证。

6.3 评测集长期不更新

业务话术、政策规则、用户问题都会变化。评测集如果长期不更新，模型可能在旧题上表现稳定，却无法处理新问题。比较好的做法是维护三类集合：

集合	用途
固定回归集	保证版本之间可对比
新增业务集	覆盖近期真实问题
风险难例集	专门测试边界和红线

6.4 裁判模型没有校准

LLM-as-a-Judge 可以提高效率，但必须定期和人工结果对齐。可以维护一批黄金样本，比较裁判模型和人工标注的一致率。一旦一致率下降，就需要调整评分规则或更换裁判模型版本。

6.5 没有把评测结果回流到迭代链路

评测报告如果只停留在分数层面，就很难真正推动模型优化。更有价值的是把失败样本按原因分类，然后分别进入知识库修正、提示词调整、训练数据补充、策略规则更新等环节。

flowchart LR
    A[失败样本] --> B{失败原因}
    B -->|知识错误| C[补充知识库或标准答案]
    B -->|流程错误| D[调整提示词或状态机]
    B -->|合规风险| E[增强安全规则和拒答策略]
    B -->|表达不佳| F[优化话术模板]
    C --> G[重新评测]
    D --> G
    E --> G
    F --> G

7. 一套可复用的大模型评测框架

从通用模型选型到业务上线，可以用一套分层框架组织评测工作：

阶段	目标	主要评测内容
模型初筛	选择候选模型	通用 Benchmark、成本、推理速度、上下文长度
领域验证	判断行业适配性	专业知识、行业规则、合规边界
场景评测	判断业务可用性	多轮任务、流程遵循、业务指标、安全红线
灰度上线	验证线上稳定性	用户反馈、真实转化、风险事件、延迟和成本
持续回归	防止版本退化	固定回归集、新增样本集、风险难例集

评测体系成熟之后，模型迭代会从“凭感觉调参”变成“用数据定位问题”。每次版本升级都能回答清楚：

哪些能力提升了；
哪些指标退化了；
是否触碰上线红线；
问题样本应该回流到哪里；
新版本适合全量上线、灰度验证，还是继续修复。

参考标准与基准

GB/T 45288.2-2025《人工智能大模型第2部分：评测指标与方法》
ITU-T F.748.44：基础模型评估标准与基准测试
NIST：AI TEVV（测试、评估、验证与确认）相关标准草案
中国信通院“可信 AI”评测体系与“方升”基准测试体系
SuperCLUE 中文大模型基准测评框架
FinDABench、FinEval-KR 等金融领域大模型评测基准
MMLU Pro、CliMedBench、M3-SafetyBench、DARG 等公开评测研究与实践方向

菜单

文本大模型评测体系：从能力分层到业务场景落地