NLP / AIGC / 04

AIGC 评测与效果对齐

大模型应用最难的不是生成答案,而是证明答案好、稳定、安全、可控。评测是 AIGC 项目能否上线的核心。

为什么评测难

生成结果开放度高,同一个问题可能有多个正确答案。传统 accuracy 很难覆盖全部质量。

大模型还会出现:

  • 幻觉。
  • 格式不稳定。
  • 事实错误。
  • 引用错误。
  • 安全风险。
  • 成本过高。
  • 延迟过长。

评测维度

常见维度:

  • 正确性。
  • 完整性。
  • 相关性。
  • 简洁性。
  • 格式遵循。
  • 事实一致性。
  • 安全性。
  • 引用准确性。
  • 成本和延迟。

不同业务权重不同。客服更看准确和安全,营销更看风格和转化,RAG 更看事实和引用。

自动评测

自动评测适合大规模回归。

方法:

  • 规则匹配。
  • 关键词和结构校验。
  • embedding 相似度。
  • LLM-as-judge。
  • 单元测试式 benchmark。

自动评测快,但不能完全替代人工评测。

LLM-as-judge

用大模型做裁判可以评估开放答案,但要注意:

  • 裁判模型也会偏。
  • prompt 会影响评分。
  • 需要和人工标注校准。
  • 不能让同一个模型既生成又自评。
  • 最好输出评分理由和错误类型。

人工评测

人工评测更可靠,但成本高。

要设计:

  • 评测标准。
  • 样本抽样。
  • 多人一致性。
  • 错误分类。
  • 高风险 case 专项评测。

人工评测不是只给分,更重要的是积累 bad case。

安全评测

AIGC 系统必须看安全:

  • 敏感内容。
  • 隐私泄露。
  • 越权访问。
  • 违法违规。
  • 偏见和歧视。
  • prompt injection。
  • 工具误调用。

Agent 系统尤其要限制权限和动作空间。

线上指标

线上不能只看点赞率。

可以看:

  • 用户采纳率。
  • 追问率。
  • 人工转接率。
  • 投诉率。
  • 任务完成率。
  • 平均成本。
  • P95 延迟。
  • 安全拦截率。

面试题:如何评估一个客服大模型

理想回答:

我会构建覆盖真实问题的测试集,按意图、难度和风险分层。评测维度包括答案正确性、是否解决问题、是否符合口径、是否安全、是否格式稳定。自动评测用于日常回归,人工评测用于高风险和开放问题。线上再看转人工率、解决率、投诉率、成本和延迟。

面试题:模型效果和成本冲突怎么办

可以用:

  • 小模型处理简单问题,大模型处理复杂问题。
  • 缓存高频答案。
  • 检索减少上下文。
  • prompt 压缩。
  • 分级路由。
  • 流式输出和超时降级。

总结

AIGC 项目上线的关键是评测和对齐。面试里要讲清:评测集怎么构造、指标怎么定义、自动和人工怎么结合、安全怎么兜底、线上怎么监控。