NLP / AIGC / 04
AIGC 评测与效果对齐
大模型应用最难的不是生成答案,而是证明答案好、稳定、安全、可控。评测是 AIGC 项目能否上线的核心。
为什么评测难
生成结果开放度高,同一个问题可能有多个正确答案。传统 accuracy 很难覆盖全部质量。
大模型还会出现:
- 幻觉。
- 格式不稳定。
- 事实错误。
- 引用错误。
- 安全风险。
- 成本过高。
- 延迟过长。
评测维度
常见维度:
- 正确性。
- 完整性。
- 相关性。
- 简洁性。
- 格式遵循。
- 事实一致性。
- 安全性。
- 引用准确性。
- 成本和延迟。
不同业务权重不同。客服更看准确和安全,营销更看风格和转化,RAG 更看事实和引用。
自动评测
自动评测适合大规模回归。
方法:
- 规则匹配。
- 关键词和结构校验。
- embedding 相似度。
- LLM-as-judge。
- 单元测试式 benchmark。
自动评测快,但不能完全替代人工评测。
LLM-as-judge
用大模型做裁判可以评估开放答案,但要注意:
- 裁判模型也会偏。
- prompt 会影响评分。
- 需要和人工标注校准。
- 不能让同一个模型既生成又自评。
- 最好输出评分理由和错误类型。
人工评测
人工评测更可靠,但成本高。
要设计:
- 评测标准。
- 样本抽样。
- 多人一致性。
- 错误分类。
- 高风险 case 专项评测。
人工评测不是只给分,更重要的是积累 bad case。
安全评测
AIGC 系统必须看安全:
- 敏感内容。
- 隐私泄露。
- 越权访问。
- 违法违规。
- 偏见和歧视。
- prompt injection。
- 工具误调用。
Agent 系统尤其要限制权限和动作空间。
线上指标
线上不能只看点赞率。
可以看:
- 用户采纳率。
- 追问率。
- 人工转接率。
- 投诉率。
- 任务完成率。
- 平均成本。
- P95 延迟。
- 安全拦截率。
面试题:如何评估一个客服大模型
理想回答:
我会构建覆盖真实问题的测试集,按意图、难度和风险分层。评测维度包括答案正确性、是否解决问题、是否符合口径、是否安全、是否格式稳定。自动评测用于日常回归,人工评测用于高风险和开放问题。线上再看转人工率、解决率、投诉率、成本和延迟。
面试题:模型效果和成本冲突怎么办
可以用:
- 小模型处理简单问题,大模型处理复杂问题。
- 缓存高频答案。
- 检索减少上下文。
- prompt 压缩。
- 分级路由。
- 流式输出和超时降级。
总结
AIGC 项目上线的关键是评测和对齐。面试里要讲清:评测集怎么构造、指标怎么定义、自动和人工怎么结合、安全怎么兜底、线上怎么监控。