NLP / AIGC / 04

AIGC 评测与效果对齐

大模型应用最难的不是生成答案，而是证明答案好、稳定、安全、可控。评测是 AIGC 项目能否上线的核心。

为什么评测难

生成结果开放度高，同一个问题可能有多个正确答案。传统 accuracy 很难覆盖全部质量。

大模型还会出现：

常见维度：

不同业务权重不同。客服更看准确和安全，营销更看风格和转化，RAG 更看事实和引用。

自动评测适合大规模回归。

方法：

自动评测快，但不能完全替代人工评测。

用大模型做裁判可以评估开放答案，但要注意：

人工评测更可靠，但成本高。

要设计：

人工评测不是只给分，更重要的是积累 bad case。

AIGC 系统必须看安全：

Agent 系统尤其要限制权限和动作空间。

线上不能只看点赞率。

可以看：

理想回答：

我会构建覆盖真实问题的测试集，按意图、难度和风险分层。评测维度包括答案正确性、是否解决问题、是否符合口径、是否安全、是否格式稳定。自动评测用于日常回归，人工评测用于高风险和开放问题。线上再看转人工率、解决率、投诉率、成本和延迟。

可以用：

AIGC 项目上线的关键是评测和对齐。面试里要讲清：评测集怎么构造、指标怎么定义、自动和人工怎么结合、安全怎么兜底、线上怎么监控。

本文有帮助吗？