NLP / AIGC / 02
经典 NLP 任务与工业场景
经典 NLP 任务仍然是很多业务系统的基础。即使使用大模型,分类、抽取、匹配、排序和评测也不会消失。
文本分类
文本分类用于判断文本属于什么类别。
业务场景:
- 内容安全:辱骂、色情、广告、涉政。
- 客服工单:问题类型分类。
- 舆情分析:情感分类。
- 搜索 query 意图识别。
面试重点是标签定义、类别不均衡、误伤成本和阈值选择。
序列标注
序列标注用于识别文本中的实体或片段。
业务场景:
- 地址识别。
- 商品属性抽取。
- 简历信息抽取。
- 医疗实体识别。
- 风控文本中的风险点抽取。
常见模型包括 CRF、BiLSTM-CRF、BERT + CRF、大模型抽取。
信息抽取
信息抽取把非结构化文本变成结构化字段。
例如从商品标题中抽取品牌、型号、规格,从物流文本中抽取地址、时间、联系人,从合同中抽取金额和条款。
大模型适合少样本抽取,但线上系统还要考虑稳定性、格式约束和错误校验。
文本匹配
文本匹配判断两段文本是否相关或等价。
业务场景:
- 搜索 query 和商品匹配。
- 问答匹配。
- 相似问题召回。
- 去重。
- 语义检索。
常见方法:
- BM25。
- Siamese/Bi-encoder。
- Cross-encoder。
- 向量召回 + 重排。
生成任务
生成任务包括摘要、改写、问答、营销文案、客服回复。
生成任务最关键不是“能生成”,而是:
- 是否事实正确。
- 是否符合业务口径。
- 是否可控。
- 是否有安全风险。
- 成本和延迟是否可接受。
评估方式
经典 NLP 评估包括准确率、召回率、F1、BLEU、ROUGE、NDCG。大模型时代还要加人工评估、LLM-as-judge、事实一致性和安全评测。
面试题:文本分类如何处理类别不均衡
可以回答:
- 重采样。
- class weight。
- focal loss。
- 分层阈值。
- 增加高质量少数类样本。
- 看 PR-AUC 和召回,而不只看 accuracy。
面试题:信息抽取如何保证格式稳定
可以回答:
- schema 约束。
- JSON 输出校验。
- 规则后处理。
- 置信度过滤。
- 人工复核。
- bad case 回流。
总结
经典 NLP 任务是大模型应用的底座。面试里不要只讲模型,要讲任务定义、数据标注、评估指标、业务风险和上线闭环。
下一篇建议继续看: