NLP / AIGC / 02

经典 NLP 任务与工业场景

经典 NLP 任务仍然是很多业务系统的基础。即使使用大模型,分类、抽取、匹配、排序和评测也不会消失。

文本分类

文本分类用于判断文本属于什么类别。

业务场景:

  • 内容安全:辱骂、色情、广告、涉政。
  • 客服工单:问题类型分类。
  • 舆情分析:情感分类。
  • 搜索 query 意图识别。

面试重点是标签定义、类别不均衡、误伤成本和阈值选择。

序列标注

序列标注用于识别文本中的实体或片段。

业务场景:

  • 地址识别。
  • 商品属性抽取。
  • 简历信息抽取。
  • 医疗实体识别。
  • 风控文本中的风险点抽取。

常见模型包括 CRF、BiLSTM-CRF、BERT + CRF、大模型抽取。

信息抽取

信息抽取把非结构化文本变成结构化字段。

例如从商品标题中抽取品牌、型号、规格,从物流文本中抽取地址、时间、联系人,从合同中抽取金额和条款。

大模型适合少样本抽取,但线上系统还要考虑稳定性、格式约束和错误校验。

文本匹配

文本匹配判断两段文本是否相关或等价。

业务场景:

  • 搜索 query 和商品匹配。
  • 问答匹配。
  • 相似问题召回。
  • 去重。
  • 语义检索。

常见方法:

  • BM25。
  • Siamese/Bi-encoder。
  • Cross-encoder。
  • 向量召回 + 重排。

生成任务

生成任务包括摘要、改写、问答、营销文案、客服回复。

生成任务最关键不是“能生成”,而是:

  • 是否事实正确。
  • 是否符合业务口径。
  • 是否可控。
  • 是否有安全风险。
  • 成本和延迟是否可接受。

评估方式

经典 NLP 评估包括准确率、召回率、F1、BLEU、ROUGE、NDCG。大模型时代还要加人工评估、LLM-as-judge、事实一致性和安全评测。

面试题:文本分类如何处理类别不均衡

可以回答:

  • 重采样。
  • class weight。
  • focal loss。
  • 分层阈值。
  • 增加高质量少数类样本。
  • 看 PR-AUC 和召回,而不只看 accuracy。

面试题:信息抽取如何保证格式稳定

可以回答:

  • schema 约束。
  • JSON 输出校验。
  • 规则后处理。
  • 置信度过滤。
  • 人工复核。
  • bad case 回流。

总结

经典 NLP 任务是大模型应用的底座。面试里不要只讲模型,要讲任务定义、数据标注、评估指标、业务风险和上线闭环。

下一篇建议继续看: