DA 面试 · DA 方向

DA 高频面试题

DA 面试的技术性比 BA 更强，除了行为面试外，还会深入考察你的 SQL 能力、统计知识、实验设计和数据处理思维。本篇精选了 DA 面试中出现频率最高的问题。

一、统计与分析概念

问题 1：什么是 A/B 测试？请描述完整的实验设计流程

“A/B 测试是一种随机对照实验方法，用来验证某个改变是否能带来统计显著的效果提升。

完整的设计流程：

1. 定义假设

零假设（H0）：新方案与旧方案没有差异
备择假设（H1）：新方案优于旧方案
明确主要评估指标（比如转化率）

2. 确定实验参数

显著性水平（alpha）：通常设为 0.05
统计功效（power）：通常设为 0.80
最小可检测效应（MDE）：你希望检测到的最小变化幅度
基于以上参数计算所需样本量

3. 分组与执行

将用户随机分为实验组和对照组
确保分组维度的均衡性（如新/老用户、平台比例）
运行实验至达到所需样本量

4. 分析结果

检查数据质量和分组均衡性（AA 检验）
计算实验组和对照组的指标差异
进行假设检验，计算 P-value 和置信区间
检查护栏指标是否有异常

5. 做出决策

P-value < 0.05 且效果具有实际业务意义 → 上线
P-value >= 0.05 → 不上线（或延长实验）
核心指标提升但护栏指标恶化 → 需要权衡”

问题 2：P-value 是什么？如何向非技术人员解释？

“P-value 是在零假设为真的前提下，观察到当前结果或更极端结果的概率。

技术解释：如果 P-value = 0.03，意思是’如果新方案其实没有效果（H0 为真），那么我们观察到这么大（或更大）的差异，纯粹由随机波动造成的概率只有 3%’。因为 3% < 5%（我们的显著性阈值），我们认为这个差异不太可能是偶然的。

向非技术人员解释：’我们做了一个实验对比新旧方案。统计分析显示，新方案带来的提升不太可能是碰巧的——如果用掷骰子类比，出现这种结果纯属巧合的概率只有 3%。所以我们有比较充分的信心认为新方案确实更好。’

常见误区：

P-value 不是’效果为真的概率’
P-value < 0.05 不意味着效果一定有实际业务价值（统计显著 ≠ 实际显著）
多次检验会增加误报概率，需要做多重比较校正”

问题 3：解释一下 Type I Error 和 Type II Error

错误类型	定义	通俗解释	控制方法
Type I Error（假阳性）	零假设为真时错误地拒绝它	‘其实没效果，但你说有效果’	由显著性水平 alpha 控制（通常 5%）
Type II Error（假阴性）	零假设为假时未能拒绝它	‘其实有效果，但你没检测出来’	由统计功效 (1-beta) 控制（通常 80%）

在 A/B 测试中的影响：

Type I Error：上线了一个实际上没有效果的功能，浪费了开发资源
Type II Error：放弃了一个实际有效的功能，错失了增长机会

如何权衡：在大多数互联网公司，Type I Error 的成本更低（大不了回滚），所以有时候会放宽 alpha 到 0.10；而在医疗领域，Type I Error 可能导致无效药物上市，所以 alpha 设得更严格。”

问题 4：什么是 Simpson’s Paradox？举个例子

“Simpson’s Paradox（辛普森悖论）是指在分组数据中出现的趋势，在合并数据后反转了。

经典案例：假设某医院两种手术方案的成功率对比：

方案	轻症患者成功率	重症患者成功率
方案 A	90%（90/100）	30%（30/100）
方案 B	95%（19/20）	40%（72/180）

分组看，方案 B 在轻症和重症中都优于方案 A。

但合并后：

方案 A 总成功率：(90+30)/(100+100) = 60%
方案 B 总成功率：(19+72)/(20+180) = 45.5%

合并后反而是方案 A 更好！原因是方案 A 接的轻症患者比例更高。

对数据分析师的启示：永远不要只看汇总数据，要分维度拆解分析。在 A/B 测试中如果分组不均衡，也可能出现类似的问题。”

二、数据处理与质量

问题 5：你会如何处理数据中的缺失值？

“处理缺失值没有万能方法，要根据缺失的原因和场景来选择：

第一步：理解缺失原因

完全随机缺失（MCAR）：缺失与数据本身无关（如系统随机故障）
随机缺失（MAR）：缺失与其他已知变量有关（如年龄大的用户更不愿填收入）
非随机缺失（MNAR）：缺失与缺失值本身有关（如高收入者不填收入）

第二步：选择处理方式

方法	适用场景	优缺点
删除缺失行	缺失比例很小（< 5%）、MCAR	简单但会丢失信息
用均值/中位数填充	数值型、缺失比例适中	简单但会降低方差
用众数填充	类别型变量	简单但可能引入偏差
前向/后向填充	时间序列数据	适合缓慢变化的指标
标记为单独类别	类别型、缺失本身有业务含义	保留了缺失信息
模型预测填充	缺失比例较大、MAR	更精确但实现复杂

关键原则：

先理解’为什么缺失’，再决定怎么处理
处理后检查数据分布是否发生了不合理的变化
在分析报告中说明缺失值的处理方式”

问题 6：如何识别和处理数据中的异常值（Outlier）？

“识别异常值的常用方法：

统计方法：超过均值 ± 3 个标准差的数据点
IQR 方法：低于 Q1 - 1.5 x IQR 或高于 Q3 + 1.5 x IQR
可视化：箱线图（Box Plot）、散点图直观观察
业务规则：基于业务逻辑判断（如年龄为 200 岁、订单金额为负数）

处理方式：

保留：异常值是真实数据（如高价值客户），不应删除
删除：异常值是数据错误（如录入错误、系统 Bug）
替换：用上下限截断（Winsorization），保留信息但降低极端影响
分开分析：对异常值和正常值分别分析

最重要的原则：不要盲目删除异常值。先调查它是’错误’还是’真实的极端情况’。”

三、业务分析题

问题 7：如果产品的 DAU 上升了但收入下降了，你会怎么分析？

“这是一个看似矛盾但很常见的情况。我会从以下角度分析：

第一步：拆解收入公式

DAU 上升但收入下降，说明付费转化率或 ARPU 下降了，而且下降幅度超过了 DAU 的增长。

第二步：分群分析

新增用户质量：DAU 增加是因为大量低质量新用户涌入（可能来自某个低价获客渠道），这些用户不付费
付费用户行为变化：老的付费用户是否在减少消费？客单价是否在下降？
用户结构变化：高价值用户占比是否在缩小？

第三步：可能的原因

可能原因	验证方式
新获客渠道带来大量非目标用户	按渠道拆分 DAU 和付费率
产品功能变更影响了付费路径	对比变更前后的付费漏斗
竞品降价导致用户迁移消费	检查付费用户的流失率和竞品动态
促销活动结束导致 ARPU 回落	对比促销期和非促销期的数据

第四步：建议

根据诊断结果，可能的建议包括：调整获客渠道策略、优化付费转化路径、针对高价值用户做留存策略。”

问题 8：请设计一个衡量搜索功能效果的指标体系

“我会从搜索的用户体验和商业价值两个维度来设计：

用户体验维度：

指标	定义	为什么重要
搜索使用率	使用搜索的用户占 DAU 的比例	衡量搜索功能的渗透程度
零结果率	搜索返回 0 条结果的查询占比	反映搜索覆盖度和内容丰富度
首次点击位置	用户点击的第一个结果的平均排名	反映搜索排序的准确度
搜索后点击率（CTR）	搜索后有点击行为的比例	反映结果的相关性
搜索修改率	搜索后修改关键词重新搜索的比例	比例高说明首次搜索结果不满意

商业价值维度：

指标	定义	为什么重要
搜索后转化率	通过搜索最终完成目标行为的比例	搜索对业务的直接贡献
搜索贡献 GMV 占比	通过搜索入口产生的 GMV / 总 GMV	搜索的商业价值量化
搜索广告收入	搜索结果中广告的点击和收入	搜索的变现能力

护栏指标：搜索响应时间（不超过 200ms）、搜索崩溃率。”

四、行为面试题

问题 9：描述一次你的分析结果和直觉不一致的经历

参考思路：”我做某个功能的使用率分析时，直觉认为新用户应该比老用户使用率低，但数据显示新用户使用率反而更高。我首先检查了数据是否有问题——发现是因为新用户引导流程中强制展示了该功能，老用户则需要自己发现。进一步分析后发现，虽然新用户的’使用率’高，但深度使用指标（如使用时长、重复使用率）远低于老用户。最终我建议将分析指标从’使用率’调整为’深度使用率’，更准确地反映功能的真实价值。”

问题 10：你最引以为豪的一个数据分析项目是什么？

项目背景（30 秒）：为什么要做这个分析？业务问题是什么？
你的方法（1 分钟）：你用了什么数据、什么工具、什么分析方法？
关键发现（1 分钟）：你发现了什么？有什么令人意外的洞察？
业务影响（30 秒）：你的分析带来了什么实际改变？用数字量化
学到了什么（30 秒）：这个项目让你在技术或业务理解上有什么提升？

DA 面试前的最终检查清单

SQL：LeetCode Database 至少刷 50 题，Medium 和 Hard 要有信心
统计：能清晰解释 P-value、置信区间、A/B 测试、Type I/II Error
Case Study：练习 5 个以上的业务分析场景
行为面试：准备 8 个 STAR 故事
Portfolio：2-3 个完整的分析项目并能详细讲解
公司研究：了解目标公司的产品、商业模式、数据团队结构
Mock 面试：至少做 2 次模拟面试（找朋友或用 Pramp 等平台）

本篇小结

DA 面试的技术性更强，SQL 和统计是核心考察点
统计概念要能用通俗语言解释，不要背公式
A/B 测试的完整流程是高频考点，从假设到决策都要能讲清楚
数据质量相关问题（缺失值、异常值）反映你的数据处理经验
行为面试同样重要，用真实项目经历展示你的分析能力

恭喜你完成了”DA 面试”模块的全部内容！准备好实战了吗？可以回到面试通关指南制定你的求职计划，也可以前往工具箱探索更多学习资源。

这篇文章有帮助吗？

| GitHub 留言