DA 基础 · 第 2 篇
数据分析的核心思维
工具可以一个月学会,数据思维需要一直修炼。
很多人学了 SQL、Excel、Python,跟着教程做了好几个项目,但面对一个真实的业务问题时还是一脸懵:从哪里开始?看什么数据?怎么得出结论?
问题出在哪里?不是工具不够多,而是缺少数据思维——一种用数据理解世界、解决问题的思考方式。
这篇文章不讲具体工具,只讲思维方式。如果你还没开始学任何技术,也完全能看懂。
什么是数据思维
数据思维不是一种天赋,而是一套可习得的思考框架。它的核心可以概括为一句话:
面对问题时,习惯性地问”能不能用数据来回答?怎么回答?”
具体来说,数据思维包含四个核心要素:
- 结构化思考——把大问题拆成小问题
- 假设驱动——先有猜测,再用数据验证
- 量化思维——能量化的尽量量化
- 对比思维——数据本身没有意义,对比才有意义
下面逐个展开。
一、结构化思考:把大问题拆小
为什么需要结构化
老板走过来说:”最近业绩不太好,你看看怎么回事。”
如果你没有结构化思维,可能会手忙脚乱地拉一堆数据,看半天也说不清楚。但如果你有结构化思维,你会这样拆:
业绩下降
├── 收入下降?
│ ├── 用户数下降?
│ │ ├── 新增用户减少?
│ │ └── 老用户流失加速?
│ └── 客单价下降?
│ ├── 产品价格调整?
│ └── 用户购买结构变化?
└── 成本上升?
├── 获客成本上升?
└── 运营成本上升?
这就是MECE 原则(Mutually Exclusive, Collectively Exhaustive)——相互独立、完全穷尽。把问题拆成不重叠、不遗漏的子问题,然后逐一排查。
常用的拆解框架
| 框架 | 适用场景 | 拆解方式 |
|---|---|---|
| 收入公式 | 分析收入变化 | 收入 = 用户数 x 转化率 x 客单价 |
| 漏斗分析 | 分析转化问题 | 曝光 → 点击 → 注册 → 付费 |
| 用户生命周期 | 分析用户行为 | 获取 → 激活 → 留存 → 变现 → 推荐 |
| 时间维度 | 分析趋势变化 | 日 → 周 → 月 → 季度 → 年 |
| 维度下钻 | 定位问题根因 | 按渠道 / 地区 / 用户群 / 产品线拆分 |
练习建议:看到任何一个数字变动时(比如新闻里的”某公司营收下降 15%”),试着用上面的框架拆解可能的原因。这是培养结构化思维最简单的日常训练。
二、假设驱动:先猜再验证
“先看数据”是错误的起点
很多人拿到数据后的第一反应是”先拉出来看看”。漫无目的地翻数据,效率极低,容易迷失方向。
正确的做法是:先基于业务常识提出假设,再用数据验证假设。
一个完整的假设驱动分析流程
以”上周新用户注册量下降 20%”为例:
第一步:提出假设
- 假设 A:某个推广渠道的投放量减少了
- 假设 B:注册页面最近的改版导致转化率下降
- 假设 C:竞品同期做了大规模促销,分流了用户
第二步:确定验证方法
- 假设 A → 按渠道拆分注册量,看哪个渠道降了
- 假设 B → 看注册漏斗每一步的转化率变化
- 假设 C → 对比竞品近期动态(外部数据)
第三步:用数据验证
拉数据,做分析,看哪个假设被数据支持。
第四步:得出结论并建议
比如发现是渠道 X 的投放被暂停了 → 建议恢复投放并监控效果。
假设驱动的好处
- 效率高:不用漫无目的地翻数据,有明确方向
- 结论清晰:每个假设都有验证结果,容易讲清楚分析过程
- 防止偏见:如果只看数据不提假设,容易被某个突出的数据点误导
重点提示:假设不是瞎猜,而是基于业务理解和经验的合理推测。这就是为什么 DA 需要理解业务——你对业务越了解,提出的假设越靠谱,分析效率越高。
三、量化思维:能量化就量化
从模糊到精确
日常生活中我们习惯用模糊的词汇描述事物:”用户挺多的”、”转化率还行”、”最近增长不错”。但在数据分析中,这些表述毫无价值。
数据分析师的思维方式是把一切量化:
| 模糊表述 | 量化表述 |
|---|---|
| “用户挺多的” | “DAU 达到 12 万,环比增长 8%” |
| “转化率还行” | “注册到付费转化率 3.2%,行业平均 2.5%” |
| “最近增长不错” | “连续 4 周 WoW 增长超过 5%” |
量化的三个层次
- 能数就数:用数字代替形容词
- 能比就比:单个数字没意义,要有参照(环比、同比、行业基准)
- 能拆就拆:汇总数据可能掩盖真相,拆开看更清楚
比如”本月 DAU 是 10 万”——这个数字好还是不好?
- 上月 DAU 是 8 万 → 增长 25%,很好
- 行业同类产品 DAU 都在 50 万以上 → 差距很大
- 按渠道拆:自然流量 DAU 从 5 万涨到 8 万,付费渠道从 3 万降到 2 万 → 付费渠道出了问题
同一个数字,加上不同的对比维度,解读完全不同。
四、对比思维:没有对比就没有分析
这可能是四种思维中最实用的一种。数据分析的本质就是对比。
常见的对比维度
| 对比方式 | 含义 | 例子 |
|---|---|---|
| 时间对比 | 和过去比 | 本周 vs 上周、本月 vs 去年同月 |
| 空间对比 | 和其他群体比 | 华东 vs 华南、新用户 vs 老用户 |
| 计划对比 | 和目标比 | 实际完成率 vs KPI 目标 |
| 行业对比 | 和竞品 / 行业平均比 | 我们的留存率 vs 行业 benchmark |
| 实验对比 | A/B 测试 | 实验组 vs 对照组 |
对比的陷阱
对比不是简单地把两个数字放在一起。要注意:
- 口径一致:对比的两组数据定义相同吗?(比如”月活用户”在不同平台定义可能不同)
- 基数差异:小基数的百分比变化容易被放大(100 人涨到 150 人是 50%,但统计意义有限)
- 时间周期:周末和工作日对比、淡季和旺季对比,都会产生误导
- 辛普森悖论:汇总数据的趋势和分组数据的趋势可能完全相反
辛普森悖论举例:整体来看 A 方案的转化率高于 B 方案,但按用户群拆开后,B 方案在每个用户群的转化率都更高。原因是 A 方案的用户更多来自本身转化率就高的群体。这就是为什么要”能拆就拆”。
把思维方式串起来:一个完整的分析案例
假设你是一家电商公司的 DA,老板问你:”上个月的 GMV(成交总额)为什么下降了?”
第 1 步:结构化拆解
GMV 下降
├── 订单数下降?
│ ├── 访客数下降?(流量问题)
│ └── 转化率下降?(转化问题)
└── 客单价下降?
├── 商品均价下降?
└── 每单商品数下降?
第 2 步:提出假设
看了初步数据后发现:订单数持平,但客单价下降了 15%。继续假设:
- 假设 A:上月大促结束,高价商品促销带来的高客单价回落
- 假设 B:低价引流商品占比显著增加
- 假设 C:优惠券力度加大,实际成交价降低
第 3 步:量化验证
- 按商品品类拆 GMV → 发现 3C 品类 GMV 下降 40%,其他品类正常
- 对比大促期间和大促后的 3C 品类客单价 → 大促期间 2000 元,大促后 1200 元
- 排查优惠券 → 优惠券核销率未异常变动
第 4 步:对比得出结论
结合时间对比(大促期间 vs 大促后)和品类对比(3C vs 其他),结论很清晰:
GMV 下降主要原因是大促结束后 3C 品类客单价自然回落,属于正常的周期波动,而非系统性问题。 建议关注 3C 品类的日常运营策略,提升非大促期间的客单价。
如何培养数据思维
数据思维不是读一篇文章就能获得的,需要刻意练习。以下是几个实用的方法:
1. 日常训练
- 看到任何数字(新闻、财报、App 数据),习惯性地问”为什么是这个数字?和什么对比?”
- 把工作和生活中的决策尝试用数据支撑:”这个月伙食费比上个月高了多少?原因是什么?”
2. 模仿优秀分析
- 阅读行业分析报告(券商研报、互联网公司财报电话会),学习专业分析师的分析框架
- 拆解好的数据新闻,看它是怎么用数据讲故事的
3. 多问”So What”
每得出一个数据结论,追问一句”So What?”——这个发现意味着什么?对业务有什么影响?应该怎么行动?如果回答不了,说明分析还不够深入。
4. 复盘自己的分析
做完一个分析项目后,回顾:
- 我的假设对了几个?
- 有没有遗漏的分析角度?
- 如果重新做,哪里可以更高效?
总结
| 思维方式 | 核心问题 | 关键动作 |
|---|---|---|
| 结构化思考 | 问题可以怎么拆? | MECE 拆解,逐层下钻 |
| 假设驱动 | 最可能的原因是什么? | 先假设,再验证 |
| 量化思维 | 能不能用数字说话? | 避免模糊表述,用数据说话 |
| 对比思维 | 和什么比? | 时间、空间、目标、行业对比 |
这四种思维不是割裂的,而是在每一次分析中交织使用。掌握了它们,即使你还不会写 SQL,也已经具备了数据分析师最核心的能力基础。
理解了数据思维后,我们来看看数据领域最容易混淆的三个岗位——BA、DA、BI 到底有什么区别。