可视化 & BI · 第 1 篇
数据可视化原则
为什么同样的数据,不同人做出的图表效果差距这么大? 不是工具的问题,也不是审美的问题,而是有没有掌握可视化的底层原则。本篇不讲任何工具操作,只讲”道”——掌握这些原则后,无论你用 Excel、Tableau 还是 Python,都能做出专业的图表。
可视化的本质:减少认知负担
人类大脑处理视觉信息的速度是文字的 6 万倍。数据可视化的本质就是利用这一特点,把复杂的数据关系转化为人眼能直觉感知的图形。
好的可视化有三个标准:
- 准确:不扭曲数据,不误导受众
- 高效:受众在 5 秒内能抓住核心信息
- 美观:专业感和信任感
Edward Tufte 在《The Visual Display of Quantitative Information》中提出:”优秀的图表展示的是数据,而不是设计。”这是数据可视化领域最重要的一句话。
图表选择框架
选择图表类型的核心问题是:你想表达什么关系?
按分析目的选图表
| 分析目的 | 推荐图表 | 典型场景 |
|---|---|---|
| 趋势变化 | 折线图、面积图 | DAU 日趋势、月度 GMV 变化 |
| 大小对比 | 柱状图、条形图 | 各渠道订单量对比、品类 GMV 排名 |
| 占比构成 | 饼图、环形图、堆叠柱状图 | 渠道 GMV 占比、用户来源分布 |
| 分布特征 | 直方图、箱线图、小提琴图 | 用户年龄分布、消费金额分布 |
| 关系/相关 | 散点图、气泡图、热力图 | UV 与转化率的关系、指标相关性 |
| 地理分布 | 地图、热力地图 | 各省销售分布、门店覆盖 |
| 流程/转化 | 漏斗图、桑基图 | 电商转化漏斗、用户流向 |
决策树:3 步选出正确的图表
- 你有几个变量?
- 1 个变量 → 分布图(直方图、箱线图)
- 2 个变量 → 看下一步
- 3+ 个变量 → 气泡图、热力图、分面图
- 变量的类型是什么?
- 分类 × 数值 → 柱状图/条形图
- 时间 × 数值 → 折线图
- 数值 × 数值 → 散点图
- 你想表达什么?
- 比较 → 柱状图(纵向放类别轴)
- 趋势 → 折线图(横轴放时间)
- 占比 → 饼图(少于 6 个类别时)
- 分布 → 直方图/箱线图
视觉编码:数据如何映射到图形
视觉编码是指把数据属性映射到图形的视觉属性上。人眼对不同视觉属性的感知精度是不同的。
感知精度排序
从高到低排列,人眼对以下视觉属性的判断精度依次递减:
- 位置(最精确)——散点图、折线图
- 长度——柱状图
- 角度/斜率——折线图的趋势
- 面积——气泡图
- 颜色深浅——热力图
- 颜色色相——分类标注
- 体积(最不精确)——3D 图表
实操建议:尽量用位置和长度来表达最重要的数据变量。颜色用来区分类别就好,不要承载太多定量信息。
颜色使用原则
颜色是最容易被滥用的视觉元素。以下是几条核心原则:
- 分类数据用离散色板(每个类别一种颜色,色相不同)
- 连续数据用渐变色板(如浅蓝到深蓝)
- 发散数据用双色渐变(如红-白-蓝,中间为基准值)
- 一张图中颜色不超过 5-7 种
- 考虑色盲友好:避免纯红-纯绿对比,可以用蓝-橙替代
- 重要数据用高饱和度色彩,背景和辅助线用低饱和度
常见反模式(千万别这样做)
反模式一:截断的 Y 轴
错误做法:Y 轴从 95% 开始,让 95% → 97% 的变化看起来像翻倍
正确做法:Y 轴从 0 开始,或者明确标注 Y 轴被截断
| 场景 | 是否可以截断 Y 轴 |
|---|---|
| 对外公开报告 | 不可以,容易被质疑误导 |
| 内部分析师交流 | 可以,但需明确标注 |
| 变化幅度极小但有业务意义 | 可以,用标注说明 |
反模式二:3D 图表
3D 柱状图、3D 饼图是数据可视化的头号公敌。它们带来了严重的视觉扭曲:
- 3D 饼图中后方的扇区看起来比实际更小
- 3D 柱状图中远处的柱子看起来比近处的低
- 没有增加任何信息量,只增加了干扰
铁律:永远不要使用 3D 图表。这不是审美问题,是准确性问题。
反模式三:饼图类别过多
饼图适合展示 2-5 个类别的占比关系。当类别超过 6 个时,人眼无法准确比较扇区大小。
替代方案:
- 类别多 → 用水平条形图
- 需要看趋势 → 用堆叠柱状图
- 需要精确数值 → 直接用表格
反模式四:双轴图表陷阱
双轴图表(一个图中左右各一个 Y 轴)看起来很酷,但容易引发误解:
- 两个 Y 轴的刻度不同,容易让人错误地”比较”两条线
- 通过调整 Y 轴范围,可以人为制造任何”相关性”
替代方案:
- 如果是同一指标的两个维度 → 使用同一 Y 轴
- 如果是不同指标 → 使用上下两个子图
反模式五:过度装饰
Chart Junk(图表垃圾)是 Edward Tufte 提出的概念,指图表中所有不传达数据信息的视觉元素:
- 花哨的背景图片
- 不必要的渐变和阴影
- 多余的网格线
- 装饰性图标
原则:数据墨水比(Data-Ink Ratio)越高越好。图表上每一滴”墨水”都应该在传达数据信息。
信息密度与美学的平衡
数据墨水比
数据墨水比 = 用于表达数据的墨水量 / 图表总墨水量
提高数据墨水比的方法:
- 去掉背景色(或用非常浅的灰色)
- 降低网格线透明度或去掉网格线
- 去掉不必要的边框
- 不用加粗的坐标轴
- 标题简洁直接
5 秒规则
一张好的分析图表应该让读者在 5 秒内能回答:
- 看什么? → 标题告诉你
- 结论是什么? → 图表本身传达
- 数据可信吗? → 标注数据来源和时间
面向受众设计
不同的受众需要不同的可视化风格:
| 受众 | 设计重点 | 复杂度 |
|---|---|---|
| CEO / 高管 | 突出结论,用大数字和红绿箭头 | 低 |
| 业务经理 | 趋势 + 对比 + 关键拐点标注 | 中 |
| 数据分析同行 | 完整指标、可交互、可下钻 | 高 |
| 外部客户/公众 | 美观、简洁、不需要专业知识 | 低 |
图表的叙事结构
一张图表不仅是数据的呈现,更是一个”故事”。好的数据故事有三个要素:
1. 标题即结论
不要用”月度 GMV 趋势”这种描述性标题,而是用结论性标题:
| 描述性标题(差) | 结论性标题(好) |
|---|---|
| 月度 GMV 趋势 | Q1 GMV 环比增长 23%,3 月创新高 |
| 各渠道订单量 | 抖音渠道订单量首次超越微信 |
| 用户年龄分布 | 25-30 岁用户贡献了 42% 的 GMV |
2. 高亮关键信息
- 用颜色对比高亮最重要的数据点
- 用标注(annotation)指出关键转折点
- 灰化不重要的数据,让核心数据”跳”出来
3. 提供上下文
- 加入参考线(如目标值、行业平均值)
- 加入同比/环比数据
- 说明异常值的原因
实用清单:做图之前过一遍
每次制作分析图表之前,用这份清单自检:
- 明确了分析目的(比较/趋势/占比/分布/关系)
- 选择了正确的图表类型
- Y 轴从 0 开始(或有合理理由截断并标注)
- 没有使用 3D 效果
- 颜色不超过 5 种
- 有明确的标题(最好是结论性标题)
- 坐标轴有标签和单位
- 有数据来源和时间标注
- 考虑了受众(给高管看还是给同事看)
- 打印成黑白也能看懂(不完全依赖颜色区分)
推荐阅读
| 书籍/资源 | 说明 |
|---|---|
| 《The Visual Display of Quantitative Information》 | Edward Tufte 经典之作,数据可视化的圣经 |
| 《Storytelling with Data》 | Cole Nussbaumer Knaflic 著,偏实操,适合数据分析师 |
| 《数据之美》 | 中文友好的可视化入门书 |
| from Data to Viz | 在线图表选择指南,交互式决策树 |
| ColorBrewer | 配色方案工具,支持色盲友好选项 |
小结
本篇覆盖了数据可视化的核心原则:
- 图表选择:根据分析目的和变量类型选择正确的图表
- 视觉编码:位置 > 长度 > 角度 > 面积 > 颜色
- 常见反模式:截断 Y 轴、3D 图表、饼图过多类别、双轴陷阱、过度装饰
- 信息密度:数据墨水比、5 秒规则
- 叙事结构:标题即结论、高亮关键信息、提供上下文
原则掌握了,接下来我们上手工具。下一篇 Tableau 入门 将教你用拖拽的方式,快速制作交互式可视化看板。