可视化 & BI · 第 1 篇

数据可视化原则

为什么同样的数据,不同人做出的图表效果差距这么大? 不是工具的问题,也不是审美的问题,而是有没有掌握可视化的底层原则。本篇不讲任何工具操作,只讲”道”——掌握这些原则后,无论你用 Excel、Tableau 还是 Python,都能做出专业的图表。

可视化的本质:减少认知负担

人类大脑处理视觉信息的速度是文字的 6 万倍。数据可视化的本质就是利用这一特点,把复杂的数据关系转化为人眼能直觉感知的图形。

好的可视化有三个标准:

  1. 准确:不扭曲数据,不误导受众
  2. 高效:受众在 5 秒内能抓住核心信息
  3. 美观:专业感和信任感

Edward Tufte 在《The Visual Display of Quantitative Information》中提出:”优秀的图表展示的是数据,而不是设计。”这是数据可视化领域最重要的一句话。

图表选择框架

选择图表类型的核心问题是:你想表达什么关系?

按分析目的选图表

分析目的 推荐图表 典型场景
趋势变化 折线图、面积图 DAU 日趋势、月度 GMV 变化
大小对比 柱状图、条形图 各渠道订单量对比、品类 GMV 排名
占比构成 饼图、环形图、堆叠柱状图 渠道 GMV 占比、用户来源分布
分布特征 直方图、箱线图、小提琴图 用户年龄分布、消费金额分布
关系/相关 散点图、气泡图、热力图 UV 与转化率的关系、指标相关性
地理分布 地图、热力地图 各省销售分布、门店覆盖
流程/转化 漏斗图、桑基图 电商转化漏斗、用户流向

决策树:3 步选出正确的图表

  1. 你有几个变量?
    • 1 个变量 → 分布图(直方图、箱线图)
    • 2 个变量 → 看下一步
    • 3+ 个变量 → 气泡图、热力图、分面图
  2. 变量的类型是什么?
    • 分类 × 数值 → 柱状图/条形图
    • 时间 × 数值 → 折线图
    • 数值 × 数值 → 散点图
  3. 你想表达什么?
    • 比较 → 柱状图(纵向放类别轴)
    • 趋势 → 折线图(横轴放时间)
    • 占比 → 饼图(少于 6 个类别时)
    • 分布 → 直方图/箱线图

视觉编码:数据如何映射到图形

视觉编码是指把数据属性映射到图形的视觉属性上。人眼对不同视觉属性的感知精度是不同的。

感知精度排序

从高到低排列,人眼对以下视觉属性的判断精度依次递减:

  1. 位置(最精确)——散点图、折线图
  2. 长度——柱状图
  3. 角度/斜率——折线图的趋势
  4. 面积——气泡图
  5. 颜色深浅——热力图
  6. 颜色色相——分类标注
  7. 体积(最不精确)——3D 图表

实操建议:尽量用位置和长度来表达最重要的数据变量。颜色用来区分类别就好,不要承载太多定量信息。

颜色使用原则

颜色是最容易被滥用的视觉元素。以下是几条核心原则:

  • 分类数据离散色板(每个类别一种颜色,色相不同)
  • 连续数据渐变色板(如浅蓝到深蓝)
  • 发散数据双色渐变(如红-白-蓝,中间为基准值)
  • 一张图中颜色不超过 5-7 种
  • 考虑色盲友好:避免纯红-纯绿对比,可以用蓝-橙替代
  • 重要数据用高饱和度色彩,背景和辅助线用低饱和度

常见反模式(千万别这样做)

反模式一:截断的 Y 轴

错误做法:Y 轴从 95% 开始,让 95% → 97% 的变化看起来像翻倍
正确做法:Y 轴从 0 开始,或者明确标注 Y 轴被截断
场景 是否可以截断 Y 轴
对外公开报告 不可以,容易被质疑误导
内部分析师交流 可以,但需明确标注
变化幅度极小但有业务意义 可以,用标注说明

反模式二:3D 图表

3D 柱状图、3D 饼图是数据可视化的头号公敌。它们带来了严重的视觉扭曲:

  • 3D 饼图中后方的扇区看起来比实际更小
  • 3D 柱状图中远处的柱子看起来比近处的低
  • 没有增加任何信息量,只增加了干扰

铁律:永远不要使用 3D 图表。这不是审美问题,是准确性问题。

反模式三:饼图类别过多

饼图适合展示 2-5 个类别的占比关系。当类别超过 6 个时,人眼无法准确比较扇区大小。

替代方案

  • 类别多 → 用水平条形图
  • 需要看趋势 → 用堆叠柱状图
  • 需要精确数值 → 直接用表格

反模式四:双轴图表陷阱

双轴图表(一个图中左右各一个 Y 轴)看起来很酷,但容易引发误解:

  • 两个 Y 轴的刻度不同,容易让人错误地”比较”两条线
  • 通过调整 Y 轴范围,可以人为制造任何”相关性”

替代方案

  • 如果是同一指标的两个维度 → 使用同一 Y 轴
  • 如果是不同指标 → 使用上下两个子图

反模式五:过度装饰

Chart Junk(图表垃圾)是 Edward Tufte 提出的概念,指图表中所有不传达数据信息的视觉元素:

  • 花哨的背景图片
  • 不必要的渐变和阴影
  • 多余的网格线
  • 装饰性图标

原则:数据墨水比(Data-Ink Ratio)越高越好。图表上每一滴”墨水”都应该在传达数据信息。

信息密度与美学的平衡

数据墨水比

数据墨水比 = 用于表达数据的墨水量 / 图表总墨水量

提高数据墨水比的方法:

  • 去掉背景色(或用非常浅的灰色)
  • 降低网格线透明度或去掉网格线
  • 去掉不必要的边框
  • 不用加粗的坐标轴
  • 标题简洁直接

5 秒规则

一张好的分析图表应该让读者在 5 秒内能回答:

  1. 看什么? → 标题告诉你
  2. 结论是什么? → 图表本身传达
  3. 数据可信吗? → 标注数据来源和时间

面向受众设计

不同的受众需要不同的可视化风格:

受众 设计重点 复杂度
CEO / 高管 突出结论,用大数字和红绿箭头
业务经理 趋势 + 对比 + 关键拐点标注
数据分析同行 完整指标、可交互、可下钻
外部客户/公众 美观、简洁、不需要专业知识

图表的叙事结构

一张图表不仅是数据的呈现,更是一个”故事”。好的数据故事有三个要素:

1. 标题即结论

不要用”月度 GMV 趋势”这种描述性标题,而是用结论性标题:

描述性标题(差) 结论性标题(好)
月度 GMV 趋势 Q1 GMV 环比增长 23%,3 月创新高
各渠道订单量 抖音渠道订单量首次超越微信
用户年龄分布 25-30 岁用户贡献了 42% 的 GMV

2. 高亮关键信息

  • 用颜色对比高亮最重要的数据点
  • 用标注(annotation)指出关键转折点
  • 灰化不重要的数据,让核心数据”跳”出来

3. 提供上下文

  • 加入参考线(如目标值、行业平均值)
  • 加入同比/环比数据
  • 说明异常值的原因

实用清单:做图之前过一遍

每次制作分析图表之前,用这份清单自检:

  • 明确了分析目的(比较/趋势/占比/分布/关系)
  • 选择了正确的图表类型
  • Y 轴从 0 开始(或有合理理由截断并标注)
  • 没有使用 3D 效果
  • 颜色不超过 5 种
  • 有明确的标题(最好是结论性标题)
  • 坐标轴有标签和单位
  • 有数据来源和时间标注
  • 考虑了受众(给高管看还是给同事看)
  • 打印成黑白也能看懂(不完全依赖颜色区分)

推荐阅读

书籍/资源 说明
《The Visual Display of Quantitative Information》 Edward Tufte 经典之作,数据可视化的圣经
《Storytelling with Data》 Cole Nussbaumer Knaflic 著,偏实操,适合数据分析师
《数据之美》 中文友好的可视化入门书
from Data to Viz 在线图表选择指南,交互式决策树
ColorBrewer 配色方案工具,支持色盲友好选项

小结

本篇覆盖了数据可视化的核心原则:

  • 图表选择:根据分析目的和变量类型选择正确的图表
  • 视觉编码:位置 > 长度 > 角度 > 面积 > 颜色
  • 常见反模式:截断 Y 轴、3D 图表、饼图过多类别、双轴陷阱、过度装饰
  • 信息密度:数据墨水比、5 秒规则
  • 叙事结构:标题即结论、高亮关键信息、提供上下文

原则掌握了,接下来我们上手工具。下一篇 Tableau 入门 将教你用拖拽的方式,快速制作交互式可视化看板。