加入收藏 | 设为首页 | 会员中心 | 我要投稿 52站长网 (https://www.52zhanzhang.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

技术人最不该忽视可视化数据分析!

发布时间:2019-09-05 16:33:28 所属栏目:教程 来源:阿里技术
导读:在这个人人都是数据分析师的时代,阿里的同学几乎都在参与数据的采集、加工与消费。数据可视化作为连接加工消费的重要一环,其质量至关重要。优秀的可视化能促成卓越洞见,糟糕的内容则让所有的努力失去意义。今天,阿里高级产品经理沉砂为我们详细介绍数
副标题[/!--empirenews.page--]

技术人最不该忽视可视化数据分析!

在这个“人人都是数据分析师”的时代,阿里的同学几乎都在参与数据的采集、加工与消费。数据可视化作为连接“加工——消费”的重要一环,其质量至关重要。优秀的可视化能促成卓越洞见,糟糕的内容则让所有的努力失去意义。今天,阿里高级产品经理沉砂为我们详细介绍数据可视化工具以及如何选择有效图表。

一、前言

我所在的阿里企业数据化管理领域,数据可视化水平参差不齐,尤其是在汇报PPT和报表制作环节...今天,不深度探讨具体业务问题,仅给出一些可视化通用建议。

通过文章你可以获得的建议:

  • 挑选顺手的工具
  • 加工正确的数据
  • 选择合适的图表
  • 一个实例

二、数据可视化工具

在这里首先我想说下数据可视化追求的三个目标:准确、清晰、优雅。符合这三项的图表被称为高效的数据可视化:

准确:精准地反馈数据的特征信息(既不遗漏也不冗余,不造成读者疏漏&误读细节)清晰:获取图表特征信息的时间越短越好优雅:美观(不是酷炫)、协调(相同场景的图表遵循统一规范)。

除此之外,这三项的重要性也有相对次序:准确>清晰>优雅,原则上我们该尽量往这三个方面靠拢。

问题来了,如何挑选顺手的工具帮助达成目标呢?

其实应当分情况来看,高效的数据可视化根据目的差异,大致分为两种类型(来自Cole Nussbaumer Knaflic的视频采访):

解释型

  • 已知目标数据的特征信息或者价值;
  • 最大目的是传达解释给其他人自身的洞察;
  • 追求极致的细腻表达。

探索型

  • 未知目标数据的特征信息或者价值;
  • 最大目的是自己分析探索数据;
  • 追求快速高效的数据交互。

大家在开始动手前,不妨先想一下自己是哪种意图,通常情况下鱼和熊掌不可兼得,数据的灵活变换和细腻表达虽然不矛盾,但很难兼顾。这就促成了我们可用的工具都有一定的偏向性,简单易上手的BI工具可以帮助我们快速完成可视化,但有可能内容差强人意。一些专业的图表代码库理论上可以针对任何细节进行调整,但是效率和门槛存在明显劣势。

原则上工具没有孰优孰劣(事实上很多工具两方面都做得很好),只是相对而言。笔者对常见种类的典型代表工具做了一个定性评估(个人意见):

技术人最不该忽视可视化数据分析!

这里我将Excel与Tableau高亮了出来,Tableau作为业界最著名的BI软件,容易上手,可视化效果也非常棒,有助于你分析探索数据。而Excel是一款被大多数人严重低估的产品,它可以很方便实现各类图表微调,画出漂亮的数据图。

如果你没什么倾向性,Excel很适合作为你深入研究的第一款数据可视化工具。

三、选择有效的图表

3.1 可视化流程

抛开一些专业理论,简单来讲,我们制作图表的步骤分为3步:

1. 选择要传达的数据信息2. 寻找可视化方法3. 实现方法并完善细节

对于步骤1,主要考虑数据本身的信息与作者自身的洞察信息,列清楚这些信息,有助于你选择合适的可视化方法。下文我会讲述一些常用的方法论知识,但不是简单给出你要选择柱形图or饼图。至于具体的图表选用指南可以Google一下。

3.2 视觉编码

首先看两张图:

技术人最不该忽视可视化数据分析!

由于使用了视觉编码(颜色)传达信息,人们更容易理解原数据的特征了。

又比如普通的柱形图,我们使用了柱子的“高度”和“相对位置”传达了两组数据信息,而柱形图往往比没进行编码的表格数据更容易理解。

我们要来熟悉两个重要概念:“视觉编码”&“视觉通道”。如果把人类大脑看做是一个信息解码系统,那么可视化就是对信息(数据)的编码过程,信息通过视觉编码后,将内容通过眼睛传达至大脑,大脑解码信息并获取知识。

技术人最不该忽视可视化数据分析!

那么图形的视觉通道有这么多,该如何选择合适的视觉通道映射数据呢?这里需要通过数据的类型以及视觉通道的表现力进行综合判断,基础的学术理论有详细说明,这里我做一下简单介绍。

★ 数据类型

一般我们数据分为“类别型”、“有序型“和“数值型”三类,苹果、香蕉属于类别,几月几号属于有序,利润5000属于数值。在很多可视化商用工具的概念中,将”有序、类别型“的数据称为维度,”数值型“的数据称之为度量(指标)。

维度和度量所适用的视觉通道是有巨大差异的,例如颜色的色调适用于维度,但不适用于度量。选择正确的视觉通道,令信息传达更有效率。

★ 数据通道的表现力

在浙大教授陈为的著作《数据可视化》(陈为 沈则潜 陶煜波. 数据可视化[M]. 电子工业出版社, 2013)中,使用4个指标作为评判一个通道的表现力标准:

  • 精确性
  • 可辨认性
  • 可分离性
  • 视觉突出

深度理解这些标准,有助于我们明白一些可视化图表修改建议背后的深层次原因。

技术人最不该忽视可视化数据分析!

这组测量数据采用科学的方法反映了一些制作经验的合理性,比如:

  • 一些专业设计师非常反对使用饼图——面积&角度与人类的感知联系不是线性变化。
  • 使用长度映射数据的柱形图通常是最佳可视化选择——长度与感知是线性变化。
  • 常规商业统计图表永远不要使用3D效果——体积严重影响人类感知的精确性。

技术人最不该忽视可视化数据分析!

可分离性告诉我们不能无限制的使用多种视觉通道,每增加一种通道来映射数据,都需要考量对已有编码方式的影响,尤其是尺寸(size)特别影响其他视觉通道的效果。

(编辑:52站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读