在我的理解中,我之前介绍的柱(条)形图、折线图、面积图、饼图,主要是描述性的图表类型。
它们的作用在于将数据中原有的信息进一步挖掘并直观的表现出来。
在Excel中看到的探索性分析图表主要包括:散点图、直方图、箱线图。
它们主要用于探索变量之间的隐藏关系和数据的分布情况,这不是用上述的描述性图表可以简单可视化的,而是需要后续更深入的研究和验证。
接下来的几篇推文中,我会分别讲到Excel中的几种探索性图表类型。
但必须承认的是,Excel并不是进行探索性分析的最优选。
通常情况下,如果是做学术性的统计分析,大家都会选择IBM旗下的SPSS统计分析软件。
而如果有一定的编程基础,可以使用R语言快速绘制图表。
当然,在此还不得不提到做数据可视化的好手tableau,它的展现效果会非常的方便美观。
上述的这些软件,我会随着可视化分析内容的不断深入而一一讲到,现在我们先从最基础的Excel开始,因为它基本囊概括了数据可视化图表的所有基本类型。
本文主要介绍的是Excel中的探索性分析图表:散点图,以及它的变种:气泡图。
1、散点图散点图主要用于反映数据变量间的关系,而它的呈现元素是点。
它的横纵坐标分别表示两个变量,某个点落在图表的什么位置,表现了它所代表的单位反映的数值情况。
通过各个点的分布情况,可以观察两变量的相互关系。
上图(图一)就是一个典型的二维散点图,表现的是电脑性能和芯片质量之间的相关性。
由图可知,芯片的质量与电脑性能呈强的正相关性。因此,在购买电脑时,也需要关注相应型号的芯片质量
通常情况下,大家用Excel的散点图只能做成这种二维图表,而不能将颜色轻松映射给图表,以表现另一个变量。
其实,通过数据变换,也可以插入多个系列的散点图。
但是制作过程相对复杂,我会在后续的推文中专门写到。
如下图(图二):
相较于图一,图二不仅表现了电脑性能和芯片质量的相关性,而且反映了不同国家间电脑性能和芯片质量的差别。
由图可知,中国和俄罗斯生产的芯片质量一般,美国在芯片市场上占有绝对优势。
2、矩阵散点图矩阵散点图就是多个简单散点图的集合,软件将多个散点图打包到一个图形中形成矩阵散点图。
通过矩阵散点图可以观察所有纳入模型的变量(包括因变量和自变量)之间的相关性。
Excel目前的版本还不支持绘制矩阵散点图。
当数据量较小的时候,我们可以使用SPSS或者R语言来完成;
当数据量比较大时,使用R来完成这个任务。
在此给大家看一下在SPSS中生成的矩阵散点图的图例效果(图三):
3、气泡图气泡图是散点图的一个变种,是将另一个数值型变量映射给了点的大小,所以,气泡散点图需要有三个数值型变量,而颜色的透明度可以表现气泡的密集程度。
上图(图四)是用Excel做出的气泡图。反映的是不同企业在2016年收入、总资产、净利润三个数值的分布情况。
如果在tableau中,还可以动态展现气泡的名称,就可以看到每家公司三个变量的具体数值,并做进一步分析。