当前位置:17微号网www.17wh.com > 科技咖 >

最基础的描述性统计,你学好了吗?

发布时间:2017-08-13 22:17浏览次数:100Tags:中国统计网

大家好,我是零一。我是一名数据分析师,8年的电商从业经验,擅长电商领域的数据分析和挖掘,常用的工具有Excel、PowerBI、Python、R等。

今天是第四篇,给大家介绍下描述性统计。

所谓描述性统计,就是在描述数据。上一篇我们讲了数据可视化,将数字转变成图表,其实图表也是对数据的一种表述。

一组数据基本的描述指标有:最小值,1/4位数,中位数,3/4位数,最大值,这就是所谓的五数总括。

最小值很简单了,直接在excel里面敲入=min(),就能算最小值。有时候我们需要找出我们最低的销量是多少件,最低的转化率是多少?

最大值也是一样的道理,在excel里面是=max(),就能算出最大值。

接着是1/4位数丶中位数和3/4位数。如果没有接触过统计学的朋友会比较晕,不知道这个是什么来的。这三个数将数据切成4个等分的小数据集。

大家看下面的数列

1,50,10,100,2

最小值是1,最大值是100,1/4位数是50

中位数是10,3/4位数是100。


下面我们再看个例子,假如是8个人的业绩数据

1,2,3,4,5,6,7,8

最小值是1,最大值是8,1/4位数是2.25

中位数是4.5,3/4位数是6.75

而我们用得最多的是均值6.5,这里刚好跟中位数一样。但是,我们再看下面另一组数据

1,2,3,4,5,6,7,100

最小值是1,最大值是100,1/4位数是2.25

中位数是4.5,3/4位数是6.75

除了最大值不一样,其他跟前面是一样的。我们看下均值,这里的均值是16,跟前面的不同了,这个100这么大的值可能是活动的效果,那这个时候,如果我拿均值来作为指标衡量前面8个人的业绩,就只有最后一个数据达标。当数据整体平稳,但前后有很大的异常值的时候,我们用均值来做指标参考就不靠谱了,这种情况更适合的是用中位数来作为指标。

在Excel里面,用MIN、QUARTILE.EXC、MAX,就可以得到这5个数。数据放在A1:A8 8个单元格中,利用下图的函数计算结果。

另一个指标,众数。

大家看下面这个数列,假如是客服的业绩

1,3,5,5,5,5,5,5,5,5,10,20

我们先算一下平均值,是6.167,如果用这个指标,这里12个数据里面,只有10和20这两个人达标。那么,这个时候,就要用众数了。所谓众数,就是出现的最多的一个数字,毋庸置疑,这里的众数是5,那么,就会有10个人达标了。

众数在excel里面是MODE.MULT。

非常简单就能算出来,特别是数据量大的时候,不用目测。

以上的指标是根据数据的分布情况来选用的,一般用散点图看一下,然后就能判断要使用哪个指标来作为参考。用散点图可以非常直观地发现离群点。将我们上面的一组数据画出散点图,如下图就会发现一个异常值。

当数据存在离群点的时候,可以避免采用均值来作为分析指标,也可以将离群点剔除后再用均值来分析。

零一工具箱的下载地址:https://pan.baidu.com/s/1c1HlyLi

End.

作者:零一(中国统计网特邀认证作者)


零一系列文章:

从0开始学数据分析-【01篇】

从0开始学数据分析-【02篇】

【数据可视化】从0开始学数据分析-03篇

赞赏

长按二维码向我转账

受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。

可能感兴趣

我要评论