数据分析之前,需先明确变量的度量类型。变量的度量类型主要分三种:名义、等级、连续;
1、名义变量:如饮料类型;
1.1 描述名义变量的分布:频数表、柱形图
2、等级变量:如饮料包装大小;
3、连续变量:饮料的体积(比例数据)、饮料的温度(间隔数据)
3.1 描述连续变量的分布 :直方图
3.1.1 需要对变量进行分布探索,并了解以下情况:
直方图:常用于了解数据的分布形状;
一般情况下,横轴为连续变量的分段进行等宽离散后的值,纵轴为频次;
描述连续变量的分布形态:偏度与峰度
3.1.2 常见连续分布
这种类型的分布在取对数之后服从正态分布;因此,在精确度要求并不严格的统计分析中,经常在对偏态分布进行对数转换。
3.2 连续数据的位置
3.2.1 中心的度量:均值:所有数值加总后除以数量
中位数:按大小排序后中间那个取值(50%分位数)
众数:出现频率最多的取值
盒须图能够提供某变量分布以及异常的信息,其通过分位数来概括某变量的分布信息从而比较不同变量的分布。
盒须图的基本元素:
IQR:变量上下四分位数之间的数据,这个范围代表了数据中间50%的数据。
1.5IQR:上下1.5IQR表示上下1.5倍IQR范围的数据,其能够提供中位数左右95%的置信区间的数据。
可以直观的从盒须图中看出超出95%置信区间范围的数据,即异常值。
不同变量的盒须图比较时,可通过中位数位置来比较两变量数据的中位数差异状况。
众数、中位数与平均数的关系:
3.2.2 数据的离散程度:级差、四分位差、平均绝对偏差、方差和标准差
级差(range)= 最大值 - 最小值
四分位差(IQR)= 上分位数 - 下分位数
4、描述统计方法
4.1 分类变量
4.1.1 单因子频数,三种描述方法
频次表
data.district.value_counts()垂直条形图
data.district.value_counts().plot(kind='bar')饼图
data.district.value_counts().plot(kind='pie')
4.1.2 两分类变量:
表分析
pd.crosstab(data.district,data.school)直方图
pd.crosstab(data.district,data.school).plot(kind='bar')
4.2 连续变量
4.2.1单连续变量
连续变量统计量
data.price.agg(['mean','median','sum','std','skew'])直方图
data.price.hist(bins = 20)
4.2.2 一分类变量 + 一连续变量
分类汇总
data.price.groupby(data.district).sum()盒须图(box-plot):常用于多组数据分布的比较
data.boxplot(x='district',y='price',data=data)
4.2.3 两分类变量 + 一连续变量
汇总表
data.pivot_table(values='price',index='district',columns='school',aggfunc=np.mean)
4.2.3 两连续变量
散点图
data.plot.scatter(x='AREA',y='price')
4.2.4 时间与两个连续变量
4.3 关联性不同的图表
4.4 图像展示步骤
1、明确要表达的信息
2、确定相对关系
3、选择图表形式