Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)

xiaoxiao2021-02-28  80


操作系统:Windows Python:3.5 欢迎加入学习交流QQ群:657341423


上节讲到数据分析和挖掘需要的库,其中最主要的是Pandas,Matplotlib。 Pandas:主要是对数据分析,计算和统计,如求平均值,方差等。 Matplotlib:主要结合Pandas生成图像。两者往往结合使用的。


Pandas: 上图中针对的是对象为DataFrame或者Series 对于DataFrame和Series区别,参考一下官网说明就知道该数据结构了。 回归到上图的使用方法 解释: 读取excel里面的数据,然后生成data数据。然后过滤一下数据,这个过滤可有可无,然后直接使用data.describe()即可。因为对象data是DataFrame格式。 如果使用其他方法,data.sum(),data.var()即可得出,如下

这里只是给出其他统计方式,如果还需要其他数据,如极差,四分位数间距这些,需要计算得出。这里可以这样: 解释: statistics是为data.describe(),不能直接是data。

statistics.loc['aa'] = statistics.loc['75%']-statistics.loc['25%'] #四分位数间距

statistics.loc[‘aa’]是可以自定义名称的。也就是我们常说的新增统计数据。

Pandas累积统计特征函数 用法: 结果: 这里是统计2行的和,因为和我设置window=2相关的。你会发现第一个数是NaN的,因为第一行不够2行,无法累加。


Matplotlib作图:

在作图之前,基本上都要做一些设置: import matplotlib.pyplot as plt #导入图像库 plt.rcParams[‘font.sans-serif’] = [‘SimHei’] #用来正常显示中文标签 plt.rcParams[‘axes.unicode_minus’] = False #用来正常显示负号 plt.figure(figsize=(7,5)) #建立图像,创建图像区域,figsize=(7,5)指定比例 默认比例可以为:plt.figure()

如果结合Pandas使用,用法 data.plot(kind=‘bar’) kind参数作用指定作图类型,line(线),bar(条形),barh、hist(直方图),box(箱线图),kde(密度图),area、pie(饼图)、scatter(散点图) data为DataFrame或Series。 基本上Pandas,Matplotlib两者结合作图都是这种方法。 例子: 这个是通过excel数据生成图形。 如果是饼图

参考资料 参考资料源文件


如果Matplotlib要单独使用,用法和上述又不一样了。 参考

转载请注明原文地址: https://www.6miu.com/read-44854.html

最新回复(0)