《Python数据分析常用手册》一、NumPy和Pandas篇

xiaoxiao2021-02-28 64

一、常用链接：

Python官网：https://www.python.org/各种库的whl离线安装包：http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn数据分析常用库的离线安装包（pip+wheels）（百度云）：http://pan.baidu.com/s/1dEMXbfN 密码：bbs2

二、常用库

1.NumPy

NumPy是高性能科学计算和数据分析的基础包。部分功能如下：

ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数（无需编写循环）。用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及傅里叶变换功能。用于集成C、C++、Fortran等语言编写的代码的工具。首先要导入numpy库：import numpy as np

A NumPy函数和属性：

类型类型代码说明int8、uint8i1、u1有符号和无符号8位整型（1字节）int16、uint16i2、u2有符号和无符号16位整型（2字节）int32、uint32i4、u4有符号和无符号32位整型（4字节）int64、uint64i8、u8有符号和无符号64位整型（8字节）float16f2半精度浮点数float32f4、f单精度浮点数float64f8、d双精度浮点数float128f16、g扩展精度浮点数complex64c8分别用两个32位表示的复数complex128c16分别用两个64位表示的复数complex256c32分别用两个128位表示的复数bool?布尔型objectOpython对象stringSn固定长度字符串，每个字符1字节，如S10unicodeUn固定长度Unicode，字节数由系统决定，如U10

表2.1.A.1 NumPy类型

生成函数作用np.array( x)np.array(x, dtype)将输入数据转化为一个ndarray将输入数据转化为一个类型为type的ndarraynp.asarray( array )将输入数据转化为一个新的（copy）ndarraynp.ones( N )np.ones( N, dtype)np.ones_like( ndarray )生成一个N长度的一维全一ndarray生成一个N长度类型是dtype的一维全一ndarray生成一个形状与参数相同的全一ndarraynp.zeros( N)np.zeros( N, dtype)np.zeros_like(ndarray)生成一个N长度的一维全零ndarray生成一个N长度类型位dtype的一维全零ndarray类似np.ones_like( ndarray )np.empty( N )np.empty( N, dtype)np.empty(ndarray)生成一个N长度的未初始化一维ndarray生成一个N长度类型是dtype的未初始化一维ndarray类似np.ones_like( ndarray )np.eye( N )np.identity( N )创建一个N * N的单位矩阵（对角线为1，其余为0）np.arange( num)np.arange( begin, end)np.arange(begin,end,step)生成一个从0到num-1步数为1的一维ndarray生成一个从begin到end-1步数为1的一维ndarray生成一个从begin到end-step的步数为step的一维ndarraynp.mershgrid(ndarray, ndarray,…)生成一个ndarray * ndarray * …的多维ndarraynp.where(cond, ndarray1, ndarray2)根据条件cond，选取ndarray1或者ndarray2，返回一个新的ndarraynp.in1d(ndarray, [x,y,…])检查ndarray中的元素是否等于[x,y,…]中的一个，返回bool数组矩阵函数说明np.diag( ndarray)np.diag( [x,y,…])以一维数组的形式返回方阵的对角线（或非对角线）元素将一维数组转化为方阵（非对角线元素为0）np.dot(ndarray, ndarray)矩阵乘法np.trace( ndarray)计算对角线元素的和排序函数说明np.sort( ndarray)排序，返回副本np.unique(ndarray)返回ndarray中的元素，排除重复元素之后，并进行排序np.intersect1d( ndarray1, ndarray2)np.union1d( ndarray1, ndarray2)np.setdiff1d( ndarray1, ndarray2)np.setxor1d( ndarray1, ndarray2)返回二者的交集并排序。返回二者的并集并排序。返回二者的差。返回二者的对称差一元计算函数说明np.abs(ndarray)np.fabs(ndarray)计算绝对值计算绝对值（非复数）np.mean(ndarray)求平均值np.sqrt(ndarray)计算x^0.5np.square(ndarray)计算x^2np.exp(ndarray)计算e^xlog、log10、log2、log1p计算自然对数、底为10的log、底为2的log、底为(1+x)的lognp.sign(ndarray)计算正负号：1（正）、0（0）、-1（负）np.ceil(ndarray)np.floor(ndarray)np.rint(ndarray)计算大于等于改值的最小整数计算小于等于该值的最大整数四舍五入到最近的整数，保留dtypenp.modf(ndarray)将数组的小数和整数部分以两个独立的数组方式返回np.isnan(ndarray)返回一个判断是否是NaN的bool型数组np.isfinite(ndarray)np.isinf(ndarray)返回一个判断是否是有穷（非inf，非NaN）的bool型数组返回一个判断是否是无穷的bool型数组cos、cosh、sin、sinh、tan、tanh普通型和双曲型三角函数arccos、arccosh、arcsin、arcsinh、arctan、arctanh反三角函数和双曲型反三角函数np.logical_not(ndarray)计算各元素not x的真值，相当于-ndarray 多元计算函数说明np.add(ndarray, ndarray)np.subtract(ndarray, ndarray)np.multiply(ndarray, ndarray)np.divide(ndarray, ndarray)np.floor_divide(ndarray, ndarray)np.power(ndarray, ndarray)np.mod(ndarray, ndarray)相加相减乘法除法圆整除法（丢弃余数）次方求模np.maximum(ndarray, ndarray)np.fmax(ndarray, ndarray)np.minimun(ndarray, ndarray)np.fmin(ndarray, ndarray)求最大值求最大值（忽略NaN）求最小值求最小值（忽略NaN）np.copysign(ndarray, ndarray)将参数2中的符号赋予参数1np.dot( ndarray, ndarray)计算两个ndarray的矩阵内积np.ix_([x,y,m,n],…)生成一个索引器，用于Fancy indexing(花式索引) 文件读写说明np.save(string, ndarray)将ndarray保存到文件名为 [string].npy 的文件中（无压缩）np.savez(string, ndarray1, ndarray2, …)将所有的ndarray压缩保存到文件名为[string].npy的文件中np.savetxt(sring, ndarray, fmt, newline=’\n’)将ndarray写入文件，格式为fmtnp.load(string)读取文件名string的文件内容并转化为ndarray对象（或字典对象）np.loadtxt(string, delimiter)读取文件名string的文件内容，以delimiter为分隔符转化为ndarray

表2.1.A.2 np常用函数

B NumPy.ndarray函数和属性：

生成函数作用ndarray.ndim获取ndarray的维数ndarray.shape获取ndarray各个维度的长度ndarray.dtype获取ndarray中元素的数据类型ndarray.T简单转置矩阵ndarray

表2.1.B.1 ndarray属性

生成函数作用ndarray.astype(dtype)转换类型，若转换失败则会出现TypeErrorndarray.copy()复制一份ndarray(新的内存空间)ndarray.reshape((N,M,…))将ndarray转化为N*M*…的多维ndarray（非copy）ndarray.transpose((xIndex,yIndex,…))根据维索引xIndex,yIndex…进行矩阵转置，依赖于shape，不能用于一维矩阵（非copy）ndarray.swapaxes(xIndex,yIndex)交换维度（非copy）计算函数说明ndarray.mean( axis=0 )求平均值ndarray.sum( axis= 0)求和ndarray.cumsum( axis=0)ndarray.cumprod( axis=0)累加累乘ndarray.std()ndarray.var()方差标准差ndarray.max()ndarray.min()最大值最小值ndarray.argmax()ndarray.argmin()最大值索引最小值索引ndarray.any()ndarray.all()是否至少有一个True是否全部为Truendarray.dot( ndarray)计算矩阵内积排序函数说明ndarray.sort(axis=0)排序，返回源数据

表2.1.B.2 ndarray函数

函数作用ndarray[n]选取第n+1个元素ndarray[n:m]选取第n+1到第m个元素ndarray[:]选取全部元素ndarray[n:]选取第n+1到最后一个元素ndarray[:n]选取第0到第n个元素ndarray[ bool_ndarray ]注：bool_ndarray表示bool类型的ndarray选取为true的元素ndarray[[x,y,m,n]]…选取顺序和序列为x、y、m、n的ndarrayndarray[n,m]ndarray[n][m]选取第n+1行第m+1个元素ndarray[n,m,…]ndarray[n][m]….选取n行n列….的元素表2.1.B.3 ndarray索引/切片方式

C NumPy.random函数和属性：

函数说明seed()seed(int)seed(ndarray)确定随机数生成种子permutation(int)permutation(ndarray)返回一个一维从0~9的序列的随机排列返回一个序列的随机排列shuffle(ndarray)对一个序列就地随机排列rand(int)randint(begin,end,num=1)产生int个均匀分布的样本值从给定的begin和end随机选取num个整数randn(N, M, …)生成一个N*M*…的正态分布（平均值为0，标准差为1）的ndarraynormal(size=(N,M,…))生成一个N*M*…的正态（高斯）分布的ndarraybeta(ndarray1,ndarray2)产生beta分布的样本值，参数必须大于0chisquare()产生卡方分布的样本值gamma()产生gamma分布的样本值uniform()产生在[0,1)中均匀分布的样本值

2.1.C.1 random常用函数

D NumPy.linalg函数和属性：

函数说明det(ndarray)计算矩阵列式eig(ndarray)计算方阵的本征值和本征向量inv(ndarray)pinv(ndarray)计算方阵的逆计算方阵的Moore-Penrose伪逆qr(ndarray)计算qr分解svd(ndarray)计算奇异值分解svdsolve(ndarray)解线性方程组Ax = b，其中A为方阵lstsq(ndarray)计算Ax=b的最小二乘解

2.1.D.1 linalg常用函数

2.Pandas

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

>>> from pandas import Series, DataFrame >>> import pandas as pd

A.pandas

函数说明pd.isnull(series)判断是否为空(NaN)pd.notnull(series)判断是否不为空(not NaN)

2.2.A.1 pandas常用函数

B.Series

　　Series可以运用ndarray或字典的几乎所有索引操作和函数，融合了字典和ndarray的优点。

函数说明values获取数组index获取索引namevalues的nameindex.name索引的name

2.2.B.1 Series常用属性

函数说明Series([x,y,…])Series({‘a’:x,’b’:y,…}, index=param1)生成一个SeriesSeries.copy()复制一个SeriesSeries.reindex([x,y,…], fill_value=NaN)Series.reindex([x,y,…], method=NaN)Series.reindex(columns=[x,y,…])重返回一个适应新索引的新对象，将缺失值填充为fill_value返回适应新索引的新对象，填充方式为method对列进行重新索引Series.drop(index)丢弃指定项Series.map(f)应用元素级函数排序函数说明Series.sort_index(ascending=True)根据索引返回已排序的新对象Series.order(ascending=True)根据值返回已排序的对象，NaN值在末尾Series.rank(method=’average’, ascending=True, axis=0)为各组分配一个平均排名df.argmax()df.argmin()返回含有最大值的索引位置返回含有最小值的索引位置

2.2.B.2 Series常用函数

reindex的method选项：　ffill, bfill　　　　　向前填充/向后填充　pad, backfill　　　向前搬运，向后搬运　rank的method选项　‘average’　　　　在相等分组中，为各个值分配平均排名　‘max’,’min’　　　使用整个分组中的最小排名　‘first’　　　　　　按值在原始数据中出现的顺序排名

C.DataFrame

　　DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。　　DataFrame可以通过类似字典的方式或者.columnname的方式将列获取为一个Series。行也可以通过位置或名称的方式进行获取。

　　为不存在的列赋值会创建新列。

　　>>> del frame[‘xxx’]　　# 删除列

属性说明valuesDataFrame的值index行索引index.name行索引的名字columns列索引columns.name列索引的名字ix返回行的DataFrameix[[x,y,…], [x,y,…]]对行重新索引，然后对列重新索引Tframe行列转置

2.2.C.1 DataFrame常用属性

函数说明DataFrame(dict, columns=dict.index, index=[dict.columnnum])DataFrame(二维ndarray)DataFrame(由数组、列表或元组组成的字典)DataFrame(NumPy的结构化/记录数组)DataFrame(由Series组成的字典)DataFrame(由字典组成的字典)DataFrame(字典或Series的列表)DataFrame(由列表或元组组成的列表)DataFrame(DataFrame)DataFrame(NumPy的MaskedArray)构建DataFrame数据矩阵，还可以传入行标和列标每个序列会变成DataFrame的一列。所有序列的长度必须相同类似于“由数组组成的字典”每个Series会成为一列。如果没有显式制定索引，则各Series的索引会被合并成结果的行索引各内层字典会成为一列。键会被合并成结果的行索引。各项将会成为DataFrame的一行。索引的并集会成为DataFrame的列标。类似于二维ndarray沿用DataFrame类似于二维ndarray，但掩码结果会变成NA/缺失值df.reindex([x,y,…], fill_value=NaN, limit)df.reindex([x,y,…], method=NaN)df.reindex([x,y,…], columns=[x,y,…],copy=True)返回一个适应新索引的新对象，将缺失值填充为fill_value，最大填充量为limit返回适应新索引的新对象，填充方式为method同时对行和列进行重新索引，默认复制新对象。df.drop(index, axis=0)丢弃指定轴上的指定项。排序函数说明df.sort_index(axis=0, ascending=True)df.sort_index(by=[a,b,…])根据索引排序汇总统计函数说明df.count()非NaN的数量df.describe()一次性产生多个汇总统计df.min()df.min()最小值最大值df.idxmax(axis=0, skipna=True)df.idxmin(axis=0, skipna=True)返回含有最大值的index的Series返回含有最小值的index的Seriesdf.quantile(axis=0)计算样本的分位数df.sum(axis=0, skipna=True, level=NaN)df.mean(axis=0, skipna=True, level=NaN)df.median(axis=0, skipna=True, level=NaN)df.mad(axis=0, skipna=True, level=NaN)df.var(axis=0, skipna=True, level=NaN)df.std(axis=0, skipna=True, level=NaN)df.skew(axis=0, skipna=True, level=NaN)df.kurt(axis=0, skipna=True, level=NaN)df.cumsum(axis=0, skipna=True, level=NaN)df.cummin(axis=0, skipna=True, level=NaN)df.cummax(axis=0, skipna=True, level=NaN)df.cumprod(axis=0, skipna=True, level=NaN)df.diff(axis=0)df.pct_change(axis=0)返回一个含有求和小计的Series返回一个含有平均值的Series返回一个含有算术中位数的Series返回一个根据平均值计算平均绝对离差的Series返回一个方差的Series返回一个标准差的Series返回样本值的偏度（三阶距）返回样本值的峰度（四阶距）返回样本的累计和返回样本的累计最大值返回样本的累计最小值返回样本的累计积返回样本的一阶差分返回样本的百分比数变化计算函数说明df.add(df2, fill_value=NaN, axist=1)df.sub(df2, fill_value=NaN, axist=1)df.div(df2, fill_value=NaN, axist=1)df.mul(df2, fill_value=NaN, axist=1)元素级相加，对齐时找不到元素默认用fill_value 元素级相减，对齐时找不到元素默认用fill_value 元素级相除，对齐时找不到元素默认用fill_value 元素级相乘，对齐时找不到元素默认用fill_valuedf.apply(f, axis=0)将f函数应用到由各行各列所形成的一维数组上df.applymap(f)将f函数应用到各个元素上df.cumsum(axis=0, skipna=True)累加，返回累加后的dataframe

2.2.C.2 Dataframe常用函数

索引方式说明df[val]选取DataFrame的单个列或一组列df.ix[val]选取Dataframe的单个行或一组行df.ix[:,val]选取单个列或列子集df.ix[val1,val2]将一个或多个轴匹配到新索引reindex方法将一个或多个轴匹配到新索引xs方法根据标签选取单行或者单列，返回一个Seriesicol、irow方法根据整数位置选取单列或单行，并返回一个Seriesget_value、set_value根据行标签和列标签选取单个值

2.2.C.3 Dataframe常用索引方式

运算：

　　默认情况下，Dataframe和Series之间的算术运算会将Series的索引匹配到的Dataframe的列，沿着列一直向下传播。若索引找不到，则会重新索引产生并集。

D.Index

　　pandas的索引对象负责管理轴标签和其他元数据（比如轴名称等）。构建Series或DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个Index。Index对象不可修改，从而在多个数据结构之间安全共享。　　

主要的Index对象说明Index最广泛的Index对象，将轴标签表示为一个由Python对象组成的NumPy数组Int64Index针对整数的特殊IndexMultiIndex“层次化”索引对象，表示单个轴上的多层索引。可以看做由元组组成的数组DatetimeIndex存储纳秒级时间戳（用NumPy的Datetime64类型表示）PeriodIndex针对Period数据（时间间隔）的特殊Index

2.2.D.1 主要的Index属性

函数说明Index([x,y,…])创建索引append(Index)连接另一个Index对象，产生一个新的Indexdiff(Index)计算差集，产生一个新的Indexintersection(Index)计算交集union(Index)计算并集isin(Index)检查是否存在与参数索引中，返回bool型数组delete(i)删除索引i处元素，得到新的Indexdrop(str)删除传入的值，得到新Indexinsert(i,str)将元素插入到索引i处，得到新Indexis_monotonic()当各元素大于前一个元素时，返回trueis_unique()当Index没有重复值时，返回trueunique()计算Index中唯一值的数组

本文转自http://www.cnblogs.com/prpl/p/5537417.html

转载请注明原文地址: https://www.6miu.com/read-77717.html

技术

最新回复(0)