NumPy是高性能科学计算和数据分析的基础包。部分功能如下:
ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数(无需编写循环)。用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。用于集成C、C++、Fortran等语言编写的代码的工具。 首先要导入numpy库:import numpy as npC NumPy.random函数和属性: 函数说明seed()seed(int)seed(ndarray)确定随机数生成种子permutation(int)permutation(ndarray)返回一个一维从0~9的序列的随机排列返回一个序列的随机排列shuffle(ndarray)对一个序列就地随机排列rand(int)randint(begin,end,num=1)产生int个均匀分布的样本值从给定的begin和end随机选取num个整数randn(N, M, …)生成一个N*M*…的正态分布(平均值为0,标准差为1)的ndarraynormal(size=(N,M,…))生成一个N*M*…的正态(高斯)分布的ndarraybeta(ndarray1,ndarray2)产生beta分布的样本值,参数必须大于0chisquare()产生卡方分布的样本值gamma()产生gamma分布的样本值uniform()产生在[0,1)中均匀分布的样本值 2.1.C.1 random常用函数
D NumPy.linalg函数和属性:
函数说明det(ndarray)计算矩阵列式eig(ndarray)计算方阵的本征值和本征向量inv(ndarray)pinv(ndarray)计算方阵的逆计算方阵的Moore-Penrose伪逆qr(ndarray)计算qr分解svd(ndarray)计算奇异值分解svdsolve(ndarray)解线性方程组Ax = b,其中A为方阵lstsq(ndarray)计算Ax=b的最小二乘解 2.1.D.1 linalg常用函数pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
>>> from pandas import Series, DataFrame >>> import pandas as pd2.2.A.1 pandas常用函数
Series可以运用ndarray或字典的几乎所有索引操作和函数,融合了字典和ndarray的优点。
函数说明values获取数组index获取索引namevalues的nameindex.name索引的name 2.2.B.1 Series常用属性 函数说明Series([x,y,…])Series({‘a’:x,’b’:y,…}, index=param1)生成一个SeriesSeries.copy()复制一个SeriesSeries.reindex([x,y,…], fill_value=NaN)Series.reindex([x,y,…], method=NaN)Series.reindex(columns=[x,y,…])重返回一个适应新索引的新对象,将缺失值填充为fill_value返回适应新索引的新对象,填充方式为method对列进行重新索引Series.drop(index)丢弃指定项Series.map(f)应用元素级函数 排序函数说明Series.sort_index(ascending=True)根据索引返回已排序的新对象Series.order(ascending=True)根据值返回已排序的对象,NaN值在末尾Series.rank(method=’average’, ascending=True, axis=0)为各组分配一个平均排名df.argmax()df.argmin()返回含有最大值的索引位置返回含有最小值的索引位置 2.2.B.2 Series常用函数reindex的method选项: ffill, bfill 向前填充/向后填充 pad, backfill 向前搬运,向后搬运 rank的method选项 ‘average’ 在相等分组中,为各个值分配平均排名 ‘max’,’min’ 使用整个分组中的最小排名 ‘first’ 按值在原始数据中出现的顺序排名
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。 DataFrame可以通过类似字典的方式或者.columnname的方式将列获取为一个Series。行也可以通过位置或名称的方式进行获取。
为不存在的列赋值会创建新列。
>>> del frame[‘xxx’] # 删除列
属性说明valuesDataFrame的值index行索引index.name行索引的名字columns列索引columns.name列索引的名字ix返回行的DataFrameix[[x,y,…], [x,y,…]]对行重新索引,然后对列重新索引Tframe行列转置 2.2.C.1 DataFrame常用属性 函数说明DataFrame(dict, columns=dict.index, index=[dict.columnnum])DataFrame(二维ndarray)DataFrame(由数组、列表或元组组成的字典)DataFrame(NumPy的结构化/记录数组)DataFrame(由Series组成的字典)DataFrame(由字典组成的字典)DataFrame(字典或Series的列表)DataFrame(由列表或元组组成的列表)DataFrame(DataFrame)DataFrame(NumPy的MaskedArray)构建DataFrame数据矩阵,还可以传入行标和列标每个序列会变成DataFrame的一列。所有序列的长度必须相同类似于“由数组组成的字典”每个Series会成为一列。如果没有显式制定索引,则各Series的索引会被合并成结果的行索引各内层字典会成为一列。键会被合并成结果的行索引。各项将会成为DataFrame的一行。索引的并集会成为DataFrame的列标。类似于二维ndarray沿用DataFrame类似于二维ndarray,但掩码结果会变成NA/缺失值df.reindex([x,y,…], fill_value=NaN, limit)df.reindex([x,y,…], method=NaN)df.reindex([x,y,…], columns=[x,y,…],copy=True)返回一个适应新索引的新对象,将缺失值填充为fill_value,最大填充量为limit返回适应新索引的新对象,填充方式为method同时对行和列进行重新索引,默认复制新对象。df.drop(index, axis=0)丢弃指定轴上的指定项。 排序函数说明df.sort_index(axis=0, ascending=True)df.sort_index(by=[a,b,…])根据索引排序 汇总统计函数说明df.count()非NaN的数量df.describe()一次性产生多个汇总统计df.min()df.min()最小值最大值df.idxmax(axis=0, skipna=True)df.idxmin(axis=0, skipna=True)返回含有最大值的index的Series返回含有最小值的index的Seriesdf.quantile(axis=0)计算样本的分位数df.sum(axis=0, skipna=True, level=NaN)df.mean(axis=0, skipna=True, level=NaN)df.median(axis=0, skipna=True, level=NaN)df.mad(axis=0, skipna=True, level=NaN)df.var(axis=0, skipna=True, level=NaN)df.std(axis=0, skipna=True, level=NaN)df.skew(axis=0, skipna=True, level=NaN)df.kurt(axis=0, skipna=True, level=NaN)df.cumsum(axis=0, skipna=True, level=NaN)df.cummin(axis=0, skipna=True, level=NaN)df.cummax(axis=0, skipna=True, level=NaN)df.cumprod(axis=0, skipna=True, level=NaN)df.diff(axis=0)df.pct_change(axis=0)返回一个含有求和小计的Series返回一个含有平均值的Series返回一个含有算术中位数的Series返回一个根据平均值计算平均绝对离差的Series返回一个方差的Series返回一个标准差的Series返回样本值的偏度(三阶距)返回样本值的峰度(四阶距)返回样本的累计和返回样本的累计最大值返回样本的累计最小值返回样本的累计积返回样本的一阶差分返回样本的百分比数变化 计算函数说明df.add(df2, fill_value=NaN, axist=1)df.sub(df2, fill_value=NaN, axist=1)df.div(df2, fill_value=NaN, axist=1)df.mul(df2, fill_value=NaN, axist=1)元素级相加,对齐时找不到元素默认用fill_value 元素级相减,对齐时找不到元素默认用fill_value 元素级相除,对齐时找不到元素默认用fill_value 元素级相乘,对齐时找不到元素默认用fill_valuedf.apply(f, axis=0)将f函数应用到由各行各列所形成的一维数组上df.applymap(f)将f函数应用到各个元素上df.cumsum(axis=0, skipna=True)累加,返回累加后的dataframe 2.2.C.2 Dataframe常用函数 索引方式说明df[val]选取DataFrame的单个列或一组列df.ix[val]选取Dataframe的单个行或一组行df.ix[:,val]选取单个列或列子集df.ix[val1,val2]将一个或多个轴匹配到新索引reindex方法将一个或多个轴匹配到新索引xs方法根据标签选取单行或者单列,返回一个Seriesicol、irow方法根据整数位置选取单列或单行,并返回一个Seriesget_value、set_value根据行标签和列标签选取单个值 2.2.C.3 Dataframe常用索引方式默认情况下,Dataframe和Series之间的算术运算会将Series的索引匹配到的Dataframe的列,沿着列一直向下传播。若索引找不到,则会重新索引产生并集。
pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。构建Series或DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一个Index。Index对象不可修改,从而在多个数据结构之间安全共享。
主要的Index对象说明Index最广泛的Index对象,将轴标签表示为一个由Python对象组成的NumPy数组Int64Index针对整数的特殊IndexMultiIndex“层次化”索引对象,表示单个轴上的多层索引。可以看做由元组组成的数组DatetimeIndex存储纳秒级时间戳(用NumPy的Datetime64类型表示)PeriodIndex针对Period数据(时间间隔)的特殊Index 2.2.D.1 主要的Index属性 函数说明Index([x,y,…])创建索引append(Index)连接另一个Index对象,产生一个新的Indexdiff(Index)计算差集,产生一个新的Indexintersection(Index)计算交集union(Index)计算并集isin(Index)检查是否存在与参数索引中,返回bool型数组delete(i)删除索引i处元素,得到新的Indexdrop(str)删除传入的值,得到新Indexinsert(i,str)将元素插入到索引i处,得到新Indexis_monotonic()当各元素大于前一个元素时,返回trueis_unique()当Index没有重复值时,返回trueunique()计算Index中唯一值的数组本文转自http://www.cnblogs.com/prpl/p/5537417.html