numpy和pandas中实现ndarray或dataframe的迭代增加

xiaoxiao2021-02-28  6

       最近预处理一些数据时遇到一个问题,我想利用一个循环,每次从一个dataframe中选取特定的数据,再把这些数据重新组合成为一个新的dataframe,但网上很多关于pandas或者numpy的教程中都很少有讨论过如何实现这样的功能,然而我觉得实际数据预处理过程中却是会经常遇到这种问题的,于是把自己的心得记录下来和大家分享。

我主要参考了这个链接中的内容 https://vimsky.com/article/3717.html

       首先感觉很多人的第一反应会是直接建立一个空列表或者空矩阵,每次循环时利用append函数把新的数据添加到末尾,但是这种方式效率是非常低的,因为每一次循环程序都需要重新分配内存,会浪费非常多的时间,完全违背了numpy和pandas高效的特性,正确的做法应该是预先建立一个和最终数据形状相同或者更大的零矩阵,利用索引的方式在每次循环中更新数据,下面利用代码验证两种方式的差异。

import numpy as np import pandas as pd import time df=pd.read_pickle('pid') start=time.time() sss=np.zeros([1550,7]) for i in range(1549): a=pd.concat((df.iloc[i,2:4],df.iloc[i+1,4:7],df.iloc[i+1,2:4])) sss[i]=a end=time.time() print('the time of use method_1 to read datas is:{:.3f}seconds'.format(end-start)) start=time.time() ccc=[] for i in range(1549): a1=pd.concat((df.iloc[i,2:4],df.iloc[i+1,4:7],df.iloc[i+1,3:5])) ccc.append(a1) ssss=np.array(ccc) end=time.time() print('the time of use method_2 to read datas is::{:.3f}seconds'.format(end-start))    

运行结果为

the time of use method_1 to process datas is:1.740seconds the time of use method_2 to process datas is:50.445seconds

        可以看到append这种方式效率是非常低的,如果遇到大量的数据需要处理,这样的运行时间显然是不能接受的。所以除非遇到实在是无法知道数据大小的情况,再采用append这种方式,否则还是要预先给数据分配内存。

        总结起来,在利用numpy或者pandas时,最好按照官方推荐的形式处理数据,这样才能真正发挥这两个库高效的特性。

转载请注明原文地址: https://www.6miu.com/read-2350283.html

最新回复(0)