数据处理之python常用技术小结

xiaoxiao2021-02-28 45

在数据预处理的过程中经常会使用python这个工具，想来每次处理新数据时总会因不同的需求而求助谷歌、百度来实现基础的数据处理操作（囧…），遂写此博文贡自己日后参考，也希望能给进来浏览的小伙伴或多或少帮助，持续更新~

1. list操作

list可以说在数据处理过程中是不可或缺的，list部分基础操作代码如下所示。

list筛选操作示例：

#筛除lisy中小于5的数字 a = [1,2,3,5,8,10] b = [x for x in a if x>=5] #将list所有字符变为数字 a = ['1','2','3','5','8','10'] b = [int(x) for x in a ]

list去重：

a = [1,4,3,3,4,2,3,4,5,6,1] b = list(set(a))

2. 将数据存储为csv、excel格式

对于结构化数据来说，最终的处理的结果可能是存入数据库，也可能用excel、csv和arff等文件形式进行存储。 pandas包为excel、csv等文件格式提供了良好的接口，使用pandas存储csv、excel的代码如下：

存储为csv示例代码：

#coding=utf-8 import pandas as pd #定义列名col 和数据 datas col = ['feature1','feature2','class'] datas = [[1,2,1],[2,3,0]] #构建数据矩阵 df = pd.DataFrame(datas, index=None, columns=col) #定义存储路径file_path file_path = 'D:\\1.xlsx' #将数据写入csv文件中 df.to_csv(file_path,index=None)

存储为excel示例代码：

3. 文本最最基础的读写操作（-_-||| ）

太简单，直接贴代码…

#coding=utf-8 def arff_to_excel(file_path): f = open(file_path,'r') datas = '' #逐行读取文件内容 for l in f.readlines(): datas = datas + l return datas

4. 读取文件夹下所有文件名路径

对文件夹操作主要涉及到python中的os模块，读取文件夹中所有文件路径的示例代码如下：

#coding=utf-8 import os #读取目录中所有的文件路径 def getArffPath(file_dir): file_path = [] for (root,dirs,files) in os.walk(file_dir): for filename in files: file_path.append(os.path.join(root,filename))

未完待续…

转载请注明原文地址: https://www.6miu.com/read-800298.html

技术

最新回复(0)