自然语言处理之简单文件去重

xiaoxiao2021-02-28  118

#coding:utf-8 """ 开发程序 """ """ 程序名称:去重删除空白行并去特定长度字符串 程序功能:删除重复的行,删除空白行,提取特定长度的中文字符串 开发平台:PyCharm Community Edition 2017.1.3 软件版本:Python2.7.13 开始日期:2017-6-2 结束日期:2017-6-3 学习内容:1、每个字符所占字节数;2、set(),open(),strip(),len()等方法的使用; 作   者:李开亮 """ readDir = r"file source path" writeDir = "file object path" lines_seen = set() #set()方法用于对文件去重 outfile=open(writeDir,"w") f = open(readDir,"r") for line in f:     #line=line.strip()  #*.strip()方法用于删除文本文件中的空白行     if 4<=len(line)<=8:  #通过len()方法可以实现提取特定长度的字符串         if line not in lines_seen:  #测试 line 是否不是 lines_seen的成员             outfile.write(line)             outfile.write('\n')             lines_seen.add(line) outfile.close() print ("success")
转载请注明原文地址: https://www.6miu.com/read-37227.html

最新回复(0)