python笔记

xiaoxiao2021-02-28 79

这里记录了从学习python以来的笔记，包括一些常用的python方法,希望能对初学者有帮助

标准库http://python.usyiyi.cn/python_278/library/index.html eval 将str当成表达式，不用完整语句 exec 执行 search匹配不到不会异常，但是加了group就会了 .groups()[0]这样才是捕获的第一项 search里写正则实际上最好也用\\来表示\字符，或者加r'xxx'虽然大部分情况也会自动转义，但是 syntax error near unexpected token `newline'这个问题好像不影响结果 |要转义 field = '"'.join([domain + seg_c for seg_c in m3u8seg_list]) "为分隔符多段设置 res['multi_segment'] = "true" 正则在前！！！ re.search('(.*?)playlist.m3u8',m3u8Url).group(1) 取第一个符合正则的，group(1)是第一个(),0是全部因为search的结果是一个正则结果 re.findall ('(chunklist_.*)',chunklist_content)[0] findall用于输出数组 '%s%s'% (cdn,keyid) replace不改变目标本身 base64输出会换行！！！！！！！！！！！！要输出replace('\n','') 缩进规则：一个缩进块的后面的代码缩进必须和第一行缩进方式相同，所以上一层是空格，可以从该层第一行开始用空格加缩进 finally: if field: res['field'] = field res['multi_segment'] = "true" 脚本里的相对路径是相对linux命令的路径！！！ return 后就不执行了 else: 在taisan看信息 python ./share/plugin/metacafe/plugin1.py < "./var/tmp/crawler_tmp/metacafe_input.9725.1458635428.663116.331480" 只有一个< url()方法返回opener.open opener相当于一个请求器，可以给opener设置访问参数，这样后面的请求就都能用了， urllib2.install_opener(opener)是把这个opener弄成全局的urlopen方法调用的东西 read才会去读取 request具体请求，设置单次请求的参数 urllib2默认情况下会针对HTTP 3xx返回码自动进行redirect动作 python的包用pip安装更方便 python3要用pip3 升级依赖（如果有东西很可能是没装或者版本太低） pip install --upgrade selenium 看依赖版本（pycharm也可以看） >> import selenium >>> selenium.__version__ post请求 page_buf = '' cookie = cookielib.CookieJar() opener2 = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) login_url = r'http://fwiptv.net/fw-check_login.php' login_data = urllib.urlencode({'username': 'savecyber', 'password': 'fwiptv21'}) opener2.addheaders = [('Host', 'fwiptv.net'), ('User-Agent', 'Mozilla/5.0 (Ubuntu; X11; Linux i686; rv:8.0) Gecko/20100101 Firefox/8.0'), ('Accept', 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'), ('Accept-Language', 'en-us,en;q=0.5'), ('Accept-Encoding', 'gzip, deflate'), ('Connection', 'keep-alive'),] opener2.open(login_url, login_data) cookie_str='' for item in cookie: cookie_str+=item.name+"="+item.value+"; " print cookie_str post请求 print a,b,c 会用空格分割输出 conf写法名：值或名=值最简单的配置方法： xx.py 中有变量 sb=100 from xx import sb ConfigParser其实可以加载多个配置文件 dbconf = ConfigParser.ConfigParser() dbconf.read([a.conf,b.conf]) 路径用linux下路径 ./当前 ../上一级导入另一个文件夹下的包： 1.如果导入的模块和主程序在同个目录下，直接import就行了 2.如果导入的模块是在主程序（如bin）所在目录的子目录下，可以在子目录中增加一个空白的__init__.py文件，该文件使得python解释器将子目录整个也当成一个模块，然后直接通过“import 子目录.模块”导入即可。 3.如果导入的模块是在主程序所在目录的父目录下，则要通过修改path来解决，有两种方法： (1)通过”import sys，sys.path.append('父目录的路径')“来改变，这种方法属于一次性的，只对当前的python解释器进程有效，关掉python重启后就失效了。 (2)直接修改环境变量：在windows中是 “ set 变量=‘路径’ ” 例如：set PYTHONPATH=‘C:\test\...’ 查看是否设置成功用echo %PYTHONPATH%,而且进到python解释器中查看sys.path,会发现已经有了新增加的路径了。这　种方式是永久的，一次设置以后一直都有效。在linux中是 "export 变量='路径' “，查看是" echo $变量 " vobile@pc0055:~/PycharmProjects/clawlerSearch$ python bin/youtubeCrawlerSearch.py ['/home/vobile/PycharmProjects/clawlerSearch/bin'（python所在文件夹是有的）, '/usr/lib/python2.7', '/usr/lib/python2.7/plat-i386-linux-gnu', '/usr/lib/python2.7/lib-tk', '/usr/lib/python2.7/lib-old', '/usr/lib/python2.7/lib-dynload', '/usr/local/lib/python2.7/dist-packages', '/usr/lib/python2.7/dist-packages', '/usr/lib/python2.7/dist-packages/PILcompat', '/usr/lib/python2.7/dist-packages/gtk-2.0', '/usr/lib/pymodules/python2.7', '/usr/lib/python2.7/dist-packages/ubuntu-sso-client', '/usr/lib/python2.7/dist-packages/wx-2.8-gtk2-unicode', 'lib'] python 多线程有问题文件打开了要关闭，不然后面操作不了 file(xx,'rb')才是文件对象运行要先切到python的目录下，否则路径可能会有问题 os.popen() 功能强于os.system() , os.popen() 可以返回回显的内容，以文件描述符返回。注意要完全一样比如"都不能少 t_f = os.popen ("ping 192.168.1.1") print t_f.read() getcwd()获取当前os工作目录 chdir(../crawler)切换工作目录,会切换整个python的工作目录！！！包括相对文件地址三引号：''' 是三个单引号！！！！！日志级别 ERROR>WARN>INFO>DEBUG json.dumps python错误：'utf8' codec can't decode byte 0xe1 in position 5 …… 是编码问题 rst=unicode( rst , errors='ignore') 追踪异常 import traceback traceback.print_exc() 配置文件读入时是字符串不能多进程操作文件，如果你是写方式打开的，没有关闭，那你这文件实际上是个空文件。要关闭这个动作才把内容真正写到问价里去。你可以做个测试，在写打开的时候拷贝这个文件，打开备份肯定是个空文件。在多进程以同样方式同时打开同一个文件写的条件下： 1.如果以追加方式写，会将所有进程所写的内容全部保存进文件，也就是说进程间对彼此已经完成的写入操作是可见的； 2.如果以覆盖方式写，则只有最后一个执行写入操作的进程会将其内容保存进文件也就是说，多进程后打开的才能写入脚本语言包括函数都要先定义再使用！！所以最好在最后写main函数 json输入一定要用双引号 if param_dic.has_key('proxy'): 拿来eval的都要再包一层引号！！三元表达式 true_part if condition else false_part range方法 a=range(0,10,1) range(10) 这个写法不容易误会从零开始虽然我们经常在Python中用圆括号将组元括起来，但是其实组元的语法定义只需要用逗号隔开即可，例如 x,y=y,x 就是用组元交换变量值的一个例子。 import 类或者模块，优先在项目里找 pass 空语句 do nothing 用作占位，保持语句完整如没有return 没有break的效果字典 {} .get(key,default)没有则返回默认值 .get(key)没取到就是空大量数据用xrange效率更快，因为产生迭代器 python 多线程无法同时访问cpu。因此用于io密集时用多线程才有意义多进程在多核运行调度由操作系统决定 None是啥都没有，是None直接可以当false用 python find不到报-1 只有0是false！！其他都是true！格式化输出中%转义是双写% 反编码 a='\u559c\u6b22\u4e00\u4e2a\u4eba' print a.decode('raw_unicode_escape') 这样输出的类型是unicode类型，需要 .encode('utf-8') 配置文件里写"ds"读取到的就是\"ds\"字符串初始化是个问题，每个变量都要重新初始化，不然很容易用到以前的变量！如循环中前面声明的变量都tmd是能用的 for i in range(5): if(i==0): l=5; 当字典中没有该值的时候会报KeyError，最好是给默认值要在循环的一开始就加初始化！！不能初始化的变量不要有！！没用的代码不要加！！ if a: a=''或None都是false a=[1,2] a*2=[1,2,1,2] queue import Queue myqueue = Queue.Queue(maxsize = 10) myqueue.put(10) #放进一个item myqueue.get() #默认先进先出多线程函数式t=threading.Thread(target=calc_sth) 可以按顺序传入参数 t = threading.Thread(target=run,args=(fnpath, dbconfpath,username)) 或thread.start_new_thread(timer, (1,1)) 对象式创建threading.Thread的子类来包装一个线程对象 thread_arr[i].join(1)：阻塞进程直到线程执行完毕。通用的做法是我们启动一批线程，最后join这些线程结束，设置参数则是对于每个线程，阻塞的最大时间多线程需要把每一个线程独立的变量弄成参数，不能用全局包括sql链接 threading.Thread(target = doAdd, args = (), name = 'thread-' + str(i)).start() 直接用threading.Thread，指定target 或建一个类继承threading.Thread，重写run() Thread.isAlive() Thread.join([timeout]) 加锁部分无法多线程当一个线程调用锁的acquire()方法获得锁时，锁就进入“locked”状态。每次只有一个线程可以获得锁。如果此时另一个线程试图获得这个锁，该线程就会变为“blocked”状态，称为“同步阻塞”。 global---将变量定义为全局变量。可以通过定义为全局变量，实现在函数内部改变变量值没有global语句，是不可能为定义在函数外的变量赋值的。但是没有global调用还是可以的 def func(): global x #为外面的x赋值《定义函数里用的是外面的x！》 print 'x is', x x = 2 print 'Changed local x to', x x = 50 func() print 'Value of x is', x 可重入：当被多个线程调用的时候，不会引用任何共享数据多线程输入输出最好用队列！！文件读写http://maincoolbo.iteye.com/blog/626655 写文件必须 fname.flush()或 fname.close()才会真正从内存里写进文件！！！！ str()转成人看的模式 repr(s)转成系统看的模式 "'Hello, world.'" 起名不能乱起，和系统模块不要重命名！各种空的东西都可以当false if []: pass 命令行输入和输出可以用 < > python ./share/plugin/flashx/js_decode.py < "./var/tmp/crawler_tmp/flashx_input.12574.1471847270.795441.650431" >"./var/tmp/crawler_tmp/flashx_field_path.12574.1471847270.784080.548420" json json.dumps()方法返回了一个str对象encodedjson（如int变number），我们接下来在对encodedjson进行decode，得到原始数据，需要使用的json.loads()函数(部分格式会改变) dumps编码成json格式（int变number） loads解码出来（number变int/long） None 会变成json中的null json用于传输注意单双引号问题！！python超sb，能理解文件中的单引号json，不能理解字符串中的单引号json，所以干脆用字典传吧或者replace一下 .replace('\\\'','') str(d) eval(s) 编码转化 text=download_page(iframe_url).decode('iso-8859-1').encode('utf-8') pycurl http://bbs.chinaunix.net/thread-4134362-1-1.html pycurl是对curl封装 pycurl.version看代码终归是依赖系统模块的 python http服务 python也是可以做http服务器的！最简单的文件共享方式：目录下 python -m SimpleHTTPServer 然后就可以用8000端口看文件了如果有index.html就会显示页面网络底层接口socket http://www.2cto.com/kf/201408/328150.html python可以根据参数名传参数 def foo(ip,port): print "%s:%d" % (ip,port) foo(port=8080,ip="127.0.0.1") #127.0.0.1:8080 用枚举规范类型 student = ('ansheng', 20, 'Schoolboy', 'anshengme.com@gmail.com') # 定义常量 NAME, AGE, SEX, EMAIL = range(4) # 通过常量进行取值 >>> student[NAME] 根据原子编程思想，即每个开发子单元应该只应该完成一件事，就和一个原子一样，作为一个最小单位；以及简洁设计思想，应该将每个设计划分到最小模块和细节进行设计，然后兼顾和拼凑整体设计；如果函数收到的是一个可变对象（比如字典或者列表）的引用，就能修改对象的原始值－－相当于通过“传引用”来传递对象。如果函数收到的是一个不可变对象（比如数字、字符或者元组）的引用，就不能直接修改原始对象－－相当于通过“传值'来传递对象。 a=[2,3]遍历修改还是用range好 for i in a: i直接指向常量 i=i+1; 改变的是i本身的值，不是a 常量是改不了的 for i in range(len(a)): a[i]=a[i]+1; 改变的是a[i] for in 最后一次迭代的i后面也能用 os.popen 打开一个管道终端看到的是标准输出和错误现在替代：subprocess.Popen(args, bufsize=0, executable=None, stdin=None, stdout=None, stderr=None, preexec_fn=None, close_fds=False, shell=False, cwd=None, env=None, universal_newlines=False, startupinfo=None, creationflags=0) subprocess的目的就是启动一个新的进程并且与之通信。参数stdin, stdout, stderr分别表示程序的标准输入、输出、错误句柄。他们可以是PIPE，文件描述符或文件对象，也可以设置为None，表示从父进程继承。可以使用上一个命令执行的输出结果作为下一次执行的输入 stdin=p1.stdout 标准输入和输出默认是控制台可以用ls|python meng.py 输进去标准输出和标准错误（通常缩写为 stdout 和 stderr）是建立在每个UNIX系统内的管道(pipe)。当你 print 某东西时，结果输出到 stdout 管道中；当你的程序崩溃并打印出调试信息时（象Python中的错误跟踪），结果输出到 stderr 管道中。通常这两个管道只与你正在工作的终端窗口相联，所以当一个程序打印输出时，你可以看到输出，并且当一个程序崩溃时，你可以看到调试信息。（如果你在一个基于窗口的Python IDE系统上工作，stdout 和 stderr 缺省为“交互窗口”。）重定向标准输入stdin 输出stdout 错误信息stderr print 'Dive in' saveout = sys.stdout #备份输出 fsock = open('out.log', 'w') sys.stdout = fsock #改变输出 print 'This message will be logged instead of displayed' sys.stdout = saveout fsock.close() 可重定向文件可以通过文件名自动建，但目录要专门建（2,3,4）元组不可变 [2,3,4] 数组 {'a':1,'b',2}字典 if elif 文件开头的#! /usr/bin/python 分成两种情况：（1）如果调用python脚本时，使用: python script.py #!/usr/bin/python 被忽略，等同于注释（2）如果调用python脚本时，使用: ./script.py 需要弄成可执行权限 #!/usr/bin/python指定解释器的路径 dic.iteritems() 返回字典键值对迭代器对象 ((k,v),(k,v),(k,v)) dic = {'a':31, 'bc':5, 'c':3, 'asd':4, '33':56, 'd':0} print dic.iteritems() #<dictionary-itemiterator object at 0x00B71A80> for obj in dic.iteritems(): print obj,obj[0],obj[1] #('a', 31) a 31 key = lambda d:d[1] for i in dic.iteritems(): print key(i), 元组排序 sorted({1: 'D', 2: 'B', 3: 'B', 4: 'E', 5: 'A'}) sorted(student_tuples, key=lambda student: student[2]) 可以增加一个key函数在排序前执行,前面的每一项值放到后面函数里迭代 li = sorted(lis, key=lambda s: s['Big']) sorted(student_objects, key=attrgetter('age'), reverse=True) reverse=True降序 print sorted(dic.iteritems(), key=lambda d:d[1], reverse = False ) 匿名函数 lambda 参数:函数式 bar = lambda:'beginman' print bar() #如果没有参数，则lambda冒号前面就没有，如以上例子。 f=lambda x,y:x+y print f(2,3) 编码声明 #.*coding[:=]\s*[0-9A-Za-z-_.]\+.*$ #coding=/: utf8 =前不能加空格这个是python编译的编码，用来写中文注释处理编码要比如要插入 import sys reload(sys) sys.setdefaultencoding('utf-8') 使其工作，使其更好，使其更快 profile.run('add(2,5)') 执行并分析语句用的时间和各函数次数用python嵌套别的语言结合python的编写高效和其他语言的运行高效（比如游戏的ai就是用python等语言写的）简单方式：用jyphon（可以直接用java标准库） ironpython（c#和其他.NET） c语言扩展扩展CPython Psyco Pyrex PyPy(据说很屌) Weave NumPy（速度快） ctypes Subprocess SWIG 简单包装和接口生成器用于多种语言协同工作如把c语言的代码编译成一个.so共享库就可以在别的语言中直接导入啦！！或者就是打个包安装程序打包让不懂的人也可以直接运行 Distutils(制作基于脚本的python安装程序生成简单的windows安装程序，与py2exe结合成独立的windows可执行程序) python2时代是py2exe，python3已是cxFreez py2exe（Distutils扩展，不需要安装解释器）cx_Freeze和PyInstaller。 py2exe（windows用）用pycharm 想要从主目录而不是从bin目录运行 edit run的配置编译检查路径，设置project structure 嵌套定义了函数用的变量必须声明成全局变量！声明变量是定义在函数外 global order_by_colum_num order_by_colum_num=int(mainconf.get('output','order_by_colum_num'))-1 if 'desc' in order_by_desc_or_asc: sortLit=sorted(sortLit,key=lambda d: d[order_by_colum_num] pyquery python中用jquery语法 re.findall('function \w+ {.*?}',codebuf,re.DOTALL) 乘方 2**3=8 wb 以二进制格式读写（二进制比文本小），unix系统没啥用 raw_input("msg") 输入的东西当字符串 input("msg") 输入数字就当数字,要尽量用 raw_input 不然输入必须加'' windows中运行加个raw_input('press eneter')防止秒退 str()将值转化为合理字符串100 repr() 将值表示成python表达式100L >>> a=100L >>> print a 100 >>> repr(a) '100L' 原始字符串 r'xxxx:\sss' 不转义\ 与书写一致 help() 看帮助文档如再输入math 看math里的方法再输入modules help('math') 分片 a[0:-1] 两个边界，第一个包含，第二个不包含（剩余部分第一个） a[:-2] s=s.strip() 字符串本身是无法改变的，必须重新赋值！ >>> s='sss' >>> s.replace('ss','a') 'as' >>> s 'sss' >>> 不区分大小写时加lower if self.sendHtml.lower() == 'true': 回调函数（感觉和适配器模式类似）设置中间函数，调什么函数（回调函数）是不一定的 def getOddNumber(k, getEvenNumber): return 1 + getEvenNumber(k) yield 生成一个迭代器每一项就是yield的值 def addlist(alist): for i in alist: yield i + 1 alist = [1, 2, 3, 4] for x in addlist(alist): print x, 终端用ipython有自动补全和缩进哪一步报错哪一步打印log！！！要避免直接赋值到新建变量！！因为这样很容易冲突脚本语言运行的顺序才是变量定义顺序！！！ def a(): ...: return b 会在全局变量里找！ ...: b=1 a() 1 ctrl+c exit也是异常的一种！也会被处理。。。。所以一次ctrl+c不一定停的了。。函数暗含return None 所以不写也行命令行输入文件直接用 fileinpt.input()获得每一行的迭代 list(fileinpt.input()) 模板字符串 In [1]: from string import Template d=dict(who='meng') In [6]: s=Template('${who}') In [7]: s.substitute(d) Out[7]: 'meng' 用sys.path[0]可以获取脚本目录 meng/../meng也是可以的 ..不一定要开头 python3导入路径要用from 包.xx import xx 路径还是要自己加入，根据运行路径来加！！ sys.path.append('./') 加当前运行路径编译器会加项目路径但命令行不会！！默认只有系统path和当前文件的文件夹path sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__))))插入上上级目录 os.path.abspath(__file__)文件路径 sys.path.append("..") sys.path.append("lib") path = sys.path[0]#获取编译后的pyc文件夹路径 mysql中要把单引号等转义用 string = pymysql.escape_string(string) python3 string = MySQLdb.escape_string(string) python2 中文需要修改数据库字段编码 utf-8 python中调函数要用self. 但是参数里不能加self！ >>> a=unicode 可以自己用函数名赋值 >>> a('faf') from __future__ import unicode_literals 所有字符当unicode处理 cookielib处理（文件保存） self.cj = cookielib.MozillaCookieJar(self.COOKIE_FILE) self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cj)) cj.load() cj.save() （自动处理，自动在opener里管理cookie） cookie=cookielib.CookieJar() opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) a=5+.5 b=.5 b=5. 一个文件里需要在别的文件里调用的写到类里（一个文件可以有多个类），自己文件里调用的写外面就行（类里可以直接用的） def _make_result(formats, **kwargs): return res class TestFormatSelection(unittest.TestCase): 能简单就简单！！！！不要啥都想着建类，配置文件因为脚本是不需要编译的，所以脚本里可以多写点能改的东西，比如配置类变量定义在类的定义之后，实例变量则是以为self.开头。类变量可以直接用类名调用 python用makedirs即可建立级联目录 makedirs('/tmp/cc') os.path.dirname(path) 获取父目录 os.path.split(file_path)[-1] 获取文件名 os.path.dirname(__file__) os.path.join(basedir,file) os.path.abspath(file) 文件目录存在 os.path.exists('d:/assist') os.path.isdir('d:/assist') os.path.isfile('d:/assist') 当urlopen()不能处理响应时会引起URLError异常。HTTPError异常是URLError的一个子类，只有在访问HTTP类型的URL时才会引起。访问失败会抛出异常，但是在异常里还是存在响应的信息的！如read、geturl、info，heads等方法。 raise 抛出异常，不继续执行列表生成式 [x*x for x in range(5)] 输出到文件 python处理文本还是很快的 200MB 81w行只要一分钟查询mysql中文内容需要reload(sys) 初始化后会删除sys.setdefaultencoding方法，所以需要重新加载 sys.setdefaultencoding('utf8') 　我们把变量从内存中变成可存储或传输的过程称之为序列化。如爬虫的去重内存。在python中提供了两个模块可进行序列化。分别是pickle和json。遍历时不能改变迭代器长度！！！所以要删除时不要用迭代器遍历没关闭的文件不能重复迭代！！文件都要记得关闭加global声明就可以调用全局里的东西了使用global语句可以清楚地表明变量是在外面的块定义的。但貌似只限一个文件内！！做不到跨类引用变量的，变量只能一个个互相传着修改可以传字典函数能改global声明和参数引用地址！！！但是引用的东西不加global也会被改!! s=[2,6,5] def pp(f): f[0]=1 pp(s) print s s = 1,6,5 load和loads都是实现“反序列化”，区别在于（以Python为例）： loads针对内存对象，即将Python内置数据序列化为字串如使用json.dumps序列化的对象d_json=json.dumps({'a':1, 'b':2})，在这里d_json是一个字串'{"b": 2, "a": 1}' d=json.loads(d_json) #{ b": 2, "a": 1}，使用load重新反序列化为dict load针对文件句柄如本地有一个json文件a.json则可以d=json.load(open('a.json')) 相应的，dump就是将内置类型序列化为json对象后写入文件 python sys.argv[0] 是脚本名如 python run.py >>> if False and 0/0: 判断把好判断的写前面 ... print 'ss' ... >>> 多用break continue提高效率！多层循环时用flag python的强大是可以少写很多东西，脚本就是这样。定义在外面的就行 ************会变的东西才需要传参数！不变的就写在外面全局函数在变量前面定义也行 *************需要改全局的加global 可以先用再定义按执行顺序编译因为脚本语言赋值就是声明 def pp(): print x x=5 pp() 删除删除文件： os.remove() 删除空目录： os.rmdir() 递归删除空目录： os.removedirs() 一个线程需要一个mysql链接！！因为前一个没查完后一个不能查名字写长一点，用的时候再缩写 from crawlerTool import crawlerTool as ct 文件里导入类写入文件要速度直接命令行 python xx>/tmp/1 随地建的数据库sqlite（随地建一个文件当数据库）安装sqlite3 pysqlite2即可使用python来操作 sqlitebrowser界面操作直接看源代码学习怎么用 for line in reader: if reader.line_num == 1: fields = line 获取当前时间 s = datetime.datetime.now() hour = int(s.hour) 求文件行数需要用readlines一口气读取完 lines = f.readlines() len(lines) 搜索中文内容，正则要用unicode编码写 ct.getRegex(u"(搜索词条)",detailPage) 日志滚动 #logger logFilePath = "var/log/youtubeCrawler.log"#日志按日期滚动，保留5天 logger = logging.getLogger() logger.setLevel(logging.INFO) handler = logging.handlers.TimedRotatingFileHandler(logFilePath, when="d", interval=1, backupCount=5) formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s') handler.setFormatter(formatter) logger.addHandler(handler) 按大小滚动 handler = logging.handlers.RotatingFileHandler(logname, maxBytes=2000000, backupCount=5, ) logger = logging.getLogger(logname) logger.setLevel(loglevel) formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s') handler.setFormatter(formatter) logger.addHandler(handler) error_code = 0 logging.basicConfig默认hander的logging 将其加到根logger 替换所有非中文字符 re.sub(ur"[^\u4e00-\u9fa5]", ''，s) 匹配中文 sympton = ct.getRegex(u'(喉咙(.{10}))',rs[1]) pycharm file-setting-code style开启tab字符使用 Python 解决中文编码问题基本可以用以下逻辑： utf8（输入） ——> unicode（处理） ——> （输出）utf8 看源码猜用法！！！用%s format时需要用%%转义% "select diseaseName,diseaseDetailInfo,VisitingDepartment from disease where diseaseDetailInfo like '%%%s%%' limit 100"%(position) 日志模块被设计成线程安全的，不需要客户端做什么特别的动作日志可能有几百M！！所以要替换掉包含相对路径import 的Python脚本不能直接运行from ..utils import ;不建议使用不能在一个包里运行一个脚本文件，顶层的脚本文件不能用相对导入。如果要将一个包作为一个脚本运行的话，需要将运行的脚本文件更名为__main__.py，然后再该包文件夹外运行该包的命令: python -m testpackage 或是像 import cyberlock_download if __name__ == '__main__': cyberlock_download.main() 还有一种解决办法是在包外创建一个脚本文件，然后将包的内容导入到该脚本中。 python遍历文本文件得到的东西是带换行的！！！所以csv格式好系统输入的东西默认当字符串endTime = int(sys.argv[3]) sys.argv[0] 是python文件名 opts, args = getopt.getopt(sys.argv[1:], "pl")#参数p为发布者，l为接受者写成'i:'则后面还加参数 print opts,args for op, value in opts: if op == "-l": listen() elif op == "-p": publish() package 内部的各个 module 之间使用相对路径导入。这样就只能在文件夹 app 外的 run.py文件中导入：from app.module2 import myClass2 相对路径方便了外部调用。要调用的包都需要有__init__.py @property广泛应用在类的定义中，即用方法定义属性 http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001386820062641f3bcc60a4b164f8d91df476445697b9e000 redis使用 pip install redis pool=redis.ConnectionPool(host='192.168.1.142',port=6379,db=0) r = redis.StrictRedis(connection_pool=pool) format 比%更好用可以处理重复的参数 '{name},{age}'.format(age=18,name='kzc') '{},{}'.format('kzc',18) '{1},{0},{1}'.format('kzc',18) 设置输出到终端的字体颜色 print("\033[1;31;40m您输入的帐号或密码错误！\033[0m") 函数式编程 ";".join([str(color) for color in colors] 三元操作 xxxxx if IS_ANSI_TERMINAL else text 字符串转时间格式http://python.usyiyi.cn/python_278/library/index.html d=datetime.datetime.strptime(dtstr, dateformat).date() year = d.year 中国这种格式是 HTML、XML 等 SGML 类语言的转义序列（escape sequence）。它们不是「编码」。需要 from HTMLParser import HTMLParser print HTMLParser().unescape('中国') 比大小时要注意都不为空！ None<5 True '5'>5 True 所以比较要(不为空，全int) if new_duration and old_duration and int(new_duration)<int(old_duration) pyquery库是jQuery的Python实现，可以用于解析HTML网页内容 urllib.urlencode(）字典转url编码 urllib.quote()字符串转url编码 urllib.unquote() url编码解码 uuid生成 import uuid str(uuid.uuid1()) 静态方法加@staticmethod注释，且不用self参数日期处理 day = time.strftime("%Y%m%d",time.localtime()) 或由时间戳转换 x = time.localtime(findDate / 1000) findDate = time.strftime('%Y-%m-%d %H:%M:%S', x) 遍历文件默认有换行，需要rstrip掉！ for line in f: print line.rstrip()

转载请注明原文地址: https://www.6miu.com/read-79844.html

技术

最新回复(0)