Python爬虫笔记v1.0

xiaoxiao2021-02-28 136

重新捡起Python！想拔下来B站更新的综艺，找了找一年前写的代码发现没有注释真的要死要死，从0.1开始！本文记录了一些常用的语法，用于本弱渣学习。

ctrl+alt+l可以用于格式化

- with open as

with open('/path/to/file', 'r') as f: print(f.read())

相当于

try: f = open('/path/to/file', 'r') print(f.read()) finally: if f: f.close()

理解为 with open as事实上是包括了f.read()和f.close()两个操作。

for title, image, review, price, star in zip(titles, images, reviews, prices, stars):

zip函数接受任意多个（包括0个和1个）序列作为参数，返回一个tuple列表。

sep是python3特有的。。。所以一开始用python2.7跑一直报错，不知道什么问题，换成python3.7就可以了。但python3.7版本号太高，导致一些库安装起来十分麻烦。。就换回了python2.7。

可以设置代理。跑多了ip容易被封。。。如果遇到lxml解析不出来，试一试多半是跑着跑着被禁掉了。。

requests.get(url, cookies = cookie,proxies=proxies)

下面两行代码用与匹配图片，不知道为什么在html中找到的这个path，在匹配的时候第一个会匹配失败，是个很玄学的问题

soup.find_all('a',href=re.compile(r'^/http:XXXX/mblog/oripic',re.I)) soup.find_all('a',href=re.compile(r'^/mblog/oripic{1}',re.I))

转载请注明原文地址: https://www.6miu.com/read-21039.html

最新回复(0)