Python爬虫笔记v1.0

xiaoxiao2021-02-28  106

重新捡起Python! 想拔下来B站更新的综艺,找了找一年前写的代码发现没有注释真的要死要死,从0.1开始! 本文记录了一些常用的语法,用于本弱渣学习。

ctrl+alt+l可以用于格式化

- with open as

with open('/path/to/file', 'r') as f: print(f.read())

相当于

try: f = open('/path/to/file', 'r') print(f.read()) finally: if f: f.close()

理解为 with open as事实上是包括了f.read()和f.close()两个操作。

- from XX in zip(XX):

for title, image, review, price, star in zip(titles, images, reviews, prices, stars):

zip函数接受任意多个(包括0个和1个)序列作为参数,返回一个tuple列表。

- sep

sep是python3特有的。。。所以一开始用python2.7跑一直报错,不知道什么问题,换成python3.7就可以了。但python3.7版本号太高,导致一些库安装起来十分麻烦。。就换回了python2.7。

- proxies

可以设置代理。跑多了ip容易被封。。。 如果遇到lxml解析不出来,试一试多半是跑着跑着被禁掉了。。

requests.get(url, cookies = cookie,proxies=proxies)

- 未解决的问题

下面两行代码用与匹配图片,不知道为什么在html中找到的这个path,在匹配的时候第一个会匹配失败,是个很玄学的问题

soup.find_all('a',href=re.compile(r'^/http:XXXX/mblog/oripic',re.I)) soup.find_all('a',href=re.compile(r'^/mblog/oripic{1}',re.I))
转载请注明原文地址: https://www.6miu.com/read-21039.html

最新回复(0)