欢迎使用6miu-markdown编辑器

xiaoxiao2021-02-28  158

Scrapy框架个人采坑手册

作为码农近期才开始学习爬虫,所以按照网上的一些帖子和教程走了一遍。下面放上我看过的连接:

静觅的博客:http://cuiqingcai.com/1052.html Python爬虫相关的工具列表: https://zhuanlan.zhihu.com/p/22660569

如果英语水平可以的话还是看官方的文档(原来是从pyspider开始折腾,但是有很多地方云里雾里就放弃了):https://doc.scrapy.org/en/latest/index.html

爬虫防ban的帖子:

http://blog.csdn.net/u012150179/article/details/35774323http://www.tuicool.com/articles/VRfQR3U

对于user-agent(ua)我是用的scrapy-fake-useragent(能个scrapy-proxies联合起来用),这个是基于fake-useragent会从网上自己扒user-agent下来,然后每次request都用不同的ua.

对于代理我也找了github上面扒网上代理的爬虫或者程序,结合了一下scrapy-proxies 和网上找到的其他的扒代理IP的工具,scrapy-proxies是加载本地的代理列表的txt文件后,从中读取每一个代理ip然后用到爬虫中的,所以你要先有一个能用的代理的列表(可以自己手写一个,也能github上面找,还是比较多的)

用这两个package的时候比较坑的地方是,用的相对路径找加载的txt文件,你的terminal在什么位置运行爬虫就从那个位置开始找这些txt文件。

另外一点就是scrapy是遵循robot.txt的规则的,很多网站都不会让你爬,在scrapy的settings里面记得改成ROBOTSTXT_OBEY = False


个人学习顺序

urllib, 正则表达式requests, beautifulsoup, lxml, html5lib, Xpath, PhantomJS, Selenium, PyQueryPySpider, Scrapy防ban
转载请注明原文地址: https://www.6miu.com/read-33570.html

最新回复(0)