欢迎使用6miu-markdown编辑器

xiaoxiao2021-02-28 158

Scrapy框架个人采坑手册

作为码农近期才开始学习爬虫，所以按照网上的一些帖子和教程走了一遍。下面放上我看过的连接：

静觅的博客：http://cuiqingcai.com/1052.html Python爬虫相关的工具列表: https://zhuanlan.zhihu.com/p/22660569

如果英语水平可以的话还是看官方的文档（原来是从pyspider开始折腾，但是有很多地方云里雾里就放弃了）：https://doc.scrapy.org/en/latest/index.html

爬虫防ban的帖子:

http://blog.csdn.net/u012150179/article/details/35774323http://www.tuicool.com/articles/VRfQR3U

对于user-agent(ua)我是用的scrapy-fake-useragent（能个scrapy-proxies联合起来用），这个是基于fake-useragent会从网上自己扒user-agent下来，然后每次request都用不同的ua.

对于代理我也找了github上面扒网上代理的爬虫或者程序，结合了一下scrapy-proxies 和网上找到的其他的扒代理IP的工具，scrapy-proxies是加载本地的代理列表的txt文件后，从中读取每一个代理ip然后用到爬虫中的，所以你要先有一个能用的代理的列表（可以自己手写一个，也能github上面找，还是比较多的）

用这两个package的时候比较坑的地方是，用的相对路径找加载的txt文件，你的terminal在什么位置运行爬虫就从那个位置开始找这些txt文件。

另外一点就是scrapy是遵循robot.txt的规则的，很多网站都不会让你爬，在scrapy的settings里面记得改成ROBOTSTXT_OBEY = False

个人学习顺序

urllib, 正则表达式requests, beautifulsoup, lxml, html5lib, Xpath, PhantomJS, Selenium, PyQueryPySpider, Scrapy防ban

转载请注明原文地址: https://www.6miu.com/read-33570.html

技术

最新回复(0)