作为码农近期才开始学习爬虫,所以按照网上的一些帖子和教程走了一遍。下面放上我看过的连接:
静觅的博客:http://cuiqingcai.com/1052.html Python爬虫相关的工具列表: https://zhuanlan.zhihu.com/p/22660569
如果英语水平可以的话还是看官方的文档(原来是从pyspider开始折腾,但是有很多地方云里雾里就放弃了):https://doc.scrapy.org/en/latest/index.html
爬虫防ban的帖子:
http://blog.csdn.net/u012150179/article/details/35774323http://www.tuicool.com/articles/VRfQR3U对于user-agent(ua)我是用的scrapy-fake-useragent(能个scrapy-proxies联合起来用),这个是基于fake-useragent会从网上自己扒user-agent下来,然后每次request都用不同的ua.
对于代理我也找了github上面扒网上代理的爬虫或者程序,结合了一下scrapy-proxies 和网上找到的其他的扒代理IP的工具,scrapy-proxies是加载本地的代理列表的txt文件后,从中读取每一个代理ip然后用到爬虫中的,所以你要先有一个能用的代理的列表(可以自己手写一个,也能github上面找,还是比较多的)
用这两个package的时候比较坑的地方是,用的相对路径找加载的txt文件,你的terminal在什么位置运行爬虫就从那个位置开始找这些txt文件。
另外一点就是scrapy是遵循robot.txt的规则的,很多网站都不会让你爬,在scrapy的settings里面记得改成ROBOTSTXT_OBEY = False