爬虫抓取数据时,被抓取的网站可能会限制流量。可以用代理,不停的变换ip。但现在有个问题,要抓取的网站需要翻墙,这些代理不能翻墙。但我本地通过hosts文件可以访问到要抓取的网站。
抓取网站是通过https协议,http第一步是dns解析,如果不通过dns服务器解析,直接用我给定的ip,就可以访问了。
有几个问题要确认: 1、http能不能用指定ip,不用dns解析;如果能,可解。 2、如果不能,能不能通过tcp连接,获取到要访问的网页; 3、如果能,能不能通过代理发送和接收tcp连接; 4、如果能,可解;如果不能,就算了。
还有一个问题,一个页面,怎么那么多次请求?
遇到同样问题的博主们: http://zyan.cc/post/389/ http://bbs.csdn.net/topics/360250572
回答上面的问题: 1、不能 2、可以 3、可以,但我买的是HTTP代理,不是socks代理,所以还是不能。