Python(17):伪装成浏览器读取网页信息

xiaoxiao2021-02-28  106

我用的是Python3和urllib2,想用来读取网页页面上的内容。

但是有的时候读不了。

出现urllib2.HTTPError: HTTP Error 403: Forbidden错误是由于网站禁止爬虫,可以在请求加上头信息,伪装成浏览器访问。

import urllib headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} req = urllib.request.Request(url = 'http://www.huadu.gov.cn/xxgk/jgsz/sydw/',headers = headers) data = urllib.request.urlopen(req).read() data = data.decode('gbk') 至于网页编码的话,有些网页是utf-8,有些是gbk。这个试试就好了,其他应该没什么问题。

转载请注明原文地址: https://www.6miu.com/read-54223.html

最新回复(0)