Python爬虫库学习笔记-requests

xiaoxiao2021-02-28  95

安装 (1)利用pip安装,命令行直接输入pip install requests (2)利用easy_install安装,命令行直接输入easy_install requests


基本请求 (1)requests库提供http所有的基本请求方式,get,post,put,delete,head,options。


基本GET请求 (1)直接使用get方法。 (2)想要加参数,在get方法内传入params参数,get方法会帮你把url和参数连接起来。 (3)想要请求json文件的话,可以使用json()方法来解析。 (4)想要获取来自服务器的原始套接字响应,可以使用raw()方法,同时需要在get()请求中设置stream参数为True。 (5)想要添加headers信息,要向get()方法里的headers参数传递一个包含信息的字典。


基本POST请求 (1)对于post请求,我们最起码需要以字典的形式传递data参数。 (2)当我们需要传送的信息不是表单形式,而是json格式的时候,我们可以使用json.dums()方法把表单数据序列化后传递给data参数。 (3)如果想要上传文件,直接使用post里面的files参数。 (4)requests支持流式上传的,这就允许你发送大的数据流或文件而无需把它们读入内存。要使用流式上传,需要为请求体提供一个类文件对象,然后传递给data参数。


Cookies (1)如果一个响应包含了cookie,那么我们可以利用cookies变量获取到。 (2)请求方法中含有cookies参数,允许我们向服务器发送cookies信息,cookies参数接收的是字典类型的数据。


超时配置 (1)使用请求方法中的timeout参数来设置最大的请求时间,需要注意的是timeout只是对连接过程有效,与响应体的下载无关。


会话对象 (1)每使用一个请求方法,都相当于新开一个会话。要想保持一个持久的会话需要使用创建会话对象Session,然后由会话对象来调用请求方法。相同会话调用的请求方法等于同一个会话。 (2)可以通过s.headers.update()方法设置headers中的信息。 (3)通过(2)方法设置headers信息与使用请求方法中的headers参数设置是不冲突的,也就是会在最后同时添加上去,但是相同的信息会被覆盖。 (4)如果要删除headers中某个信息,把该信息对应的值设置为None,然后以字典的形式传递给headers参数即可。


SSL证书验证 (1)对于https开头的网站我们可以请求验证SSL证书。 (2)requests可以为HTTPS请求验证SSL证书,在请求方法中设置verify参数为True。 (3)是否请求要按需求来,不一定要请求才能获取页面相应的。


代理 (1)如果需要使用代理,可以通过为任意请求方法提供proxies参数来配置单个请求,以字典的形式给proxies参数设置形参。


官方文档: requests官方文档


具体内容请看: 静觅 » Python爬虫利器一之requests库的用法

转载请注明原文地址: https://www.6miu.com/read-61250.html

最新回复(0)