爬虫入门（requests，beautifulSoup）

xiaoxiao2021-02-28 22

爬虫基本步骤

扒取数据处理数据进一步处理数据

爬虫代码与解析

import re from bs4 import BeautifulSoup import requests def main(): # 通过requests第三方库的get方法获取页面 resp = requests.get('http://sports.sohu.com/nba_a.shtml') # 对响应的字节串（bytes）进行解码操作 html = resp.content.decode('gbk') # 创建BeautifulSoup对象来解析页面（相当于JavaScripts的DOM） bs = BeautifulSoup(html,'lxml') # print(bs.title) # 通过CSS选择器语法查找元素并通过循环进行处理 for elem in bs.select('a[test=a]'): # 通过attrs属性（字典）获取元素的属性值 link_url = elem.attrs['href'] resp = requests.get(link_url) bs_sub = BeautifulSoup(resp.text,'lxml') # 使用正则表达式对获取的数据进一步处理 print(re.sub(r'[\r\n]','',bs_sub.select_one('h1').text)) if __name__ == '__main__': main()

转载请注明原文地址: https://www.6miu.com/read-2625007.html

技术

最新回复(0)