BeautifulSoup库的使用

xiaoxiao2025-11-15  31

1.安装

这里使用最方便的安装方式,在cmd中输入命令(前提电脑安装了pip)

pip install beautifulsoup4

2.beautifulsoup4的基本元素

基本元素

说明

Tag

标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾

Name

标签的名字,<p>…</p>的名字是'p',格式:<tag>.name

Attributes

标签的属性,字典形式组织,格式:<tag>.attrs

NavigableString

标签内非属性字符串,<>…</>中字符串,格式:<tag>.string

Comment

标签内字符串的注释部分,一种特殊的Comment类型

3.beautifulsoup4的遍历方法

3.1下行遍历

属性

说明

.contents

子节点的列表,将<tag>所有儿子节点存入列表

.children

子节点的迭代类型,与.contents类似,用于循环遍历儿子节点

.descendants

子孙节点的迭代类型,包含所有子孙节点,用于循环遍历

 

3.2上行遍历

属性

说明

.parent

节点的父亲标签

.parents

节点先辈标签的迭代类型,用于循环遍历先辈节点

 3.3平行遍历

属性

说明

.next_sibling

返回按照HTML文本顺序的下一个平行节点标签

.previous_sibling

返回按照HTML文本顺序的上一个平行节点标签

.next_siblings

迭代类型,返回按照HTML文本顺序的后续所有平行节点标签

.previous_siblings

迭代类型,返回按照HTML文本顺序的前续所有平行节点标签

4.beautifulsoup4库的输出格式

.prettify() 为HTML文本<>及其内容增加更加'\n' .prettify()可用于标签,方法:.prettify()

5.基于bs4的查找方法

<>.find_all(name, attrs, recursive, string, **kwargs)

返回一个列表类型,存储查找的结果

name : 对标签名称的检索字符串attrs: 对标签属性值的检索字符串,可标注属性检索recursive: 是否对子孙全部检索,默认Truestring: <>…中字符串区域的检索字符串**kwargs 控制访问参数

简化用法

(..) 等价于 .find_all(..)

soup(..) 等价于 soup.find_all(..)

 扩展方法

方法

说明

<>.find()

搜索且只返回一个结果,同.find_all()参数

<>.find_parents()

在先辈节点中搜索,返回列表类型,同.find_all()参数

<>.find_parent()

在先辈节点中返回一个结果,同.find()参数

<>.find_next_siblings()

在后续平行节点中搜索,返回列表类型,同.find_all()参数

<>.find_next_sibling()

在后续平行节点中返回一个结果,同.find()参数

<>.find_previous_siblings()

在前序平行节点中搜索,返回列表类型,同.find_all()参数

<>.find_previous_sibling()

在前序平行节点中返回一个结果,同.find()参数

转载请注明原文地址: https://www.6miu.com/read-5039690.html

最新回复(0)