BeautifulSoup库的使用

xiaoxiao2025-11-15 31

1.安装

这里使用最方便的安装方式，在cmd中输入命令（前提电脑安装了pip）

pip install beautifulsoup4

2.beautifulsoup4的基本元素

基本元素

说明

Tag

标签，最基本的信息组织单元，分别用<>和</>标明开头和结尾

Name

标签的名字，<p>…</p>的名字是'p'，格式：<tag>.name

Attributes

标签的属性，字典形式组织，格式：<tag>.attrs

NavigableString

标签内非属性字符串，<>…</>中字符串，格式：<tag>.string

Comment

标签内字符串的注释部分，一种特殊的Comment类型

3.beautifulsoup4的遍历方法

3.1下行遍历

属性

说明

.contents

子节点的列表，将<tag>所有儿子节点存入列表

.children

子节点的迭代类型，与.contents类似，用于循环遍历儿子节点

.descendants

子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

3.2上行遍历

属性

说明

.parent

节点的父亲标签

.parents

节点先辈标签的迭代类型，用于循环遍历先辈节点

3.3平行遍历

属性

说明

.next_sibling

返回按照HTML文本顺序的下一个平行节点标签

.previous_sibling

返回按照HTML文本顺序的上一个平行节点标签

.next_siblings

迭代类型，返回按照HTML文本顺序的后续所有平行节点标签

.previous_siblings

迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

4.beautifulsoup4库的输出格式

.prettify() 为HTML文本<>及其内容增加更加'\n' .prettify()可用于标签，方法：.prettify()

5.基于bs4的查找方法

<>.find_all(name, attrs, recursive, string, **kwargs)

返回一个列表类型，存储查找的结果

name : 对标签名称的检索字符串attrs: 对标签属性值的检索字符串，可标注属性检索recursive: 是否对子孙全部检索，默认Truestring: <>…中字符串区域的检索字符串**kwargs 控制访问参数

简化用法

(..) 等价于 .find_all(..)

soup(..) 等价于 soup.find_all(..)

扩展方法

方法

说明

<>.find()

搜索且只返回一个结果，同.find_all()参数

<>.find_parents()

在先辈节点中搜索，返回列表类型，同.find_all()参数

<>.find_parent()

在先辈节点中返回一个结果，同.find()参数

<>.find_next_siblings()

在后续平行节点中搜索，返回列表类型，同.find_all()参数

<>.find_next_sibling()

在后续平行节点中返回一个结果，同.find()参数

<>.find_previous_siblings()

在前序平行节点中搜索，返回列表类型，同.find_all()参数

<>.find_previous_sibling()

在前序平行节点中返回一个结果，同.find()参数

转载请注明原文地址: https://www.6miu.com/read-5039690.html

Java

最新回复(0)