python 爬虫(四) Link Extractors 详解

xiaoxiao2021-02-28  60

Link Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象。

from scrapy.contrib.linkextractors import LinkExtractor

参数:

allow 正则,只有匹配到的url才会被提取 跟进deny 正则,匹配到的url 不会被提取 ,它优先于allow参数allow_domains str或者list 允许跟进的域名deny_domains str或者list 不允许跟进的域名deny_extensions 包含扩展的list,在提取链接时应忽略这些值restrict_xpaths 如果给定的话,只有那些XPath选择的文本才会被扫描为链接tags 只选取某类标签下的内容attrs 只选取某个属性的内容unique bool 是否做去重过滤process_value //未知

使用详情 参考链接

转载请注明原文地址: https://www.6miu.com/read-2619098.html

最新回复(0)