Link Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象。
from scrapy.contrib.linkextractors
import LinkExtractor
参数:
allow 正则,只有匹配到的url才会被提取 跟进deny 正则,匹配到的url 不会被提取 ,它优先于allow参数allow_domains str或者list 允许跟进的域名deny_domains str或者list 不允许跟进的域名deny_extensions 包含扩展的list,在提取链接时应忽略这些值restrict_xpaths 如果给定的话,只有那些XPath选择的文本才会被扫描为链接tags 只选取某类标签下的内容attrs 只选取某个属性的内容unique bool 是否做去重过滤process_value //未知
使用详情 参考链接