SiteSucker使用记录

xiaoxiao2021-02-28 70

之前有试过用爬虫的方式扒取整个网站，缺点是耗时长，需要做的分析工作比较多，但是也有优点，完整分析后对整个网站的结构比较清晰，修改起来比较方便。最近领导给了个任务，给一天时间扒下来一个段子网站，很头疼，分析网站，写爬虫，再进行正则替换，这一套下来怎么着也得半个星期吧。然后本着轮子还是别人造的好的精神，谷歌(百度)到了这款软件。顺便吐槽下，这款软件网上的攻略都不给力啊，来一篇自己的踩到坑坑记录吧。

下载安装

自行百度SiteSucker

软件界面

功能介绍

整站下载图形化界面

使用指南I

在输入框中输入要爬取的种子url(一般网站首页吧，看你心情)回车开始爬，over

使用指南II

通过设置Path Constraints可选择爬取范围 None: 无限制Host: 与种子 url 属同一个（子）域Directory: 与种子 url 属于统一路径Paths Settings: 当前 url + 自定义 Paths SettingsFile Modification设置为Localize可以自动帮你关联本地js、css等文件File Replacement可以选择重复爬取的文件是覆盖还是怎么着可以通过设置Levels来决定爬取的深度多个爬取任务可以添加到queue，爬取配合设置的爬取深度可自动切换任务爬取过程中分析文件占了很长的时间，如果爬到一半不想爬了可以先停止分析，把下载队列里的文件都下完就自动停止了可以在webpage->patterns里面对爬取内容设置正则替换(有不可言说的妙用…)request里面可以选择ua，还可以设置尝试次数FileType里面可以过滤爬取的类型，比如视频(老司机微微一笑)preference里面还可以设置同时开启的连接数(加速)需要登录才能抓取的，先在Open Browser中登录然后开始抓(过弯)Ignore Robot Exclusions可以突破rotots.txt的限制(起飞)

大概也就研究了这么多，一顿饭的时间，电脑已经帮我爬取并整理好我想要的东西了。

转载请注明原文地址: https://www.6miu.com/read-50264.html

技术

最新回复(0)