采集新浪体育(http://match.sports.sina.com.cn/football/opta_rank.php?dpc=1) 球队积分榜及球员信息 前嗅是一个爬虫软件,可以从网页上爬下大量的数据,以采集新浪体育 (http://match.sports.sina.com.cn/football/opta_rank.php?dpc=1) 球队积分榜及球员信息为例,记录爬下数据的过程。 一、 软件下载 免费版下载地址:http://www.forenose.com/download.html 免费版不限功能,每天最多可采集1000条数据。 二、频道配置 新建频道,在频道配置里面输入采集的地址: http://match.sports.sina.com.cn/football/opta_rank.php?dpc=1 三、 模板配置 新建频道后,软件默认添加了两个模板,一个是链接抽取,一个是数据抽取。 链接抽取:当需要采集的页面有需要的链接,就加上链接抽取 数据抽取:当页面有我们需要采集的数据时,加上数据抽取 比如http://match.sports.sina.com.cn/football/opta_rank.php?dpc=1 这个页面,积分榜里面的球队名字都是链接,可以点击去下一级页面看该球队信息,所以就需要为这个页面加上一个链接抽取。 点击球队名称进入球队信息页面后,例如切尔西队: http://match.sports.sina.com.cn/football/team.php?id=60&dpc=1 如下图,需要为页面添加一个链接抽取和数据抽取。 点击球员例如库尔图瓦进入球员信息页面: http://match.sports.sina.com.cn/football/player.php?id=60772 最后有三个模板,如下图: 四、 地址过滤、关联模板 1. 地址过滤 点击采集预览,可以看到页面里面有很多不需要的链接,采用地址过滤留下需要的链接。 找到需要的链接,地址一般都比较相似,用通配符代替变化的地方。刷新链接里选择前面为该页面建立好的链接抽取。保存。重新测试即可得到该页面需要的地址。 同样的,在球队信息页面过滤掉不需要的地址,留下需要的球员地址。在采集预览中,双击球队链接条目进入球队信息页面。 2. 模板关联、示例地址 要为每一个模板添加一个示例地址,默认模板1的示例地址软件自动的填上去了,就是在频道配置的地址。示例地址的作用就是为了方便以后在页面上选值,为软件提供一个模板。 每一个链接抽取都需要关联一个模板 五、 表单配置 配置表单的目的就是确定需要采集哪些值,相当于在表单中新建了字段,以后采集的数据为这些字段的属性。 因为我们需要将积分榜和球员的信息都采集下来,所以需要新建两个表单:积分榜和球员 球员表单 在右边添加字段,如下图,hk字段是网页主键,为了标识数据的唯一性,没有其他作用。字段属性要选中图中的三项。 添加其他的字段如球员姓名、年龄等。 最终字段添加完成,保存。 新建积分榜表单也是同样的过程。 六、 关联表单、数据匹配 1. 关联表单 前面新建的数据抽取就是用来识别数据的,所以要为每个数据抽取关联表单。 关联表单后就可以看到该表单的全部字段,接下来就用这些字段来匹配示例页面的字段。 2. 数据匹配 积分榜数据匹配:选中某个字段,如rank(排名)字段。按住Ctrl加鼠标左键选择排名,(按Shift加鼠标左键可以扩选)保存,再进行下一个字段匹配,以此类推。匹配积分榜所有字段。 匹配完成后,右键数据抽取积分榜,模板预览及可查看匹配结果。 球员数据的抽取类似。 六、 数据库 1. 打开数据库 软件提供了几种存储数据的数据库连接。自带的有ForeLib数据库,不需要配置任何地方,选择好数据路径打开即可。 2. 选择数据表 选择爬虫表单,创建表,可以将积分榜和球员一起爬下来,也可以单个爬下来。 七、 数据采集 1. 清空日志 刷新、清空日志、再刷新: 2. 采集策略配置 根据计算机性能配置配置线程数目。 3. 数据采集 点击开始,采集即开始。 九、 数据浏览及导出 在数据浏览页面可以看到采集的数据表单,可以导出为csv格式文件。 十、 完成