java实现爬虫改变人生!(二)

xiaoxiao2021-02-28  112

前言:一说到java爬虫,一般用Jsoup解析,方便嘛。那么不一般情况下呢?如要解析js,css等。所以要用到htmlunit,但是一般来说,在小型爬虫项目中,这种框架十分常用,可以有效的分析出 dom的标签,并且有效的运行页面上的js以便得到一些需要执行JS才能得到的值。 也就是说可以爬取老司机某V的资源,然后你的数据库就是大数据了,拥有百亿种籽;你也可以爬取某东和某猫的商品信息,然后用某种排序算法,取得最便宜最廉价的商品;你当反爬虫的吃bianbian的。。。 我们就介绍一下用法:

HtmlDivision divs = (HtmlDivision) page.getByXPath("//div[@class='hotwords']").get(0); Iterable<DomElement> ddList = divs.getChildElements(); Iterator<DomElement> iter = ddList.iterator(); while (iter.hasNext()) { Resource resource = new Resource(); DomElement dom = iter.next(); String title = dom.getAttribute("title"); String resourceUrl = url + dom.getAttribute("href"); resource.setTitle(title); resource.setUrl(resourceUrl); resultList.add(resource); }

解析:大概意思就是。。。看数据库吧。以下是爬了几个例子,如果有什么不足,可以自己爬取一下。

有人就说,某度网盘那么多资源,为什么不爬它,你当某度的吃~~,不信你自己爬爬

下载地址:链接:http://pan.baidu.com/s/1i5wVRnf 密码:br99

全的丰(好)色(se)博客,这里有书本看不到的Java技术,电影院禁播的电影,欢迎关注QQ群494808400

转载请注明原文地址: https://www.6miu.com/read-39759.html

最新回复(0)