java实现爬虫改变人生！（二）

xiaoxiao2021-02-28 112

前言：一说到java爬虫，一般用Jsoup解析，方便嘛。那么不一般情况下呢？如要解析js，css等。所以要用到htmlunit，但是一般来说，在小型爬虫项目中，这种框架十分常用，可以有效的分析出 dom的标签，并且有效的运行页面上的js以便得到一些需要执行JS才能得到的值。也就是说可以爬取老司机某V的资源，然后你的数据库就是大数据了，拥有百亿种籽；你也可以爬取某东和某猫的商品信息，然后用某种排序算法，取得最便宜最廉价的商品；你当反爬虫的吃bianbian的。。。我们就介绍一下用法：

HtmlDivision divs = (HtmlDivision) page.getByXPath("//div[@class='hotwords']").get(0); Iterable<DomElement> ddList = divs.getChildElements(); Iterator<DomElement> iter = ddList.iterator(); while (iter.hasNext()) { Resource resource = new Resource(); DomElement dom = iter.next(); String title = dom.getAttribute("title"); String resourceUrl = url + dom.getAttribute("href"); resource.setTitle(title); resource.setUrl(resourceUrl); resultList.add(resource); }

解析：大概意思就是。。。看数据库吧。以下是爬了几个例子，如果有什么不足，可以自己爬取一下。

有人就说，某度网盘那么多资源，为什么不爬它，你当某度的吃~~，不信你自己爬爬

下载地址：链接：http://pan.baidu.com/s/1i5wVRnf 密码：br99

全的丰（好）色（se）博客，这里有书本看不到的Java技术，电影院禁播的电影，欢迎关注QQ群494808400

转载请注明原文地址: https://www.6miu.com/read-39759.html

技术

最新回复(0)