java实现爬虫改变人生!

xiaoxiao2021-02-28  113

写代码让你怀疑人生,那爬虫定会改变你人生,爬取你需要的torrent,当然高级点的网站都反爬虫。

下面就爬取一下电影的网站

http://www.xunleigang.net/html/aiqing/

1、Elements links=doc.select(".bcr_box dl"); 2、Elements links21 = link.getElementsByTag("dt"); Elements links31 = link.getElementsByTag("dd"); Elements links21_ = links21.get(0).getElementsByTag("i"); Elements links22_ = links21.get(0).getElementsByTag("a"); Elements links31_ = links31.get(0).getElementsByTag("img"); String links21__ = links21_.toString(); String links22__ = links22_.attr("href"); String links23__ = links22_.text().toString(); String links31__ = links31_.attr("src"); links21__ = links21__.substring(3, links21__.lastIndexOf("<")); Calendar a = Calendar.getInstance(); links21__ = a.get(Calendar.YEAR) + "-" + links21__; // System.out.println(links21__); //电影时间 // System.out.println(links22__); //电影详情 // System.out.println(links23__); //电影名称 // System.out.println(links31__); //电影图片 // Map<String,String> replaceImgMap=downLoadImags(imgUrlList); // 下载图片 // String newContent=replaceWebPageImages(content,replaceImgMap); // 替换图片 //String links44__ = downLoadImags(links31__); // 下载图片 3、下载图片 InputStream inputStream=entity.getContent(); String imageType=entity.getContentType().getValue(); String urlB=imageType.split("/")[1]; // System.out.println(imageType); String currentDatePath=DateUtil.getCurrentDatePath(); // 当年年月日路径 String uuid=UUID.randomUUID().toString(); // uuid String newPath="http://localhost:8080/CnBlog/static/blogImages/"+currentDatePath+"/"+uuid+"."+urlB; result = newPath; FileUtils.copyToFile(inputStream, new File(PropertiesUtil.getValue("imageFilePath")+currentDatePath+"/"+uuid+"."+urlB));

详细下载地址: 链接:http://pan.baidu.com/s/1boOHfFD 密码:mkln

全的丰(好)色(se)博客,这里有书本看不到的Java技术,电影院禁播的电影,欢迎关注QQ群494808400

转载请注明原文地址: https://www.6miu.com/read-67937.html

最新回复(0)