【爬虫】python 抓取百度百科 简介 导出txt(含自动翻页)(安装chromdriver)未完

xiaoxiao2021-02-28  45

参考:

http://blog.csdn.net/forever_mumu/article/details/51009533(主要的参考,不过用的是python2 ,和我的Python有冲突)

http://blog.csdn.net/shujuliu818/article/details/53587085 (为了解决其中代码的问题,参考了这个文章)

摘录一下:(3.0版本中已经将urllib2、urlparse、和robotparser并入了urllib中,并且修改urllib模块,其中包含5个子模块,即是help()中看到的那五个名字

---------------------------------------------------------------------------------------------------------------------------------

根据python3的方式改动一下代码:主要是把 urllib2 = urllib.request urlparse = urllib.urlparse print = print()

我这里是报错了,只能自己再想办法,主要要解决连接跳转的问题

------------------------------------------------------------

参考 : http://www.jb51.net/article/57154.htm |抓取到糗事百科里面的指定内容|

参考:http://www.jb51.net/article/121921.htm  Python实现博客上进行自动翻页

# coding=utf-8 import os import time from selenium import webdriver #打开火狐浏览器 需要V47版本以上的 driver = webdriver.Firefox()#打开火狐浏览器 url = "http://codelife.ecit-it.com"#这里打开我的博客网站 driver.get(url)#设置火狐浏览器打开的网址 time.sleep(2) #使用xpath进行多路径或多元素定位,用法看官网http://selenium-python.readthedocs.io/locating-elements.html elem_dh = driver.find_elements_by_xpath("//div[@class='pagination pagination-large']/ul/li/a") print ("我是刚获取的翻页按钮的路径数组:",elem_dh) print ("下一页按钮元素:",elem_dh[2]) time.sleep(5) #获取当前窗口句柄 now_handle = driver.current_window_handle #获取当前窗口句柄 print ("我是当前窗口的句柄:",now_handle)#打印窗口句柄 是一串数字 time.sleep(10) #循环获取界面 for elem in elem_dh: print ("我是翻页按钮上的文本信息:",elem.text) #获取元素的文本值 print ("我是翻页按钮的地址",elem.get_attribute('href')) #获取元素的href属性值 elem.click()#点击进入新的界面 _blank弹出 print ("刚翻页完成了!") time.sleep(20)

分析一下:

导入了三个模块: os | time | selenium

然而需要安装     浏览器的diver 

参考:

http://blog.csdn.net/azsx02/article/details/68947429

https://www.npmjs.com/package/selenium-webdriver

 安装三大浏览器驱动driver

     1.chromedriver 下载地址:https://code.google.com/p/chromedriver/downloads/list

     2.Firefox的驱动geckodriver 下载地址:https://github.com/mozilla/geckodriver/releases/

     3.IE的驱动IEdriver 下载地址:http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/

下面打开浏览器出错了 ,参考:https://jingyan.baidu.com/article/fea4511a29f673f7ba912560.html

参考:http://blog.csdn.net/pengbin790000/article/details/76696853

selenium webdriver调用google chrome配置chromedriver

http://blog.csdn.net/carsonzhang_/article/details/46318531

https://www.cnblogs.com/technologylife/p/5829944.html

--------------------------------------------

安装参考:https://www.npmjs.com/package/chromedriver

npm install chromedriver --chromedriver_cdnurl=https://npm.taobao.org/mirrors/chromedriver

---------------------------------------------------------------------------------------------------------

最终,通过这个完成了配置

参考:http://blog.csdn.net/huilan_same/article/details/52615123

转载请注明原文地址: https://www.6miu.com/read-2625057.html

最新回复(0)