参考:
http://blog.csdn.net/forever_mumu/article/details/51009533(主要的参考,不过用的是python2 ,和我的Python有冲突)
http://blog.csdn.net/shujuliu818/article/details/53587085 (为了解决其中代码的问题,参考了这个文章)
摘录一下:(3.0版本中已经将urllib2、urlparse、和robotparser并入了urllib中,并且修改urllib模块,其中包含5个子模块,即是help()中看到的那五个名字)
---------------------------------------------------------------------------------------------------------------------------------
根据python3的方式改动一下代码:主要是把 urllib2 = urllib.request urlparse = urllib.urlparse print = print()
我这里是报错了,只能自己再想办法,主要要解决连接跳转的问题
------------------------------------------------------------
参考 : http://www.jb51.net/article/57154.htm |抓取到糗事百科里面的指定内容|
参考:http://www.jb51.net/article/121921.htm Python实现博客上进行自动翻页
# coding=utf-8 import os import time from selenium import webdriver #打开火狐浏览器 需要V47版本以上的 driver = webdriver.Firefox()#打开火狐浏览器 url = "http://codelife.ecit-it.com"#这里打开我的博客网站 driver.get(url)#设置火狐浏览器打开的网址 time.sleep(2) #使用xpath进行多路径或多元素定位,用法看官网http://selenium-python.readthedocs.io/locating-elements.html elem_dh = driver.find_elements_by_xpath("//div[@class='pagination pagination-large']/ul/li/a") print ("我是刚获取的翻页按钮的路径数组:",elem_dh) print ("下一页按钮元素:",elem_dh[2]) time.sleep(5) #获取当前窗口句柄 now_handle = driver.current_window_handle #获取当前窗口句柄 print ("我是当前窗口的句柄:",now_handle)#打印窗口句柄 是一串数字 time.sleep(10) #循环获取界面 for elem in elem_dh: print ("我是翻页按钮上的文本信息:",elem.text) #获取元素的文本值 print ("我是翻页按钮的地址",elem.get_attribute('href')) #获取元素的href属性值 elem.click()#点击进入新的界面 _blank弹出 print ("刚翻页完成了!") time.sleep(20)分析一下:
导入了三个模块: os | time | selenium
然而需要安装 浏览器的diver
参考:
http://blog.csdn.net/azsx02/article/details/68947429
https://www.npmjs.com/package/selenium-webdriver
安装三大浏览器驱动driver
1.chromedriver 下载地址:https://code.google.com/p/chromedriver/downloads/list
2.Firefox的驱动geckodriver 下载地址:https://github.com/mozilla/geckodriver/releases/
3.IE的驱动IEdriver 下载地址:http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/
下面打开浏览器出错了 ,参考:https://jingyan.baidu.com/article/fea4511a29f673f7ba912560.html
参考:http://blog.csdn.net/pengbin790000/article/details/76696853
selenium webdriver调用google chrome配置chromedriver
http://blog.csdn.net/carsonzhang_/article/details/46318531
https://www.cnblogs.com/technologylife/p/5829944.html
--------------------------------------------
安装参考:https://www.npmjs.com/package/chromedriver
npm install chromedriver --chromedriver_cdnurl=https://npm.taobao.org/mirrors/chromedriver
---------------------------------------------------------------------------------------------------------
最终,通过这个完成了配置
参考:http://blog.csdn.net/huilan_same/article/details/52615123
