phantomjs设置proxy代理IP

来源:网络 文章列表 2019-07-30 8
在使用爬虫过程中,经常需要使用代理ip,网上关于这方面资料较少,我也是搜集了好久,记录一下.ip代理有静态ip代理和动态ip代理,先说静态ip,静态ip就是134.119.184.92:1080这样的代理,不需要使用验证信息,使用方法如下:

最近因为工作需要使用selenium+phantomjs无头浏览器,其中遇到了一些坑,记录一下,尤其是关于phantomjs设置代理的问题。

phantomjs设置代理

在使用爬虫过程中,经常需要使用代理ip,网上关于这方面资料较少,我也是搜集了好久,记录一下

ip代理有静态ip代理和动态ip代理,先说静态ip,静态ip就是134.119.184.92:1080这样的代理,不需要使用验证信息,使用方法如下:

# 配置代理信息
proxy = [
    '--proxy=%s' % "218.60.8.83:3129", # 设置的代理ip
    '--proxy-type=http',               # 代理类型
    '--ignore-ssl-errors=true',        # 忽略https错误
]
 
# 在初始化浏览器对象的时候可以接收一个service_args的参数,使用这个参数设置代理
drive = webdriver.PhantomJS(service_args=proxy)
 
# 设置页面加载和js加载超时时间,超时立即报错,如下设置超时时间为10秒
drive.set_page_load_timeout(10)
drive.set_script_timeout(10)
 
# 这样代理就设置成功了,可以向百度发送请求验证ip是否可用
drive.get('http://www.baidu.com')

以上是静态代理设置方法,但是我们时候使用的是动态代理,设置方法有所变化,需要在参数里加上验证使用的用户名和密码,代码如下:

# 代理设置如下:
proxy = [
    '--proxy=%s:%s' % (proxyHost, proxyPort),  # 代理服务器的域名
    '--proxy-type=http',                       # 代理类型
    '--proxy-auth=%s:%s' % (proxyUser, proxyPass),  # 代理验证所需的用户名和密码
    '--ignore-ssl-errors=true',                     # 忽略https错误
]
 
# 在初始化浏览器对象的时候可以接收一个service_args的参数,使用这个参数设置代理
drive = webdriver.PhantomJS(service_args=proxy)
 
# 设置页面加载和js加载超时时间,超时立即报错,如下设置超时时间为10秒
drive.set_page_load_timeout(10)
drive.set_script_timeout(10)
 
# 这样代理就设置成功了,可以向百度发送请求验证ip是否可用
drive.get('http://www.baidu.com')

以上就是使用selenium + phantomjs无头浏览器设置headers和代理的方法。

版权声明

本站部分原创文章,部分文章整理自网络。如有转载的文章侵犯了您的版权,请联系站长删除处理。如果您有优质文章,欢迎发稿给我们!联系站长:
愿本站的内容能为您的学习、工作带来绵薄之力。

评论

  • 随机获取
点击刷新
精彩评论

友情链接