爬虫使用代理的一些简单方法

作者：51IP代理出处：互联网时间：2020-03-20

我们在做爬虫的过程中经常会遇到这样的情况：最初爬虫正常运行，正常抓取数据，一切看起来都是那么的美好，然而一杯茶的功夫可能就会出现错误，比如403 Forbidden；出现这样的原因往往是网站采取了一些反爬虫的措施，比如，服务器会检测某个IP在单位时间内的请求次数，如果超过了某个阈值，那么服务器会直接拒绝服务，返回一些错误信息。这时候，代理IP就派上用场了。

很多新手朋友可能对如何使用代理IP不太了解，就拿当下最流行的爬虫语言Python来说吧。

一、urllib代理设置：

from urllib.error import URLError

from urllib.request import ProxyHandler,build_opener

proxy='123.58.10.36:8080' #使用本地代理

#proxy='username:password@123.58.10.36:8080' #购买代理

proxy_handler=ProxyHandler({

'http':'http://'+proxy,

'https':'https://'+proxy

})

opener=build_opener(proxy_handler)

try:

response=opener.open('http://httpbin.org/get') #测试ip的网址

print(response.read().decode('utf-8'))

except URLError as e:

print(e.reason)

二、requests代理设置：

import requests

proxy='123.58.10.36:8080' #本地代理

#proxy='username:password@123.58.10.36:8080'

proxies={

'http':'http://'+proxy,

'https':'https://'+proxy

}

try:

response=requests.get('http://httpbin.org/get',proxies=proxies)

print(response.text)

except requests.exceptions.ConnectionError as e:

print('错误:',e.args)

三、Selenium代理设置：

from selenium import webdriver

proxy='123.58.10.36:8080'

chrome_options=webdriver.ChromeOptions()

chrome_options.add_argument('--proxy-server=http://'+proxy)

browser=webdriver.Chrome(chrome_options=chrome_options)

browser.get('http://httpbin.org/get')

下一篇：访问网站IP被封该怎么办
上一篇：怎么使用Python爬取代理IP并验证有效性？

专业大数据IP服务商

爬虫使用代理的一些简单方法

作者：51IP代理 出处：互联网 时间：2020-03-20

作者：51IP代理出处：互联网时间：2020-03-20