爬虫ip代理池越小,ip重复的几率越大,使用的时间越久,ip被封的概率也就大。因而爬虫ip代理池的更新是极其重要的,如果不更新ip,等里边的ip都被封了,就不能继续获取数据了,并且可用的ip越少,工作效率是越低的。
方法一:可以一次性抓取某几个代理网站,然后通过程序测试每个代理是否可用,得到可用的代理列表。但是抓取的
代理ip,可以使用往往很少,在持续抓取中肯定不能满足需要。那么怎么能持续不断的找到可用代理呢?
1、找到更多的代理网站
2、定时监控这些代理网站,获取代理
3、拿到代理IP后,程序自动检测,输出可用代理
4、程序加载文件或数据库,随机选取代理IP发起HTTP请求
方法二:购买代理,可以自己搭建代理服务器,如果要更新的话有些麻烦,需要增加IP线路,成本可能会高上许多的。
方法三:也可以直接从商家的爬虫ip代理池处进行提取的。这样商家更新爬虫ip代理池的时候,我们也可以跟着更新了,就不用自己愁了。