在选择使用http代理进行爬虫工作的辅助软件时,我们需要测量
http代理的质量。
1、运用频率
当API调用提取代理时,一些代理包存在频率限制,而另一些则对请求频率进行了限制,这些因素都或多或少地影响了爬虫的效率,这部分我们也要考虑到。
2、稳定。
因为爬行时我们需要使用大量的代理,如果一个代理响应速度特别快,能够很快得到响应,而下次请求使用的代理响应速度特别慢,需要等待等待才能得到响应,那么就必然会影响爬行效率,所以我们需要看看商家提供的这些代理稳定性如何,总不能这个特别快,下一个又慢又不行。因此,我们需要统计耗时的方差,方差越大,说明稳定性越差。
3、安全。
它确实也是一个需要考虑的问题,例如,一旦不小心将代理提取的API泄露出去,其他人就会大肆使用我们的API提取代理使用,而这总是要消耗我们的套餐。此外,一旦其他人通过某种方式获得了我们的代理列表,而这些代理没有经过安全验证,这也会导致其他人偷偷地使用我们的代理。这方面的问题在生产环境中尤为突出。