很多人认为网络爬虫必须加代理IP没有代理IP就无路可走;也有人认为
代理IP没有必要这是为什么?不能直接使用采集工具吗?
使用的收集器,有人说。用来收集一些其他网站的文章,然后筛选适用的做好加工就可以了,一直没用过代理IP每天收集10,000篇上下。没有代理IP照爬不误,所以网络爬虫不一定要使用代理IP。
企业的日常任务一天要抓取几十万个网页,但也有人说。有时候任务多的时候一天要一百多万,爬IP就被封了。没有代理IP,根本做不到。没有代理IP网络爬虫的根,很难动。网络爬虫必须使用代理IP。
说得很有道理,其实。都是用自己的经历来证明自己的观点。我觉得爬虫的顺序本质上是一个浏览网页的用户,只是一个不太遵守规则的独特用户。服务器通常不欢迎这样独特的用户通过各种手段发现和禁止。最常见的是判断你访问的频率,因为普通人访问网页的频率不会很快。如果发现ip访问太快,就禁止ip。
也就是第一个用户,当业务量不是很大的时候。也可以慢慢爬,工作频率不是很快,目标服务器也可以承受,不影响正常运行,所以不用代理IP就可以完成日常业务量。
例如第二个用户,当业务量较大时。一天十几万上百万的数据资料,慢慢的爬就不能完成日常任务了,如果加速爬的话,目标服务器压力很大,就会像IP一样无法完成任务。那么该怎么办,只能用代理IP来解决。
一个IP短期浏览100次,举栗子。目标服务器会认为浏览太快,导致IP被封。如果用10个代理IP短期浏览10次,就不容易被认为太快,然后被封。当业务量巨大时,使用代理IP往往事半功倍,这就是为什么没有代理IP就没有网络爬虫的原因。