使用爬虫一定需要代理IP吗

很多人认为网络爬虫必须加代理IP没有代理IP就无路可走；也有人认为代理IP没有必要这是为什么？不能直接使用采集工具吗？

使用的收集器，有人说。用来收集一些其他网站的文章，然后筛选适用的做好加工就可以了，一直没用过代理IP每天收集10,000篇上下。没有代理IP照爬不误，所以网络爬虫不一定要使用代理IP。

企业的日常任务一天要抓取几十万个网页，但也有人说。有时候任务多的时候一天要一百多万，爬IP就被封了。没有代理IP，根本做不到。没有代理IP网络爬虫的根，很难动。网络爬虫必须使用代理IP。

说得很有道理，其实。都是用自己的经历来证明自己的观点。我觉得爬虫的顺序本质上是一个浏览网页的用户，只是一个不太遵守规则的独特用户。服务器通常不欢迎这样独特的用户通过各种手段发现和禁止。最常见的是判断你访问的频率，因为普通人访问网页的频率不会很快。如果发现ip访问太快，就禁止ip。

也就是第一个用户，当业务量不是很大的时候。也可以慢慢爬，工作频率不是很快，目标服务器也可以承受，不影响正常运行，所以不用代理IP就可以完成日常业务量。

例如第二个用户，当业务量较大时。一天十几万上百万的数据资料，慢慢的爬就不能完成日常任务了，如果加速爬的话，目标服务器压力很大，就会像IP一样无法完成任务。那么该怎么办，只能用代理IP来解决。

一个IP短期浏览100次，举栗子。目标服务器会认为浏览太快，导致IP被封。如果用10个代理IP短期浏览10次，就不容易被认为太快，然后被封。当业务量巨大时，使用代理IP往往事半功倍，这就是为什么没有代理IP就没有网络爬虫的原因。