在互联网推广时代,企业网络推广依靠数据的收集和深入分析,网络爬虫早已成为当今收集大量数据的最基本途径。网络爬行动物的运行始终是相对正反两面的事情,有网络爬行动物就有网络爬行动物。在反网爬行动物中,通常由HTTP进行。今天我们来详细介绍一下HTTP和HTTPS的初次访问速度为什么这么慢。
第一,HTTP和HTTPS
HTTP属于应用层协议,在传输层使用TCP协议,在网层使用IP协议。HTTP协议是无状态的,打开一个服务器上的网页和上次打开这个服务器上的网页之间没有任何联系,但HTTP是无状态的连接协议(传输层是tcp协议)。
HTTP=TCP握手+http发送数据,http首次访问速度慢。
HTTPS是一安全为目标的HTTP通道,简单来说就是HTTP的安全版本。即在HTTP下加入SSL层(在传输过程中加密双勺加密),HTTPS的安全基础是SSL,因此加密细节需要SSL。
HTTPS=TCP手柄+SSL手柄+http发送数据。
第一次测试:1258s,625ms,https首次访问速度慢。
第二,TCP握手
http和https传输层都是TCP,所以在正式传输数据之前,TCP会握手三次建立链接。
http和https有很大的区别。http和https在初次访问时的性能差异非常明显,但再次访问时的差异并不大。第一次缺口明显的根本原因是SSL握手耗时,再次访问时间下降,几乎一样。Http长连接不再握手,所以差距不大。nginx在ssl握手后的状态缓存sessionID,https访问不会有很大差异。
如何优化http的使用时间?
1.nginx配置长连接参数
http{
keepalive_timeout20-长连接timeout。
keepalive_requests8192-各连接的最大要求。
}
2.https握手时间优化
https握手非常耗时的原创是RSA算法,对性能的影响约占75%。
原本
HTTP优化只是其中一种方法,其他方法也有从访问网络爬虫的速度等方面对抗网络爬虫。但不管是网络爬虫还是网络爬虫,代理ip的使用都是必不可少的。这是网络爬虫真正发挥性能的有力辅助!