如何用代理IP构建Python爬虫平台

作者:51IP代理 出处:互联网 时间:2021-03-19
    爬虫是什么有什么作用,官网有相关的文章,这边就不多介绍了。
    用Python构建简单爬虫
 
    # coding: utf8
 
    """简单爬虫"""
 
    import requests
 
    from lxml import etree
 
    def main():
 
    # 1. 定义页面URL和解析规则
 
    crawl_urls = [
 
    'https://book.douban.com/subject/25862578/',
 
    'https://book.douban.com/subject/26698660/',
 
    'https://book.douban.com/subject/2230208/'
 
    ]
 
    parse_rule = "//div[@id='wrapper']/h1/span/text()"
 
    for url in crawl_urls:
 
    # 2. 发起HTTP请求
 
    response = requests.get(url)
 
    # 3. 解析HTML
 
    result = etree.HTML(response.text).xpath(parse_rule)[0]
 
    # 4. 保存结果
 
    print result
 
    if __name__ == '__main__':
 
    main()
 
    这类爬虫比较简单,大致流程如下:
 
    定义网页网址和分析规则。
 
    启动HTTP请求。
 
    分析HTML,获取数据。
 
    保存数据。
 
    这些步骤使任何爬虫都能在网页上获得数据。
 
    这种简单的爬虫当然效率低下,采用同步抓取的方式,只能抓住一页,然后抓住下一页。
0