爬虫是什么有什么作用,官网有相关的文章,这边就不多介绍了。
用Python构建简单爬虫
# coding: utf8
"""简单爬虫"""
import requests
from lxml import etree
def main():
# 1. 定义页面URL和解析规则
crawl_urls = [
'https://book.douban.com/subject/25862578/',
'https://book.douban.com/subject/26698660/',
'https://book.douban.com/subject/2230208/'
]
parse_rule = "//div[@id='wrapper']/h1/span/text()"
for url in crawl_urls:
# 2. 发起HTTP请求
response = requests.get(url)
# 3. 解析HTML
result = etree.HTML(response.text).xpath(parse_rule)[0]
# 4. 保存结果
print result
if __name__ == '__main__':
main()
这类爬虫比较简单,大致流程如下:
定义网页网址和分析规则。
启动HTTP请求。
分析HTML,获取数据。
保存数据。
这些步骤使任何爬虫都能在网页上获得数据。
这种简单的爬虫当然效率低下,采用同步抓取的方式,只能抓住一页,然后抓住下一页。