一个好朋友要爬个app排行网页,我就以一杯星巴克卖出去啦。
网页链接:http://qianfan.analysys.cn/view/rank/app.html
我们使用Python3,主要用到re,requests模块。
一般来说爬虫的流程是这样:先看网页源代码,再找到要爬的字段出现的区域,用正则表达式找到这个字段,再打印或者导出结果。
我们先看这个网页,需要爬的是排行、app和UV:
用python看下源代码(浏览器也可以,右键:查看网页源代码)
# -*- coding:utf-8 -*-
import re
import urllib.request
with urllib.request.urlopen('http://qianfan.analysys.cn/view/rank/app.html') as respons