python3 动态网页爬虫

小弥弥子

于 2017-11-10 16:57:22 发布

阅读量3.8k

点赞数 12

CC 4.0 BY-SA版权

分类专栏： python3 动态网页爬虫文章标签： python 爬虫动态网页

本文链接：https://blog.youkuaiyun.com/qq_37408031/article/details/78501456

一个好朋友要爬个app排行网页，我就以一杯星巴克卖出去啦。
网页链接：http://qianfan.analysys.cn/view/rank/app.html
我们使用Python3，主要用到re,requests模块。

一般来说爬虫的流程是这样：先看网页源代码，再找到要爬的字段出现的区域，用正则表达式找到这个字段，再打印或者导出结果。

我们先看这个网页，需要爬的是排行、app和UV：
我们要爬的是这三列数
用python看下源代码（浏览器也可以，右键：查看网页源代码）

# -*- coding:utf-8 -*-
import re
import urllib.request

with urllib.request.urlopen('http://qianfan.analysys.cn/view/rank/app.html') as respons

200万优质内容无限畅学