
Python 爬虫
xuanyin235
稳住,我们能赢!!!
展开
-
Python爬虫一一第2章、数据抓取
我们需要让这个爬虫从每个网页中抽取一些数据,然后实现某些事情,这种做法也被称为抓取(scraping)2.1 分析网页右键单击选择View page source选项,获取网页源代码2.2 三种网页抓取方法2.2.1 正则表达式当我们使用正则表达式获取面积数据时,首先需要尝试匹配<td>元素中为w2p_fw的内容,如下所示:实现代码如下:#!/usr/...原创 2018-10-12 23:04:08 · 658 阅读 · 0 评论 -
Python爬虫一一第3章、下载缓存
对已爬取网页进行缓存,可以让每个网页只下载一次3.1 为链接爬虫添加缓存支持原创 2018-10-13 19:00:28 · 246 阅读 · 0 评论 -
Python爬虫一一网络爬虫简介
本分类参考书籍:用Python写网络爬虫书中采用的是Python2.7,而我使用的Python版本是Python3.7,所以在一些代码使用上做了对应修改1.识别网站所用技术一一builtwith模块运行结果:2.寻找网站所有者3.下载网页书中介绍Python2.7中使用urllib2模块下载URL,但是我们发现Python3.0中已经不存在urllib2模块了,...原创 2018-10-08 23:49:24 · 358 阅读 · 0 评论