
爬虫开发
yeverwen
研究方向:数据挖掘、推荐系统、风控算法
展开
-
爬虫实战(一)猫眼电影基础数据爬取
看完爬虫基础,是不是有点心动手痒了呢?那么接下来就让我们一起学习如何爬虫吧。写在爬虫之前选这个题目的初衷:本人是一个学生党,经济来源较少但平时又特别爱看电影,又没时间关注电影票价的变动,有了这个爬虫之后,这将会极大的缓解我的苦恼。爬取网页的说明:我们选择美团旗下的猫眼电影页面进行爬取,但不得不承认美团网站页面的反爬虫机制还是很厉害的。所以,我们将目标锁定在了它的客户端页面。页面地址...原创 2018-07-05 00:45:17 · 12060 阅读 · 0 评论 -
【python数据抓取技术与实战】正则表达式
我之所以把正则表达式单独罗列出来讲,是因为我觉得它在爬虫技术中的地位真的非常重要。所以,这个章节你也要打起精神学习。先来看看它是个什么工具正则表达式是处理字符串的有力工具。python中有个re模块提供了大量的方法,能实现正则表达式相关的各类操作。re模块常用的函数包括match、search、findall,可以通过help('re')命令查看函数用法。>>> help('re...转载 2018-07-06 23:27:38 · 376 阅读 · 0 评论 -
【python数据抓取技术与实战】BeautifulSoup
中文翻译:美丽汤。光听听名字就觉得是一个很棒的工具。言归正传,说说我们抓取的数据。其实返回的数据都是有结构化的。一般会遇到的三种结构化的返回数据,分别是HTML、XML和json。今天所介绍的BeautifulSoup就是python中处理HTML或XML的分析库,也就是说它能够解析这两种结构化文件。对于json的处理和分析,我们放到下一节再讲。BeautifulSoup能做抽取数据,提供各类方法...转载 2018-07-06 23:27:56 · 762 阅读 · 0 评论 -
【python数据抓取技术与实战】json
python提供了json库,专门用于json格式内容的解析处理。json的使用比较简单,常用的方法有load、loads、dump和dumps,我们这里结合mongodb,可以存储大量的json数据。查询北京大学地图的url,它返回的是json格式。我们可以通过该例子说明问题,网址如下:http://ditu.amap.com/detail/get/detail?id=B000A816R6,代码...转载 2018-07-06 23:28:17 · 530 阅读 · 0 评论 -
【python数据抓取技术与实战】单机数据抓取
1、单机顺序抓取这里使用的是Spynner库进行单进程抓取,通常用于目标明确及抓取内容数量不是很大的情况。加之我们用的python3,安装过程也复杂,所以我们就不必在这部分花时间了。但在这里,我们做一个简单的介绍。优点:Spynner基于pyqt库,pyqt封装了强大的webkit,具有执行JavaScript的能力,可以完全模拟一个浏览器的功能和行为。import spynner ...转载 2018-07-06 23:28:43 · 776 阅读 · 0 评论 -
爬虫实战(二)猫眼电影动态数据爬取
爬虫部分的知识算是告一段落了,又是几天过去了,感觉挺充实的。里面可能还有一些需要改进的地方,慢慢完善吧。接下来我们就说说上次遗留下来的问题,如何爬取动态数据。先告诉你一下爬取的数据中为什么没有电影信息吧:因为我们请求的是静态页面地址。如果请求的是动态资源,会从数据库中取出数据等一系列操作后动态拼凑页面的展示内容,把所有的展示内容交给WEB服务器,之后通过WEB服务器将内容发送回客户端浏览器进行...原创 2018-07-05 18:14:37 · 2383 阅读 · 2 评论