
网络爬虫系列
系列分为两个部分:(java版)以网易和新浪微博爬虫实际项目为例,介绍爬虫原理。(python版)介绍爬虫urllib2工具爬虫实例和scrapy框架爬虫实例。爬虫系列所有实例可以到github查看完整项目源码。
DianaCody
这个作者很懒,什么都没留下…
展开
-
打包python文件为exe文件(PyInstaller工具使用方法)
最近做的新浪微博爬虫程序,打算打包成.exe软件以方便使用,网上找到一个很好的打包工具pyinstaller,这里记录一下打包的方法。一、下载pyinstaller我使用的版本为PyInstaller-2.1,支持python版本2.3-2.7,点击这里下载。二、安装pyinstaller下载完成后,解压即可。我的解压目录为D:\Python27\PyInstaller-2原创 2014-10-03 23:46:33 · 10709 阅读 · 1 评论 -
【网络爬虫】【python】网络爬虫(五):scrapy爬虫初探——爬取网页及选择器
在上一篇文章的末尾,我们创建了一个scrapy框架的爬虫项目test,现在来运行下一个简单的爬虫,看看scrapy爬取的过程是怎样的。一、爬虫类编写(spider.py)vdsv原创 2014-10-03 09:57:01 · 3348 阅读 · 0 评论 -
【网络爬虫】【python】网络爬虫(四):scrapy爬虫框架(架构、win/linux安装、文件结构)
scrapy框架的学习,目前个人觉得比较详尽的资料主要有两个:1.官方教程文档、scrapy的github wiki;2.一个很好的scrapy中文文档:http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html; 剩下的就是网上其他的一些demo。 一、scrapy框架结构 还是先上个图吧,这原创 2014-10-02 23:37:39 · 4147 阅读 · 0 评论 -
【网络爬虫】【python】网络爬虫(三):模拟登录——伪装浏览器登录爬取过程
一、关于抓包分析和debug Log信息 模拟登录访问需要设置request header信息,,而python抓包可以直接使用urllib2把debug Log打开,数据包的内容可以打印出来,这样都可以不用抓包了,直接可以看到request header里的内容。原创 2014-10-02 23:16:45 · 10247 阅读 · 2 评论 -
【网络爬虫】【python】网络爬虫(二):网易微博爬虫软件开发实例(附软件源码)
对于urllib2的学习,这里先推荐一个教程《IronPython In Action》,上面有很多简明例子,并且也有很详尽的原理解释:http://www.voidspace.org.uk/python/articles/urllib2.shtml 最基本的爬虫,主要就是两个函数的使用urllib2.urlopen()和re.compile()。一、网页抓取简单例子原创 2014-10-02 23:03:41 · 3570 阅读 · 0 评论 -
【网络爬虫】【python】网络爬虫(一):python爬虫概述
python爬虫的实现方式:1.简单点的urllib2+regex,足够了,可以实现最基本的网页下载功能。实现思路就是前面java版爬虫差不多,把网页拉回来,再正则regex解析信息……总结起来,两个函数:urllibw.urlopen()和re.compile()。其实对于正则解析html网页,python同样有和jsoup类似的工具包——BeautifulSoup,用好了同样比正则省事多了原创 2014-10-02 00:23:33 · 3042 阅读 · 0 评论 -
【网络爬虫】【java】微博爬虫(五):防止爬虫被墙的几个技巧(总结篇)
爬虫的目的就是大规模地、长时间地获取数据,跟我们正常浏览器获取数据相比,虽然机理相差不大,但总是一个IP去爬网站,大规模集中对服务器访问,时间一长就有可能被拒绝。关于爬虫长时间爬取数据,可能会要求验证码,即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。技巧一:设置下载等待时间/下载频率大规模集中访问对服务器的影响较大,爬虫可以短时间增大服务器负载。这里需要注意的是:设定下载等原创 2014-10-01 12:53:32 · 9885 阅读 · 0 评论 -
【网络爬虫】【java】微博爬虫(四):数据处理——jsoup工具解析html、dom4j读写xml
之前提到过,对于简单的网页结构解析,可以直接通过观察法、手工写正则解析,可以做出来,比如网易微博。但是对于结构稍微复杂点的,比如新浪微博,如果还用正则,用眼睛一个个去找,未免太麻烦了。 本文介绍两个工具包:解析html, xml的jsoup,和读写xml的dom4j。 工具包jsoup是解析html、xml的利器,利用jsoup可以快速读取html等规范文档格式原创 2014-10-01 08:53:16 · 6420 阅读 · 0 评论 -
【网络爬虫】【java】微博爬虫(三):庖丁解牛——HTML结构分析与正则切分
在上一篇文章中已经通过请求的url地址把html页面爬取下来了,这里分别以网易微博的html和新浪微博的html为例来分析如何提取微博数据。一、网易微博解析 相比新浪微博的html结构,网易微博的比较容易明显地看出来,也容易找到微博数据。查看其html结构不是网页里右键→“查看网页源代码”,那里的微博正文是以html标签形式显示的,而程序实际请求返回得到的html的微博正文是原创 2014-10-01 08:49:30 · 2937 阅读 · 2 评论 -
【网络爬虫】【java】微博爬虫(二):如何抓取HTML页面及HttpClient使用
一、写在前面上篇文章以网易微博爬虫为例,给出了一个很简单的微博爬虫的爬取过程,大概说明了网络爬虫其实也就这么回事,或许初次看到这个例子觉得有些复杂,不过没有关系,上篇文章给的例子只是让大家对爬虫过程有所了解。接下来的系列里,将一步一步地剖析每个过程。爬虫总体流程在上篇文章已经说得很清楚了,没有看过的朋友可以去看下:http://blog.youkuaiyun.com/dianacody/article原创 2014-09-30 14:11:49 · 11725 阅读 · 1 评论