- 博客(15)
- 收藏
- 关注
原创 python爬虫入门笔记:用scrapy爬豆瓣
本文希望达到以下目标:简要介绍Scarpy使用Scarpy抓取豆瓣电影我们正式讲scrapy框架爬虫,并用豆瓣来试试手,url:http://movie.douban.com/top250首先先要回答一个问题。问:把网站装进爬虫里,总共分几步?答案很简单,四步:新建项目 (Project):新建一个新的爬虫项目明确目标(Items):明确你想要抓取的
2016-05-04 16:42:06
17957
原创 pycharm的安装与配置
工欲善其事,必先利其器。首先要挑选一款趁手的兵器,在此推荐pycharm。第一步:下载地址http://www.jetbrains.com/pycharm,点击Download第二步:选择自己电脑系统版本(OS X/WINDOWS/LINUX),选Community即可第三步:等待几秒钟,下载即可第四步:一路N
2016-05-04 14:29:53
826
原创 windows下搭建爬虫框架scrapy
今天开始一个新的爬虫框架scrapy,我们先看一下windows下搭建的前言:搭建scrapy是一路的坑,费时费力,下载时一定要选对版本,说多了都是血泪,玩python的小伙伴加油吧!本文主要讲解在windows上搭建scrapy的步骤,有兴趣学习的话,可以先登录官网http://scrapy.org/基本浏览一下,然后可以按照一面的步骤来完成环境的搭建。第一步:当然是安
2016-05-03 09:46:32
1295
原创 Python爬虫实战:百度贴吧—妈妈吧
上次,我们用requests 和 xpath爬取了极客学院的课程,感觉还是不过瘾,今天我们再来爬一下百度贴吧妈妈吧里面的话题,看看妈妈们都喜欢讨论什么吧!爬取前我们先看一下我们的目标:1.抓取百度贴吧妈妈吧的话题2.抓取每一个话题的发布人、发布时间、发布标题、发布内容和回贴数目1.确定URL1.确定URL1.确
2016-04-29 11:53:32
1892
原创 Python爬虫实战:极客学院
今天我们来爬取一下极客学院的课程,这次我们用requests和xpath,小伙伴们看好了,这真是一对神奇组合,棒棒哒!爬取前我们先看一下我们的目标:1.抓取极客学院的课程2.抓取每一门课程的课程名称、简介、时长、等级和学习人数1.确定URL 首先我们确定好页面的URL,极客学院职业课程的网址是:http://www.jikexueyuan.c
2016-04-28 15:19:59
4050
转载 python爬虫入门笔记:XPath与lxml库
lxml库是一个比较流行的解析库,使用的是XPath语法,效率比较高的解析方法。主要学习资料是极客学院的定向爬虫、w3school。XPath简介:XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。简单说,xpath就是选择XML文件中节点的方法。所谓节点(node),就是XML文件的最小构
2016-04-28 10:44:40
6521
转载 python爬虫入门笔记:Requests库
Python Requests快速入门快速上手迫不及待了吗?本页内容为如何入门Requests提供了很好的指引。其假设你已经安装了Requests。如果还没有, 去 安装 一节看看吧。首先,确认一下:Requests 已安装Requests是 最新的让我们从一些简单的示例开始吧。发送请求使用Requests发送网络请求非常简单。
2016-04-27 16:25:01
1243
原创 Python爬虫实战:糗事百科
前面我们已经说了那么多基础知识了,下面我们做个实战项目来挑战一下吧。这次就用前面学的urllib和正则表达式来做,Python爬虫爬取糗事百科的小段子。爬取前我们先看一下我们的目标:1.抓取糗事百科热门段子2.过滤带有图片的段子3.段子的发布人,段子内容,好笑数,评论数
2016-04-26 16:24:17
1501
转载 Python爬虫入门笔记:正则表达式
前面我们用urllib2下载了网页,还是一段段html代码,如何在一堆代码中提取出我们想要的信息,就需要解析器,前面提过正则表达式的,这个比较繁琐但是很强大的工具,内容比较多啦,有老师总结的比较全面,我就直接引用了。。。————————————————————————————1、崔老师的《Python爬虫入门七之正则表达式》:http://cuiqingcai.com/977.ht
2016-04-26 16:04:19
730
原创 Python爬虫入门笔记:urllib库的使用2
上文我们说了urllib库的简单使用,简单总结之:urllib2用一个Request对象来映射你提出的HTTP请求。你用你要请求的地址创建一个Request对象,通过调用urlopen并传入Request对象,将返回一个相关请求response对象,这个应答你可以在Response中调用.read()。其实,在HTTP请求时除了上文提到的可能要加headers验证,还需要传入表单数据,打
2016-04-26 11:41:29
716
原创 Python爬虫入门笔记:urllib库的使用
上次我们说到网页下载是爬虫的重要部分,并提到几种实用的下载器模块,今天我们先说urlib库的使用,这个是Python官方基础模块,具体相关细节知识,大家可以自行去了解,这里我们只说主要的使用方法:1、直接访问import urllib2url = 'http://www.baidu.com'#直接请求response = urllib2.urlopen(url)#获取状态码,如果
2016-04-22 17:31:39
870
原创 Python爬虫入门笔记:一个简单的爬虫架构
上次我们从对爬虫进行简单的介绍,今天我们引入一个简单爬虫的技术架构,解释爬虫技术架构中的几个模块,对爬虫先有一个整体的认知,方便对爬虫的理解和后面的编程。 简单的爬虫架构:URL管理、网页下载、网页解析、输出部分,如下图: 1、URL管理器:防止重复抓取、防止循环抓取;URL是爬虫爬取的入口和桥梁,除了入口URL外,剩下的URL我们需要在网页上
2016-04-22 15:19:16
4271
原创 Python爬虫入门笔记:爬虫简介
爬虫技术是用来从互联网上自动获取需要的数据。今天我们对爬虫进行简单的介绍: 1、什么是爬虫? 爬虫是一段自动抓取互联网信息的程序,大家可以理解为在互联网这张网上爬来爬去的蜘蛛,如果它遇到资源,那么它就会抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据,爬虫就是通过这些通道爬取数据。
2016-04-22 10:09:18
3269
原创 Python语言集成开发环境搭建
正所谓工欲善其事,必先利其器。今天我们来搭建Python语言集成开发环境:1、安装Python2.7.11Python下载地址:https://www.python.org/ ,点击Downloads选择Python2.7.11,这里有必要说一下为什么不选Python3.5,3.5版本虽然有很多新的特性,运行也更快,但因为架构思路不同,这个并不是升级迭代来的,2.7版本有很多实用的库在3.
2016-04-21 22:30:23
3660
原创 Python爬虫入门笔记(序)
近期迷恋上了Python,不外乎“人生短暂,我用Python"。Python简洁,优雅,易懂。大数据分析的前期自然也是少不了数据收集的,做一些爬虫爬取数据是少不了的。主要学习资料:两网站慕课网和极客学院,两博客园崔庆才和廖雪峰。编程工具从Notepad 到Eclipse for Python再到Pycharm,衷心推荐Pycharm,功能强大,安装简单! 学习Python爬虫
2016-04-21 08:55:17
1719
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人