flyingfishmark-优快云博客

原创 python爬虫入门笔记：用scrapy爬豆瓣

本文希望达到以下目标:简要介绍Scarpy使用Scarpy抓取豆瓣电影我们正式讲scrapy框架爬虫，并用豆瓣来试试手，url:http://movie.douban.com/top250首先先要回答一个问题。问：把网站装进爬虫里，总共分几步？答案很简单，四步：新建项目 (Project)：新建一个新的爬虫项目明确目标（Items）：明确你想要抓取的

2016-05-04 16:42:06 18033

原创 pycharm的安装与配置

工欲善其事，必先利其器。首先要挑选一款趁手的兵器，在此推荐pycharm。第一步：下载地址http://www.jetbrains.com/pycharm，点击Download第二步：选择自己电脑系统版本（OS X/WINDOWS/LINUX)，选Community即可第三步：等待几秒钟，下载即可第四步：一路N

2016-05-04 14:29:53 854

原创 windows下搭建爬虫框架scrapy

今天开始一个新的爬虫框架scrapy，我们先看一下windows下搭建的前言：搭建scrapy是一路的坑，费时费力，下载时一定要选对版本，说多了都是血泪，玩python的小伙伴加油吧！本文主要讲解在windows上搭建scrapy的步骤，有兴趣学习的话，可以先登录官网http://scrapy.org/基本浏览一下，然后可以按照一面的步骤来完成环境的搭建。第一步：当然是安

2016-05-03 09:46:32 1327

原创 Python爬虫实战：百度贴吧—妈妈吧

上次，我们用requests 和 xpath爬取了极客学院的课程，感觉还是不过瘾，今天我们再来爬一下百度贴吧妈妈吧里面的话题，看看妈妈们都喜欢讨论什么吧！爬取前我们先看一下我们的目标：1.抓取百度贴吧妈妈吧的话题2.抓取每一个话题的发布人、发布时间、发布标题、发布内容和回贴数目1.确定URL1.确定URL1.确

2016-04-29 11:53:32 1955

原创 Python爬虫实战：极客学院

今天我们来爬取一下极客学院的课程，这次我们用requests和xpath，小伙伴们看好了，这真是一对神奇组合，棒棒哒！爬取前我们先看一下我们的目标：1.抓取极客学院的课程2.抓取每一门课程的课程名称、简介、时长、等级和学习人数1.确定URL 首先我们确定好页面的URL，极客学院职业课程的网址是：http://www.jikexueyuan.c

2016-04-28 15:19:59 4105

转载 python爬虫入门笔记：XPath与lxml库

lxml库是一个比较流行的解析库，使用的是XPath语法，效率比较高的解析方法。主要学习资料是极客学院的定向爬虫、w3school。XPath简介：XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。简单说，xpath就是选择XML文件中节点的方法。所谓节点（node），就是XML文件的最小构

2016-04-28 10:44:40 6575

转载 python爬虫入门笔记：Requests库

Python Requests快速入门快速上手迫不及待了吗？本页内容为如何入门Requests提供了很好的指引。其假设你已经安装了Requests。如果还没有，去安装一节看看吧。首先，确认一下：Requests 已安装Requests是最新的让我们从一些简单的示例开始吧。发送请求使用Requests发送网络请求非常简单。

2016-04-27 16:25:01 1287

原创 Python爬虫实战：糗事百科

前面我们已经说了那么多基础知识了，下面我们做个实战项目来挑战一下吧。这次就用前面学的urllib和正则表达式来做，Python爬虫爬取糗事百科的小段子。爬取前我们先看一下我们的目标：1.抓取糗事百科热门段子2.过滤带有图片的段子3.段子的发布人，段子内容，好笑数，评论数

2016-04-26 16:24:17 1538

转载 Python爬虫入门笔记：正则表达式

前面我们用urllib2下载了网页，还是一段段html代码，如何在一堆代码中提取出我们想要的信息，就需要解析器，前面提过正则表达式的，这个比较繁琐但是很强大的工具，内容比较多啦，有老师总结的比较全面，我就直接引用了。。。————————————————————————————1、崔老师的《Python爬虫入门七之正则表达式》：http://cuiqingcai.com/977.ht

2016-04-26 16:04:19 752

原创 Python爬虫入门笔记：urllib库的使用2

上文我们说了urllib库的简单使用，简单总结之:urllib2用一个Request对象来映射你提出的HTTP请求。你用你要请求的地址创建一个Request对象，通过调用urlopen并传入Request对象，将返回一个相关请求response对象，这个应答你可以在Response中调用.read()。其实，在HTTP请求时除了上文提到的可能要加headers验证，还需要传入表单数据，打

2016-04-26 11:41:29 738

原创 Python爬虫入门笔记：urllib库的使用

上次我们说到网页下载是爬虫的重要部分，并提到几种实用的下载器模块，今天我们先说urlib库的使用，这个是Python官方基础模块，具体相关细节知识，大家可以自行去了解，这里我们只说主要的使用方法：1、直接访问import urllib2url = 'http://www.baidu.com'#直接请求response = urllib2.urlopen(url)#获取状态码，如果

2016-04-22 17:31:39 915

原创 Python爬虫入门笔记：一个简单的爬虫架构

上次我们从对爬虫进行简单的介绍，今天我们引入一个简单爬虫的技术架构，解释爬虫技术架构中的几个模块，对爬虫先有一个整体的认知，方便对爬虫的理解和后面的编程。简单的爬虫架构：URL管理、网页下载、网页解析、输出部分，如下图： 1、URL管理器：防止重复抓取、防止循环抓取；URL是爬虫爬取的入口和桥梁，除了入口URL外，剩下的URL我们需要在网页上

2016-04-22 15:19:16 4312

原创 Python爬虫入门笔记:爬虫简介

爬虫技术是用来从互联网上自动获取需要的数据。今天我们对爬虫进行简单的介绍： 1、什么是爬虫？爬虫是一段自动抓取互联网信息的程序，大家可以理解为在互联网这张网上爬来爬去的蜘蛛，如果它遇到资源，那么它就会抓取下来。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据，爬虫就是通过这些通道爬取数据。

2016-04-22 10:09:18 3310

原创 Python语言集成开发环境搭建

正所谓工欲善其事，必先利其器。今天我们来搭建Python语言集成开发环境：1、安装Python2.7.11Python下载地址：https://www.python.org/ ，点击Downloads选择Python2.7.11，这里有必要说一下为什么不选Python3.5，3.5版本虽然有很多新的特性，运行也更快，但因为架构思路不同，这个并不是升级迭代来的，2.7版本有很多实用的库在3.

2016-04-21 22:30:23 3706

原创 Python爬虫入门笔记（序）

近期迷恋上了Python,不外乎“人生短暂，我用Python"。Python简洁，优雅，易懂。大数据分析的前期自然也是少不了数据收集的，做一些爬虫爬取数据是少不了的。主要学习资料：两网站慕课网和极客学院，两博客园崔庆才和廖雪峰。编程工具从Notepad 到Eclipse for Python再到Pycharm,衷心推荐Pycharm,功能强大，安装简单！学习Python爬虫

2016-04-21 08:55:17 1756

flyingfishmark的博客