精通Python爬虫框架Scrapy_人民邮电出版社有限公司的博客-优快云博客

精通Python爬虫框架Scrapy

文章平均质量分 72

Scrapy是使用Python开发的一个快速、高层次的屏幕抓取和Web抓取框架，用于抓Web站点并从页面中提取结构化的数据。《精通Python爬虫框架Scrapy》以Scrapy 1.0版本为基础，讲解了Scrapy的基础知识，以及如何使用Python和三方API提取、整理数据，以满足自己的需求。

文章数：19 文章阅读量：3433 文章收藏量：0

作者: 人民邮电出版社有限公司

人民邮电出版社致力于为用户提供优质的内容，专栏均为正版图书内容拆分，均具备合法资质和授权，内容质量有保证。

展开

专栏收录文章

《精通Python爬虫框架Scrapy》版权信息

版权信息书名：精通Python爬虫框架Scrapy ISBN：978-7-115-47420-9 本书由人民邮电出版社发行数字版。版权所有，侵权必究。您购买的人民邮电出版社电子书仅供您个人使用，未经授权，不得以任何方式复制和传播本书内容。我们愿意相信读者具有这样的良知和觉悟，与我们共同保护知识产权。如果购买者有侵权行为，我们可能对该用户实施包括但不限于关闭该帐号等维权措施，...

原创 2021-07-09 13:34:54 · 171 阅读 · 0 评论
《精通Python爬虫框架Scrapy》版权声明

版权声明 Copyright © Packt Publishing 2016. First published in the English language under the title Learning Scrapy. All Rights Reserved. 本书由英国Packt Publishing公司授权人民邮电出版社出版。未经出版者书面许可，对本书的任何部分不得以任何方式或任何...

原创 2021-07-09 13:34:54 · 142 阅读 · 0 评论
《精通Python爬虫框架Scrapy》内容提要

内容提要 Scrapy是使用Python开发的一个快速、高层次的屏幕抓取和Web抓取框架，用于抓Web站点并从页面中提取结构化的数据。本书以Scrapy 1.0版本为基础，讲解了Scrapy的基础知识，以及如何使用Python和三方API提取、整理数据，以满足自己的需求。本书共11章，其内容涵盖了Scrapy基础知识，理解HTML和XPath，安装Scrapy并爬取一个网站，使用爬虫填充数据...

原创 2021-07-09 13:34:54 · 135 阅读 · 0 评论
《精通Python爬虫框架Scrapy》关于作者

关于作者 Dimitrios Kouzis-Loukas 作为一位顶级的软件开发人员，已经拥有超过15年的经验。同时，他还使用自己掌握的知识和技能，向广大读者讲授如何编写优秀的软件。他学习并掌握了多门学科，包括数学、物理学以及微电子学。他对这些学科的透彻理解，提高了自身的标准，而不只是“实用的解决方案”。他知道真正的解决方案应当是像物理学规律一样确定，像ECC内存一样健壮，像数学一样通用。 ...

原创 2021-07-09 13:34:53 · 110 阅读 · 0 评论
《精通Python爬虫框架Scrapy》关于审稿人

关于审稿人 Lazar Telebak 是一位自由的Web开发人员，专注于使用Python库/框架进行网络爬取和对网页进行索引。他主要从事于处理自动化和网站爬取以及导出数据到不同格式（包括CSV、JSON、XML和TXT）和数据库（如MongoDB、SQLAlchemy和Postgres）的项目。他还拥有前端技术和语言的经验，包括HTML、CSS、JS和jQuery。 ...

原创 2021-07-09 13:34:53 · 117 阅读 · 0 评论
《精通Python爬虫框架Scrapy》前言

前言让我来做一个大胆的猜测。下面的两个故事之一会和你的经历有些相似。你与Scrapy的第一次相遇是在网上搜索类似“Web scraping Python”的内容时。你快速对其进行了浏览，然后想“这太复杂了吧……我只需要一些简单的东西。”接下来，你使用Requests库开发了一个Python脚本，并且挣扎于Beautiful Soup中，但最终还是完成了很酷的工作。它有些慢，所以你让它整夜运...

原创 2021-07-09 13:34:52 · 130 阅读 · 0 评论
《精通Python爬虫框架Scrapy》第1章 Scrapy简介

第1章　Scrapy简介欢迎来到你的Scrapy之旅。通过本书，我们旨在将你从一个只有很少经验甚至没有经验的Scrapy初学者，打造成拥有信心使用这个强大的框架从网络或者其他源爬取大数据集的Scrapy专家。本章将介绍Scrapy，并且告诉你一些可以用它实现的很棒的事情。 1.1　初识Scrapy Scrapy是一个健壮的网络框架，它可以从各种数据源中抓取数据。作为一个普通的网络用户，你会...

原创 2021-07-09 13:34:51 · 269 阅读 · 0 评论
《精通Python爬虫框架Scrapy》第2章理解HTML和XPath

第2章　理解HTML和XPath 为了从网页中抽取信息，你必须对其结构有更多了解。我们将快速浏览HTML、HTML的树状表示，以及在网页上选取信息的一种方式XPath。 2.1　HTML、DOM树表示以及XPath 让我们花费一些时间来了解从用户在浏览器中输入URL（或者更常见的是，在其单击链接或书签时）到屏幕上显示出页面的过程。从本书的视角来看，该过程包含4个步骤，如图2.1所示。 ...

原创 2021-07-09 13:34:50 · 182 阅读 · 0 评论
《精通Python爬虫框架Scrapy》第3章爬虫基础

第3章　爬虫基础这是非常重要的一章，你可能会多次阅读本章，并且经常会在寻找解决方案时回到本章中。我们首先会介绍如何安装Scrapy，然后伴随若干示例及不同的实现，转向开发Scrapy爬虫的方法论。在开始之前，我们先来看一些重要的概念。由于我们会快速进入有趣的代码部分，因此使用本书中代码片段的能力非常重要。当你看到如下内容时： $ echo hello worldhello world...

原创 2021-07-09 13:34:49 · 163 阅读 · 0 评论
《精通Python爬虫框架Scrapy》第4章从Scrapy到移动应用

第4章　从Scrapy到移动应用我能够听到人们的尖叫声：“Appery.io是什么，一个手机应用的专用平台，它和Scrapy有什么关系？”那么，眼见为实吧。你可能还会对几年前在Excel电子表格上给某个人（朋友、管理者或者客户）展示数据时的场景印象深刻。不过现如今，除非你的听众都十分老练，否则他们的期望很可能会有所不同。在接下来的几页里，你将看到一个简单的手机应用，这是一个只需几次单击就能够创...

原创 2021-07-09 13:34:48 · 150 阅读 · 0 评论
《精通Python爬虫框架Scrapy》第5章迅速的爬虫技巧

第5章　迅速的爬虫技巧第3章关注的是如何从页面中抽取信息，并将其存储到Items中。我们所学习的内容已经覆盖了大部分常见的Scrapy用例，足够你创建并运行爬虫了。而在本章中，我们将看到更多特殊的例子，以便让你更加熟悉Scrapy的两个最重要的类——Request和Response，即我们在第3章中提到的UR2IM抓取模型中的两个R。 5.1　需要登录的爬虫通常情况下，你会发现自己想要抽...

原创 2021-07-09 13:34:47 · 123 阅读 · 0 评论
《精通Python爬虫框架Scrapy》第6章部署到Scrapinghub

第6章　部署到Scrapinghub 在前面的几章中，我们了解了如何开发Scrapy爬虫。当我们对爬虫的功能感到满意时，接下来会有两个选项。如果我们需要的只是使用它们执行简单的抓取工作，那么此时使用开发机运行即可。而另一方面，更常见的情况是需要周期性地运行抓取任务，此时可以使用云服务器，如Amazon、RackSpace或其他提供商，不过这些都需要创建、配置和维护工作。此时就是Scrapingh...

原创 2021-07-09 13:34:46 · 216 阅读 · 0 评论
《精通Python爬虫框架Scrapy》第7章配置与管理

第7章　配置与管理前面章节讲解了使用Scrapy开发一个简单爬虫，并用它从网络上抽取数据是多么简单。Scrapy包含很多工具和功能，可以通过设置使它们可用。对于许多软件框架来说，设置是“令人讨厌的东西”，因为它需要根据系统如何运转进行调整。而对于Scrapy来说，设置则是其最重要的基本机制之一，除了调优和配置外，还可以启用功能，以及允许我们扩展框架。我们不打算与优秀的Scrapy文档竞争，只想...

原创 2021-07-09 13:34:45 · 111 阅读 · 0 评论
《精通Python爬虫框架Scrapy》第8章 Scrapy编程

第8章　Scrapy编程到目前为止，我们编写的爬虫主要用于定义爬取数据源的方式以及如何从中抽取信息。除了爬虫外，Scrapy还提供了能够调整其大多数方面功能的机制。比如，你可能会发现自己经常在处理如下的一些问题。 1．你需要从同一个项目的其他爬虫中复制、粘贴大量代码。重复的代码与数据更加相关（比如，执行字段计算），而不是数据源。 2．你需要编写脚本，对Item进行后处理，执行像删除重复条目...

原创 2021-07-09 13:34:44 · 199 阅读 · 0 评论
《精通Python爬虫框架Scrapy》第9章管道秘诀

第9章　管道秘诀上一章讨论了使用Scrapy中间件的编程技术。本章将通过展示各种常见用例（包括消费REST API、数据库接口、处理CPU密集型任务以及与遗留服务的接口），重点关注编写正确而高效的管道。在本章中，我们将会使用几个新的服务器，你可以在图9.1的右侧看到这些服务器。图9.1　本章使用的系统 Vagrant应该已经为我们创建好了这些服务器，我们可以从dev服务器中使用其...

原创 2021-07-09 13:34:42 · 143 阅读 · 0 评论
《精通Python爬虫框架Scrapy》第10章理解Scrapy性能

第10章　理解Scrapy性能通常情况下，性能很容易出现问题。对于Scrapy来说，性能就不只是容易出现问题了，而是几乎肯定会出现，因为它有很多有悖常理的行为。除非你对Scrapy内部有非常好的理解，否则你会发现，即使非常努力地优化性能，也很可能得不到收益。这是使用高性能、低延迟以及高并发环境复杂性的一部分。在优化瓶颈性能时，阿姆达尔定律仍然是正确的，不过除非你能指明真正的瓶颈所在，否则在系统...

原创 2021-07-09 13:34:41 · 300 阅读 · 0 评论
《精通Python爬虫框架Scrapy》第11章使用Scrapyd与实时分析进行分布式爬取

第11章　使用Scrapyd与实时分析进行分布式爬取我们已经走了很长的一段路。我们首先熟悉了两种基础的网络技术——HTML和XPath，然后开始使用Scrapy爬取复杂网站。接下来，我们深入了解了Scrapy通过其设置为我们提供的诸多功能，然后在探讨其Twisted引擎的内部架构和异步功能时，更加深入地了解了Scrapy和Python。在上一章中，我们研究了Scrapy的性能，并学习了如何解决...

原创 2021-07-09 13:34:40 · 201 阅读 · 0 评论
《精通Python爬虫框架Scrapy》附录A 必备软件的安装与故障排除

附录A　必备软件的安装与故障排除 A.1　必备软件的安装本书使用了庞大的虚拟服务器系统演示现实中多服务器部署环境下的Scrapy使用。我们使用了行业标准工具——Vagrant和Docker，来搭建该系统。由于本书严重依赖于网站内容和布局，如果我们使用不可控的网站，那么我们的例子将会在几个月的时间之后无法使用。Vagrant和Docker为我们提供了一个独立的环境，在这里我们的示例无论现在还是...

原创 2021-07-09 13:34:39 · 238 阅读 · 0 评论
《精通Python爬虫框架Scrapy》欢迎来到异步社区！

欢迎来到异步社区！异步社区的来历异步社区(www.epubit.com.cn)是人民邮电出版社旗下IT专业图书旗舰社区，于2015年8月上线运营。异步社区依托于人民邮电出版社20余年的IT专业优质出版资源和编辑策划团队，打造传统出版与电子出版和自出版结合、纸质书与电子书结合、传统印刷与POD按需印刷结合的出版平台，提供最新技术资讯，为作者和读者打造交流互动的平台。社区里都有什么...

原创 2021-07-09 13:34:38 · 334 阅读 · 0 评论

精通Python爬虫框架Scrapy

作者: 人民邮电出版社有限公司

《精通Python爬虫框架Scrapy》版权信息

《精通Python爬虫框架Scrapy》版权声明

《精通Python爬虫框架Scrapy》内容提要

《精通Python爬虫框架Scrapy》关于作者

《精通Python爬虫框架Scrapy》关于审稿人

《精通Python爬虫框架Scrapy》前言

《精通Python爬虫框架Scrapy》第1章 Scrapy简介

《精通Python爬虫框架Scrapy》第2章 理解HTML和XPath

《精通Python爬虫框架Scrapy》第3章 爬虫基础

《精通Python爬虫框架Scrapy》第4章 从Scrapy到移动应用

《精通Python爬虫框架Scrapy》第5章 迅速的爬虫技巧

《精通Python爬虫框架Scrapy》第6章 部署到Scrapinghub

《精通Python爬虫框架Scrapy》第7章 配置与管理

《精通Python爬虫框架Scrapy》第8章 Scrapy编程

《精通Python爬虫框架Scrapy》第9章 管道秘诀

《精通Python爬虫框架Scrapy》第10章 理解Scrapy性能

《精通Python爬虫框架Scrapy》第11章 使用Scrapyd与实时分析进行分布式爬取

《精通Python爬虫框架Scrapy》附录A 必备软件的安装与故障排除

《精通Python爬虫框架Scrapy》欢迎来到异步社区！

《精通Python爬虫框架Scrapy》第2章理解HTML和XPath

《精通Python爬虫框架Scrapy》第3章爬虫基础

《精通Python爬虫框架Scrapy》第4章从Scrapy到移动应用

《精通Python爬虫框架Scrapy》第5章迅速的爬虫技巧

《精通Python爬虫框架Scrapy》第6章部署到Scrapinghub

《精通Python爬虫框架Scrapy》第7章配置与管理

《精通Python爬虫框架Scrapy》第9章管道秘诀

《精通Python爬虫框架Scrapy》第10章理解Scrapy性能

《精通Python爬虫框架Scrapy》第11章使用Scrapyd与实时分析进行分布式爬取