Scrapy

$ Ubuntu 14.04 LTS

安装Scrapy

pip install scrapy

http://scrapy.org/

安装pip

sudo apt-get install python-pip

http://blog.youkuaiyun.com/kingppy/article/details/13080919

测试Scrapy

 1 pip install scrapy
 2 cat > myspider.py <<EOF
 3 
 4 from scrapy import Spider, Item, Field
 5 
 6 class Post(Item):
 7     title = Field()
 8 
 9 class BlogSpider(Spider):
10     name, start_urls = 'blogspider', ['http://blog.scrapinghub.com']
11 
12     def parse(self, response):
13         return [Post(title=e.extract()) for e in response.css("h2 a::text")]
14 
15 EOF
16 scrapy runspider myspider.py

[ERROR]You do not have a working installation of the service_identity module...

http://www.cnblogs.com/QuDump/p/3750447.html

pip install service_identity

Scrapy文档

http://scrapy-chs.readthedocs.org/zh_CN/0.24/

http://doc.scrapy.org/en/0.24/ 

根据原作 https://pan.quark.cn/s/459657bcfd45 的源码改编 Classic-ML-Methods-Algo 引言 建立这个项目,是为了梳理和总结传统机器学习(Machine Learning)方法(methods)或者算法(algo),和各位同仁相互学习交流. 现在的深度学习本质上来自于传统的神经网络模型,很大程度上是传统机器学习的延续,同时也在不少时候需要结合传统方法来实现. 任何机器学习方法基本的流程结构都是通用的;使用的评价方法也基本通用;使用的一些数学知识也是通用的. 本文在梳理传统机器学习方法算法的同时也会顺便补充这些流程,数学上的知识以供参考. 机器学习 机器学习是人工智能(Artificial Intelligence)的一个分支,也是实现人工智能最重要的手段.区别于传统的基于规则(rule-based)的算法,机器学习可以从数据中获取知识,从而实现规定的任务[Ian Goodfellow and Yoshua Bengio and Aaron Courville的Deep Learning].这些知识可以分为四种: 总结(summarization) 预测(prediction) 估计(estimation) 假想验证(hypothesis testing) 机器学习主要关心的是预测[Varian在Big Data : New Tricks for Econometrics],预测的可以是连续性的输出变量,分类,聚类或者物品之间的有趣关联. 机器学习分类 根据数据配置(setting,是否有标签,可以是连续的也可以是离散的)和任务目标,我们可以将机器学习方法分为四种: 无监督(unsupervised) 训练数据没有给定...
10-18
Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架,以下从不同方面介绍Scrapy相关信息: ### Scrapy日志系统 日志级别在Scrapy中具有重要意义,不同级别的日志信息反映了不同层次的程序运行状况。通过设置合适的日志级别,开发者可以过滤掉大量不必要的细节信息,只关注关键的运行状态和错误提示。这不仅可以提高开发效率,还有助于快速定位并解决潜在的问题。同时,合理的日志级别设置也有助于保护程序的敏感信息,避免信息泄露的风险。深入理解Scrapy的日志级别及其使用方法是每一个Scrapy开发者必须掌握的技能 [^1]。 ### Scrapy爬取淘宝商品信息案例 以爬取淘宝前60条商品的相关信息为例,需要编辑item文件,示例代码如下: ```python import scrapy class TmgoodsItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() good_price = scrapy.Field() good_name = scrapy.Field() good_url = scrapy.Field() shop_name = scrapy.Field() ``` 该代码定义了商品价格、名称、链接以及店铺名称等字段用于存储爬取的信息 [^2]。 ### Scrapy爬取电影网站信息案例 爬取电影网站相关信息时,首先要创建Scrapy项目。进入自己想进入的文件夹,在cmd窗输入 `scrapy startproject Movies - Spider` 创建scrapy工程。进入项目工程下的Spider目录,创建自己的spider文件,这样就创建好了Scrapy项目,并在相关文件夹中创建了一个 `Movies.py` 文件。在开始编写相关代码之前,需要关闭在scrapy工程文件中 `setting.py` 的服从 `robot.txt` 规则,改为不服从 [^3]。 ### 安装方法 通常可以使用pip来安装Scrapy,在命令行中输入以下命令即可完成安装: ```bash pip install scrapy ``` ### 使用指南 1. **创建项目**:使用 `scrapy startproject project_name` 命令创建一个新的Scrapy项目。 2. **定义Item**:在 `items.py` 文件中定义要爬取的数据结构。 3. **编写Spider**:在 `spiders` 目录下创建Spider文件,定义爬取的规则和逻辑。 4. **设置Pipeline**:在 `pipelines.py` 文件中处理爬取到的数据,如存储到数据库或文件。 5. **配置Settings**:在 `settings.py` 文件中配置项目的各种参数,如日志级别、下载延迟等。 6. **运行Spider**:使用 `scrapy crawl spider_name` 命令运行Spider开始爬取数据。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值