练习使用Scrapy爬取当当网商品数据

最新推荐文章于 2024-05-13 19:32:52 发布

「已注销」

最新推荐文章于 2024-05-13 19:32:52 发布

阅读量468

点赞数

文章标签： python xpath

本文链接：https://blog.youkuaiyun.com/GCSDZQ/article/details/105188359

版权

本文介绍了如何使用Scrapy爬虫框架抓取当当网的商品数据，包括商品标题、链接、价格和评论数，并实现自动翻页及将数据存入数据库。在编写过程中，重点涉及了XPath选择器以及数据库配置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目标站点：”http://category.dangdang.com/pg1-cp01.54.04.00.00.00.html“

需求数据：商品标题、链接、价格、评论数

要求：实现自动翻页并自动写如数据库

第一步在项目文件夹下打开终端，使用一下命令创建项目。

scrapy startproject dangdang

第二部创建爬虫文件

scrapy genspider -t basic ddts dangdang.com

第三步在items文件下写入即将要爬的内容

title = scrapy.Field()
link = scrapy.Field()
price = scrapy.Field()
comment = scrapy.Field()

第四步编写爬虫文件

首先我们打开网页，在源代码里面找到定位元素，然后编写爬取规则，下面是我的代码

item["title"] = response.xpath("//a[@name='itemlist-title']/@title").extract()
item["link"] = response.xpath("//a[@name='itemlist-title']/@href").extract()
item["price"] = response.xpath("//span[@class='search

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

「已注销」

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

用Scrapy抓取当当网站数据

fankeyang的博客

04-17

1527

为了解决这个问题，我学习了如何动态调整选择器以适应变化的网页结构，并通过查看网页源代码来快速调整选择器，确保爬虫的准确性。此外，通过对数据进行统计和可视化分析，我更全面地了解了抓取到的信息，发现了一些潜在的趋势和规律。等步骤，我成功地构建了一个功能强大的爬虫，能够高效地抓取和处理目标网站的信息。的中间件和设置，我更好地掌握了爬虫的并发和异步请求的处理方式，提高了爬取效率。在这里添加完我们需要爬取的哪些数据后，我们在转向我们的爬虫文件，我们通过。框架的使用，还培养了解决实际问题的能力，让我受益匪浅。

scrapy爬取当当网商品信息

zzh的博客

11-04

899

目标：利用scrapy框架爬取多页当当网商品标题，链接和评论数信息并保存在本地数据库中首先创建爬虫项目和爬虫模板文件爬取商品标题商品链接商品评论创建容器容纳他们查看网页源代码，找到规律通过ddname定位a标签 a标签下的 title属性的值是商品标题 href属性是链接文本是评论数开始网址设置为第一页设置不遵循robot协议限制开启pipeline调用DAN...

参与评论您还未登录，请先登录后发表或查看评论

网络爬虫---用scrapy框架爬取当当网商品信息实战将信息写入数据库(主要是对scrapy框架的熟悉和初步使用)

渐渐的忘记，赶不上明天（读研ing，2024年毕业）

03-19

2590

用scrapy框架爬取当当网商品信息实战 1.用scrapy框架创建项目（1）打开cmd，你想到到哪里创建scrapy爬虫项目，就用cd指令，进入到相应的路径。（2）输入：scrapy startproject dangdang，后面的dangdang是项目名，这样你就建立了一个scrapy爬虫项目。（3） 2.scrapy项目文件简介 spiders文件夹用来存放爬虫文件，里面的__in...

scrapy框架爬取当当网商品

小白的成长历程

07-06

280

小白爬虫记录

scrapy基础-当当网爬取

weixin_44677658的博客

02-18

471

本文使用工具： cmd pycharm phpstudy/mysql命令行 Xpath表达式 Xpath与正则简单对比 1.Xpath表达式效率更高 2.正则表达式功能更强大 3.一般优先选择Xpath，解决不了再用正则 Xpath提取规则 / 逐层提取 text（）提取标签下的文本 /html/head/title/text() 3.//标签名** :提取所有名为的标签 4.//标签名[...

[Python]使用Scrapy爬虫框架简单爬取图片并保存本地

热门推荐

莫失莫忘的博客

09-11

2万+

初学Scrapy，实现爬取网络图片并保存本地功能一、先看最终效果保存在F:\pics文件夹下二、安装scrapy1、python的安装就不说了，我用的python2.7，执行命令pip install scrapy，或者使用easy_install 命令都可以2、可能会报如下错误***********************************************************

当当网玄幻书籍爬取实战：Python与Scrapy框架应用

在本项目中，通过使用scrapy框架爬取了当当网100页的玄幻类书籍信息，这些信息包括书籍的名称、价格以及书籍封面图片。当当网是中国知名的电子商务网站，提供大量图书在线销售服务，书籍种类繁多，页面结构复杂。...

Python爬虫第十一课：Scrapy框架（2）——存储数据

fightingoyo的博客

06-18

1352

在Scrapy的整个架构中，引擎是可以说有着最高的权利，管理着调度器、下载器、爬虫和数据管道四个重要的组成部分。这四个组成部分都听命于引擎，一丝不苟的执行引擎下发的命令。本次，我们使用Scrapy爬取职友集的招聘信息，让我们更加熟练的掌握Scrapy的用法。一、明确目标职友集可以通过索引的方式，搜索到全国上百家招聘网站的最新职位：https://www.jobui.com/rank/company/ 我们要获取排行榜中的公司名称、招聘职位名称、工作地点和招聘要求。二、代码实现（1）创建项目 .

踩坑的Python爬虫：新手如何在一个月内学会爬取大规模数据？

python入门学习进阶教程

04-26

1445

Python爬虫为什么受欢迎如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。利用爬虫我们可以获取大量的价值数据，从而获得感性认识中不能得到的信息，这里要注意：不管你是为了Python就业还是兴趣爱好，记住：项目开发经验永远是核心，为解决初学者学习上的困难...

python运用scrapy爬取当当网实例

qq_45137516的博客

10-29

475

首先在settings修改一些设置 ROBOTSTXT_OBEY = True # 改为 ROBOTSTXT_OBEY = False # 把这三行前面的#去掉 ITEM_PIPELINES = { 'dangdang.pipelines.DangdangPipeline': 300, } 在items.py定义一些要爬取的信息 # -*- coding: utf-8 -*- # D...

python爬取dangdang指定图书数据

01-02

使用python selenium爬取当当网商品搜索相关结果，并下载图片，写入xls、保存到mongo数据库

爬虫笔记31：scrapy_redis案例之爬取 当当网（普通的scrapy爬虫）

微信公众号进阶的阿牛哥的博客

10-02

1137

一、scrapy_redis案例之爬取 当当网 整体思路：先实现普通的scrapy爬虫，然后在改写成scrapy_redis 普通的scrapy爬虫：（一）需求：获取特色书单中所有图书的书名和封面，如下图：（二）页面分析： 1、右键查看网页源代码，发现数据就在源代码中，不是js。 2、爬虫文件的实现： ...

使用scrapy爬取网站的商品数据

weixin_30785593的博客

12-14

146

目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息，包括商品的一级类别，二级类别，商品title，品牌，价格。搜索了一下，python的scrapy是一个不错的爬虫框架，于是基于scrapy写了一个简易的爬虫。先分析商品页面，在http://www.muyingzhijia.com/主页面上，有类链接有用的链接，即：http://www.muying...

【爬虫之scrapy框架——尚硅谷(学习笔记one)--基本步骤和原理+爬取当当网（基本步骤）】

weixin_45753504的博客

05-13

1422

爬虫框架scrapy——scrapy框架原理+爬取当当网

scrapy爬取当当网Python图书的部分数据

qq_41671718的博客

11-04

1029

1.下载scrapy框架 pip install scrapy 2.在E盘下创建一个文件夹scrapy01，在命令行窗体中进入该文件夹 3.创建项目：scrapy startproject 项目名 scrapy startproject first_scrapy 4.使用pycharm打开scrapy01文件夹 5.在items.py文件中创建所需的字段，用于保存数据 ...

scrapy 爬取当当网产品分类

weixin_33696822的博客

05-10

117

#spider部分import scrapy from Autopjt.items import AutopjtItem from scrapy.http import Request class AutospdSpider(scrapy.Spider): name = "autospd" allowed_domains = ["dangdang.com"] ...

一文解决scrapy带案例爬取当当图书

大数据小白学习录

06-01

2405

Scrapy框架简介 Scrapy的五大组件 Spiders(爬虫): 它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器) Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。 Scheduler(调度器)：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。 Down

python 爬虫框架Scrapy爬取当当网数据

weixin_30346033的博客

05-20

192

setting.py需要修改的两个地方：转载于:https://www.cnblogs.com/114811yayi/p/6883275.html

python实战|用scrapy爬取当当网数据

weixin_49345590的博客

12-10

1814

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云作者：Python进击者 ( 想要学习Python？Python学习交流群：1039649593，满足你的需求，资料都已经上传群文件流，可以自行下载！还有海量最新2020python学习资料。 ) 1 说在前面的话在上一篇文章中我们介绍了scrapy的一些指令和框架的体系，今天咱们就来实战一下，用scrapy爬取当当网（网站其实大家可以随意找，原理都是一样）的数据。

Python使用scrapy爬取当当网数据