苏宁易购网址爬虫爬取商品信息及图片

本文介绍如何使用Scrapy爬取苏宁官网商品信息,包括标题、现价、原价、商铺名,并利用ImagesPipeline下载商品图片,提供示例代码和关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

利用scrapy来爬取苏宁官网上任何商品的信息,主要的信息有商品标题、商品现价、商品原价、商铺名称,以及用scrapy的ImagesPipeline来下载商品图片。

 

部分主函数代码如下:

# -*- coding: utf-8 -*-
import scrapy
import time
import re
import json
import jsonpath
import urllib.parse
from Suning.items import SuningItem


class SuningSpider(scrapy.Spider):
    name = 'suning'
    allowed_domains = ['search.suning.com/']
    keyword = input("请输入商品:")
    temp_data = urllib.parse.quote(keyword)
    temp_url = "https://search.suning.com/{}/"
    val_url = temp_url.format(temp_data)
    start_urls = [val_url]

    def __init__(self, name=None, **kwargs):
        super().__init__(name=None, **kwargs)
        self.page_num = 0

    def parse(self, response):

        # content = response.body.decode("utf-8")
        # with open("./file/苏宁.html", "w", encoding="utf-8") as file:
        #     file.write(content)
        li_elements = response.xpath("//div[@id='product-list']/ul[@class='general clearfix']/li")
        # print(len(li_elements))
        for li_element in li_elements:
            title_elements = li_element.xpath(
                ".//div[@class='res-info']/div[@class='title-selling-point']/a//text()").extract()
            title_list = []
            for temp_title in title_elements:
                temp_title = re.sub(r"\s", "", temp_title)
                if len(temp_title) > 0:
                    temp_title = temp_title.replace(",", ",")
                    title_list.append(temp_title)
            title = "-".join(title_list)
            store_name = li_element.xpath(
                ".//div[@class='res-info']/div[@class='store-stock']/a/@title").extract_first()
            # print(store_name)
            # print(title)
            temp_image_url = li_element.xpath(
                ".//div[@class='img-block']/a[@class='sellPoint']/img/@src").extract_first()
            image_url = "https:" + temp_image_url
            # print(image_url)
            temp_product_url = li_element.xpath(
                ".//div[@class='img-block']/a[@class='sellPoint']/@href").extract_first()
            src_args = re.findall(r"com/(.*?).html", temp_product_url)[0]
            key0 = src_args.split("/")[0]
            key1 = src_args.split("/")[-1]
            price_src = "https://pas.suning.com/nspcsale_0_0000000" + key1 + "_0000000" + key1 + "_" + key0 + "_190_755_7550199_500353_1000051_9051_10346_Z001___R9006372_0.91_1___00031F072____0___750.0_2__500363_500519__.html?callback=pcData&_=1630468559926"
            # price_src = "https://pas.suning.com/nspcsale_0_0000000" + key1 + "_0000000" + key1 + "_" + key0 + "_250_029_0290199_20089_1000257_9254_12006_Z001___R1901001_0.5_0___000060864___.html?callback=pcData&_=1630466740130"
            # print(price_src)
            item = {"title": title, "store_name": store_name, "image_url": image_url}
            yield scrapy.Request(price_src, callback=self.get_price, dont_filter=True, meta=item)

爬取后用csv保存文件:

 下载好的照片如下:

项目内包含的文件:

begin.py说明:
直接运行该文件既可以运行程序,也可以自己在终端运行scrapy crawl suning

proxy.py说明:
运行该文件可以修改ip池内的ip代理;
url = "https://www.kuaidaili.com/free/inha/1/"
修改上面的数字可以获得其他页数的ip地址,1代表第一页。
运行的结果复制替换下面列表内容,可以多添加。
ip_list = ['http://129.226.182.125:80', 'http://106.45.104.214:3256']
requestheaderstool.py说明:
可以更换cookie值,倘若数据无法获取时。即复制自己浏览器的cookie,(最好是登录苏宁账号后的cookie值)

 资源下载:

苏宁易购网址爬虫爬取商品信息及图片-Python文档类资源-优快云下载运行程序,输入需要爬取的商品名称即可爬取到该商品的所有商品名称价格,商铺名称,以及商品图片等。更多下载资源、学习资料请访问优快云下载频道.https://download.youkuaiyun.com/download/weixin_45179605/24366299

### 关于ArcGIS License Server无法启动的解决方案 当遇到ArcGIS License Server无法启动的情况,可以从以下几个方面排查并解决问题: #### 1. **检查网络配置** 确保License Server所在的计算机能够被其他客户端正常访问。如果是在局域网环境中部署了ArcGIS Server Local,则需要确认该环境下的网络设置是否允许远程连接AO组件[^1]。 #### 2. **验证服务状态** 检查ArcGIS Server Object Manager (SOM) 的运行情况。通常情况下,在Host SOM机器上需将此服务更改为由本地系统账户登录,并重启相关服务来恢复其正常工作流程[^2]。 #### 3. **审查日志文件** 查看ArcGIS License Manager的日志记录,寻找任何可能指示错误原因的信息。这些日志可以帮助识别具体是什么阻止了许可服务器的成功初始化。 #### 4. **权限问题** 确认用于启动ArcGIS License Server的服务账号具有足够的权限执行所需操作。这包括但不限于读取/写入特定目录的权利以及与其他必要进程通信的能力。 #### 5. **软件版本兼容性** 保证所使用的ArcGIS产品及其依赖项之间存在良好的版本匹配度。不一致可能会导致意外行为完全失败激活license server的功能。 #### 示例代码片段:修改服务登录身份 以下是更改Windows服务登录凭据的一个简单PowerShell脚本例子: ```powershell $serviceName = "ArcGISServerObjectManager" $newUsername = ".\LocalSystemUser" # 替换为实际用户名 $newPassword = ConvertTo-SecureString "" -AsPlainText -Force Set-Service -Name $serviceName -StartupType Automatic New-ServiceCredential -ServiceName $serviceName -Account $newUsername -Password $newPassword Restart-Service -Name $serviceName ``` 上述脚本仅作为示范用途,请依据实际情况调整参数值后再实施。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CJ.Williams

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值