Pyspider--第二个案例

本文介绍了一个使用Python和pyspider库从京东网站爬取男装品牌信息及图片链接的尝试。作者详细展示了如何获取品牌名称、图片链接,并尝试下载图片,尽管最终未能成功下载图片,但成功保存了链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬取京东的男装--”牌子”货信息

爬取如上的几十条信息

每个图片都有一个对应的品牌信息

看后台代码:

图片信息和名称在这里

 

 

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2019-01-23 10:25:59
# Project: JD

from pyspider.libs.base_handler import *
import os

class Handler(BaseHandler):
    crawl_config = {
    }
    def __init__(self):
        self.base_dir ="D:\\JD"

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('https://search.jd.com/Search?keyword=%E7%94%B7%E8%A3%85&enc=utf-8&wq=%E7%94%B7%E8%A3%85&pvid=97c29de04971462aac5bc8d7a6f3b829',callback=self.index_page,validate_cert=False)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):        
        for ide in response.doc(".sl-v-logos > ul li a").items():
            mk_name=ide.text().encode("gbk")
            mk_text=ide.attr("href")+'\n' 
            mk_dir=self.base_dir+"\\"+mk_name
            img_name=mk_dir+"\\"+"img"
            if not os.path.exists(mk_dir):
                os.mkdir(mk_dir)
            if not os.path.exists(img_name):
                os.mkdir(img_name) 
        text_name=open(mk_dir+"\\"+mk_name+".txt","w")
        text_name.write(mk_text)
        text_name.flush()
        text_name.close()
               
        for img in response.doc(".sl-v-logos > ul li a img").items():
            
            print img.attr("src")+'\n'
            img_url=img.attr("src")
            self.crawl(img_url,callback=self.img1_page,validate_cert=False,save={"img_url":img_url})        
        

        
    @config(age=10 * 24 * 60 * 60)
    def img1_page(self, response):
        img1_page=response.save['img_url']
        print(img1_page)
        img_data=response.content         
        img_file=open(img1_page)
        img_file.write(img_data)
        img_file.flush()
        img_file.close()
                
        
        
        
        
        
        

最后知道图片的链接,但下载不了图片,也上网搜了好多案例,但pyspider例子太少了,涉及到图片的都是别的开发工具和别的包----最后只知道了图片的链接,并没有下载下来。保存链接啥的都没有问题,可以通过gbk格式保存到本地的txt文件里...可以说这是一个失败的例子吧。但还是传上来做个纪念。以后就会好的!

有兴趣赐教的大神也可评论解惑,万分感谢,小生先有礼谢过>_<

加油!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值