Pyspider--第二个案例

最新推荐文章于 2023-12-11 12:00:00 发布

原创最新推荐文章于 2023-12-11 12:00:00 发布 · 435 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #Pyspider

本文介绍了一个使用Python和pyspider库从京东网站爬取男装品牌信息及图片链接的尝试。作者详细展示了如何获取品牌名称、图片链接，并尝试下载图片，尽管最终未能成功下载图片，但成功保存了链接。

爬取京东的男装--”牌子”货信息

爬取如上的几十条信息

每个图片都有一个对应的品牌信息

看后台代码：

图片信息和名称在这里

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2019-01-23 10:25:59
# Project: JD

from pyspider.libs.base_handler import *
import os

class Handler(BaseHandler):
    crawl_config = {
    }
    def __init__(self):
        self.base_dir ="D:\\JD"

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('https://search.jd.com/Search?keyword=%E7%94%B7%E8%A3%85&enc=utf-8&wq=%E7%94%B7%E8%A3%85&pvid=97c29de04971462aac5bc8d7a6f3b829',callback=self.index_page,validate_cert=False)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):        
        for ide in response.doc(".sl-v-logos > ul li a").items():
            mk_name=ide.text().encode("gbk")
            mk_text=ide.attr("href")+'\n' 
            mk_dir=self.base_dir+"\\"+mk_name
            img_name=mk_dir+"\\"+"img"
            if not os.path.exists(mk_dir):
                os.mkdir(mk_dir)
            if not os.path.exists(img_name):
                os.mkdir(img_name) 
        text_name=open(mk_dir+"\\"+mk_name+".txt","w")
        text_name.write(mk_text)
        text_name.flush()
        text_name.close()
               
        for img in response.doc(".sl-v-logos > ul li a img").items():
            
            print img.attr("src")+'\n'
            img_url=img.attr("src")
            self.crawl(img_url,callback=self.img1_page,validate_cert=False,save={"img_url":img_url})        
        

        
    @config(age=10 * 24 * 60 * 60)
    def img1_page(self, response):
        img1_page=response.save['img_url']
        print(img1_page)
        img_data=response.content         
        img_file=open(img1_page)
        img_file.write(img_data)
        img_file.flush()
        img_file.close()

最后知道图片的链接，但下载不了图片，也上网搜了好多案例，但pyspider例子太少了，涉及到图片的都是别的开发工具和别的包----最后只知道了图片的链接，并没有下载下来。保存链接啥的都没有问题，可以通过gbk格式保存到本地的txt文件里...可以说这是一个失败的例子吧。但还是传上来做个纪念。以后就会好的！

有兴趣赐教的大神也可评论解惑，万分感谢，小生先有礼谢过>_<

加油！