python爬取当当商城信息并保存至数据库

最新推荐文章于 2024-10-30 09:57:42 发布

原创

最新推荐文章于 2024-10-30 09:57:42 发布 · 1.4k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#python爬虫 #爬取商品信息

本文介绍了如何使用Python爬虫从当当商城抓取商品信息，并将数据存储到数据库中。首先，利用XPath解析网页获取所需数据，然后将数据保存到JSON文件。接着，读取JSON文件，连接数据库并将数据批量导入。最后，展示了如何修改URL以爬取多页商品信息。

由于最近自己在写个电商项目，需要大量的商品信息，故学习了下怎么爬取现有的商城商品信息。

爬取页面

爬取页面：http://category.dangdang.com/cid4002644.html，利用xpath检索到需要的数据，利用item={}（即map）将需要的数据保存其他，最终通过json将map保存到json/data.sjon中。
代码如下：

# -*- coding: utf-8 -*-
import requests
import lxml.html
import json

def parse_url(xiaohua_url, headers):
    response = requests.get(xiaohua_url, headers=headers)
    return response.content.decode("gbk")

def get_data(html_content):
    metree=lxml.html.etree
    # 解析对象
    parser=metree.HTML(html_content,metree.HTMLParser())
    # 解析获得在当前校花中的所有信息
    div_list=parser.xpath('//div[@id="search_nature_rg"]/ul[@class="bigimg cloth_shoplist"]/li')
    # print(div_list)
    result=[]
    index=0
    for element in div_list:
        index+=1
        item={
   
   }
        # item["top_title"]=element.xpath('./div[@class="goods-list-item  c-goods  J_pro_items"]/@id')
        item["top_title"]=element.xpath('./a/@title')[0]
        if index <= 8:
            item["pict_src"]=element.xpath('./a/img/@src')[0]
        if index>8:
            item["pict_src"]=element.xpath('./a/img/@data-original')[0]
        item["price"] = element.xpath('./p[@class="price"]/span[@class="price_n"]/text()'

最低0.47元/天解锁文章