利用lxml和request完成当当网图书信息提取

最新推荐文章于 2025-01-22 21:28:49 发布

原创最新推荐文章于 2025-01-22 21:28:49 发布 · 393 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍了一个使用Python编写的简单爬虫程序，用于从当当网抓取特定书籍的信息，包括书名、链接、价格和销售商。通过解析HTML数据，程序能够有效地收集并整理这些信息，并按价格排序展示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import requests
from lxml import html

def spider(sn):
    '''get book data of Dangdang'''
    url = 'http://search.dangdang.com/?key={sn}&act=input'.format(sn=sn)
    # 请求
    html_data = requests.get(url).text
    # 解析HTML
    selector = html.fromstring(html_data)
    # 获取图书列表
    ul_list = selector.xpath('//div[@id="search_nature_rg"]/ul/li')

    #提取出书籍的部分信息
    book_list = []
    for li in ul_list:

        #bookName
        bookName = li.xpath('a/@title')[0]
        
        #link
        link = li.xpath('a/@href')[0]
        
        #price
        price = li.xpath('p[3]/span[1]/text()')[0].replace('¥', '')
        
        #business
        business = li.xpath('p[@class="search_shangjia"]/a/text()') if len(li.xpath('p[@class="search_shangjia"]/a/text()')) > 0 else '当当自营'

        book_list.append({'name':bookName,'link':link,'price':price,'business':business,})

    book_list = sorted(book_list, key=lambda item:float(item['price']))
    for item in book_list:
        print(item['price'])
if __name__ == '__main__':
    # sn = input('PELEASE INPUT BOOK NUMBER')
    sn = "9787115428028" #书籍的编号
    spider(sn)