Python爬虫-抓取当当网指定图书信息,并存储到excel文件

# url -- 页面  -- 内容(分析)

import requests
from lxml import html
import math # 页面个数的获取
from book import Book
import xlwt  # 用来给excel进行写内容的
'''
补充:
1-添加表头(书名,售价,作者)
2-每一列的宽度进行调整
3-每一行的高度进行调整  
4-表头或表内容的字体样式进行设置
'''
# 1-获取页面的代码
def download(url):
    # 请求指定的网站,获取响应结果
    response = requests.get(url)
    # 获取页面的文本--源码
    content = response.text   # str
    # 文本|源码 进行格式化 -- HTMLElement
    html_content = html.fromstring(content)
    return html_content

# 2-从源码中获取有价值的信息 count=总条目数 num=累计条目数
def getvalues(html_content,count,num):
    books_page = [] # 存储指定页码的书籍
    # 60 条信息
    #list_book = html_content.cssselect('ul.bigimg>li')
    list_book = html_content.xpath(
        '//ul[@class="bigimg"]/li')
    # 检索60

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值