声明:
1、 学生刚开始学习爬虫,代码会有很多不严谨,也较为粗糙,单纯用于广大网友参考,希望能起到一定的帮助
2、 如果要转载,请标记出来源
3、本文纯粹用于技术练习,请勿用作非法途径
做题途中所遇问题:
1.同class名的div标签想要单独取用第二个。但是一直没法,最后使用find_all标签一起取用成列表格式,再进行选取
2.for循环嵌套有点不熟悉折腾好久才弄清楚循环,基础不扎实。
代码行:
import requests
from bs4 import BeautifulSoup
import xlwt
response=requests.get("http://bang.dangdang.com/books/fivestars/1-1")
response.encoding=response.apparent_encoding
#由于要先爬取数据再保存成文件,运用函数来分布功能,方便管理
bs = BeautifulSoup(response.text,"html.parser")
book_content=bs.find('ul',class_="bang_list clearfix bang_list_mode").find_all('li')
list=[]
for book in book_content:
#图书名
name=book.find('div'