import requests,os,bs4
url='http://xkcd.com'
os.makedirs('xkcd')
while not url.endswith('#'):
print('正在下载%s'%url)
res=requests.get(url)
res.raise_for_status()
soup=bs4.BeautifulSoup(res.text,"html.parser")#这里与书本有区别,需要加"html.parser"
comicelem=soup.select('#comic img')
if comicelem==[]:
print('没找到图片...')
else:
comicurl='http:'+comicelem[0].get('src')#这里与书本有区别,网址改了需要加前缀才行
print('正在下载 %s'%(comicurl))
res=requests.get(comicurl)
res.raise_for_status()
imgfile=open(os.path.join('xkcd',os.path.basename(comicurl)),'wb')#文件命名,comicurl自带图片文件后缀
for chunk in res.iter_content(10000):#文件存储
imgfile.write(chunk)
imgfile.close()
prelink=soup.select('a[rel="prev"]')[0]
url='http://xkcd.com'+prelink.get('href')
print('done')
实例:下载所有XKCD漫画
最新推荐文章于 2021-12-30 09:41:54 发布
本文介绍了一种使用Python的requests和BeautifulSoup库从xkcd网站爬取漫画的方法。通过自动化请求和解析网页,可以下载漫画图片并保存到本地目录。
1671

被折叠的 条评论
为什么被折叠?



