#coding:utf-8 import requests,string from lxml import etree #百度贴吧获取图片 #主要使用lxml的etree.HTML path='E:\\os\\jianc' url = 'http://tieba.baidu.com/p/2166231880' #此处可以是任意一贴 header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'} r = requests.get(url,headers=header) s = etree.HTML(r.text) text=s.xpath('//div/img/@src') #print text for i in text: if 'imgsrc.baidu.com' in i: name = i.split('/')[-1] with open(path+'\\'+name,'wb') as f: cont=requests.get(i,headers=header).content f.write(cont) f.close() print name+u'\t已下载'
一.lxml爬取百度贴吧图片
最新推荐文章于 2024-11-13 09:17:01 发布
本文介绍了一种利用Python和lxml库从百度贴吧帖子中抓取图片的方法。通过发送HTTP请求并解析返回的HTML文档,提取出帖子内的图片链接,并实现自动下载。此过程涉及网络请求、HTML解析及文件操作等关键技术。
462

被折叠的 条评论
为什么被折叠?



