python爬虫的xpath、bs4、re方法

本文深入探讨了爬虫技术中的三种关键数据抓取方法:正则表达式、XPath与BeautifulSoup,通过实例展示了如何有效解析网页结构,提取所需数据。

1.re正则表达式

# 正则表达式分析: 找开始和结束标签,两个标签之间把想要的内容需要包含进来,然后依次查找分析。

pat = r'<div class="post floated-thumb">(.*?)<p class="align-right"><span class="read-more">'

# 使用findall方法查找符合要求的全部内容,放置到一个列表

divlist = re.findall(pat,HTML,re.S) #re.S : 是.匹配包括换行之内的所有字符

 

2.xpath(scrapy自带的)

next=response.xpath("//li[@class='next']/a/@href").extract()[0]

extract(): 序列化该节点为unicode字符串并返回list。

 

 

3.bs4

bsoup = BeautifulSoup(dataopen, "html.parser")
datas = bsoup.find_all("div", {"class":"reveal-work-wrap"}) #获取所有这个标签,再遍历解析
for x in datas:
    print(x)
    childimg = x.find("img").get("src")
    pathpic1 = childimg.split("/")[-1]
    filepath1 = os.path.join("D:\putweb", pathpic1)
    urllib.request.urlretrieve(childimg,filepath1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值