html在线调查源码,在线HTML源码任意内容提取BeautifulSoup版

常见的写法说明:

name="div" 其中的name指的是标签名,比如标签div,a,img,h1,code,p,span等

如果单纯指定标签名,很可能提取到一些不是你需要的内容,那么就需要配合下面的属性值来更精确的匹配到需要的内容

attrs={"class":"btn","style":"margin-top:30px"} 其中的attrs指的是标签属性,比如常见属性class,style,id,type,placeholder,title,alt或者其他自定义属性等等

name="span",attrs={"id":regex("abc\d{3}")} 这种格式是指定查找span标签,匹配这个标签中id属性值包含abc,且abc后面含有三位数字的内容, 其中字符串中的regex未固定格式,把正则内容写到()里即可

text 指的是输出为文本格式

你只要记住name是指定标签,attrs是指定属性值,attrs的格式其实是个字典,然后按示例格式写,就可以啦,就这么简单,习惯之后,提取任何html内容,犹如探囊取物!

格式是按照BeautifulSoup的find或者find_all模式写的,所以会用这个工具,基本上BeautifulSoup你也会了,反过来,你会BeautifulSoup,用这个工具应该是一看就会

建议使用火狐或者谷歌浏览器的查看元素来分析html源码,进行规则填写,相当方便和简单

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值