
63爬虫(二)XPath和Bs4解析
48N6E
这个作者很懒,什么都没留下…
展开
-
2020/04/02 04-find系方法参数、css选择器、Jsonpath
刚才是如何去搜索文档树,主要用的find系列方法可以让你去定位要找的元素们,find找一个,find_all找一批,find_all立即返回一个列表。所有find系列参数都是一个原则,第一个叫name,官方称为过滤器filter,过滤器可以写5种形式:1.标签,2.正则3.列表,4.true或者none5.函数函数可以做增强功能,这个函数比较简单,经过测试,函数可以接收标签对象,...原创 2020-04-03 20:22:40 · 1289 阅读 · 0 评论 -
2020/04/01 03-Bs4遍历文档树和搜索过滤器
soup.div深度优先找第一个divsoup.div深度优先找第一个div,在它下面找深度优先第一个p标签深度优先它是要把你的整个结构解析了才开始找的,不是按照读取的顺序来的,是有顺序的遍历直接节点需要一些东西现在玩的是标签element,标签就是元素这里有一个contentsattrs用字典包了下,说明是字典告诉你是个标签,来源页面中的类,来自于页面中的元素的类...原创 2020-04-02 16:44:48 · 422 阅读 · 0 评论 -
2020/03/31 02-lxml爬取口碑榜和bs4基本概念
XPath是做xml和html解析的时候,最重要的技术之一,爬虫更需要的是如何解析查询回来的数据,爬取本身没什么难的发一个http请求,返回response就是了,response回来的有可能是html,有可能是json,文本信息我们关注,非文本不关注,更关注爬取的内容,被html包含之内的文本信息是要我们关注的。**我们前面生成的表格,表格的数据是我们关注的,表格标签不关注,只不过标签的是定...原创 2020-04-01 15:53:18 · 216 阅读 · 0 评论 -
2020/03/30 01-XPath概念和实例
之前的爬取用一些简单的库就可以完成了,其实就是一个http请求得到一个response,然后对响应内容进行处理,响应的内容其实就是文本,http协议都是基于文本完成的,对文本完成分析,最简单方式就是正则表达式,但是在正则表达式有局限,(搞成html的解析器,按树型解析)xml和html有相似之处,都是标签语言,这些标签之前是用树形结构来组织的,有父标签,有子标签。html是来解决格式的问题的,...原创 2020-03-31 21:59:30 · 399 阅读 · 0 评论