
解析库之lxml
解析库之lxml
WoLykos
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬虫实战——反爬机制的解决策略【阿里】
这一次呢,让我们来试一下“优快云热门文章的抓取”。话不多说,让我们直接进入CSND官网。(其实是因为我被阿里的反爬磨到没脾气,不想说话……)一、URL分析输入“Python”并点击搜索:便得到了所有关于“Python”的热门博客,包括 [ 标题,网址、阅读数 ] 等等,我们的任务,就是爬取这些博客。分析一下上图中曲线处的URL,不难发现:p为页数,q为关键字。注意:我们一...原创 2019-12-24 20:57:20 · 3603 阅读 · 4 评论 -
Python爬虫实战——反爬策略之模拟登录【优快云】
在《Python爬虫实战—— Request对象之header伪装策略》中,我们就已经讲到:“在header当中,我们经常会添加两个参数——cookie 和 User-Agent,来模拟浏览器登录,以此提高绕过后台服务器反爬策略的可能性。”User-Agent已经讲过,这篇我们则主要讲cookie的使用案例。通俗地讲:User-Agent的作用是模拟浏览器,cookie的作用是模拟登陆,所以...原创 2019-12-23 20:38:49 · 2108 阅读 · 0 评论 -
Python爬虫基础——XPath语法的学习与lxml模块的使用【优快云】
XPath与正则都是用于数据的提取,二者的区别是:正则:功能相对强大,写起来相对复杂;XPath:语法简单,可以满足绝大部分的需求;所以,如果你可以根据自己的需要进行选择。一、首先,我们需要为Google浏览器配置XPath插件:请自行学习,效果如下:二、XPath的语法:注意:XPath的索引从1开始。三、XPath的案例:一级分类://h3[@class="c...原创 2019-12-26 14:03:09 · 1239 阅读 · 0 评论