
反爬虫
文章平均质量分 92
李飞飞_None
404
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python反爬虫 自定义字体1
在进行数据抓取时,有些网页会使用一些特殊的字符来将我们所需要的数据进行替换显示。我们以实习僧网站为例,在网页中我们可以看到我们所要的数据,但是当我们查看源码时,他却显示的是,显然,该网页把我们所需要的数据给隐藏起来了。我们不妨继续查看源码,会发现有如下的代码从上图中我们可以知道,网页中是把我们所需要的数据给用别的类似代码的东西给替换掉了,我们只要能够将它反向给替换回来就能够得到我们的数据了...原创 2019-04-27 12:53:24 · 1095 阅读 · 0 评论 -
CSS反爬虫 大众点评
在爬虫时,我们会经常遇到一些反爬虫的例子,网站上通过反爬虫便使得我们无法获取真实的数据信息,有兴趣的同学可以看下这篇文章(点我呀),其中介绍了多种的反爬虫和对应的策略。在大多数数据较多的网站中,其经常会使用CSS反爬虫机制来阻止我们对其中信息的访问,因此想要获取我们需要的数据信息,就必须要对这种反爬虫加密进行破解。我们以大众点评中的点评数量为例,来讲解一下其具体的破解方法。我们首先在浏览器种打...原创 2019-04-23 11:01:50 · 1644 阅读 · 3 评论 -
python反爬虫 自定义字体2
上一篇讲的是网页中使用固定的字体映射表,也就是网页中显示的数据编码和真实数据的映射在一段时间内不会发生变化。但是,有的网页中对应的映射会随时发生变化,我们以东方财富网为例,下图是我们一开始所抓取得到的部分信息我们在不同的时间内分别下次其网页中使用的字体文件,并将其转化为xml文件来进行查看。字体1字体2会发现每个字体文件中的code都会发生变化,并且name也是一...原创 2019-04-28 21:10:07 · 695 阅读 · 0 评论 -
python反爬虫 自定义字体3
上一篇博客讲的是针对具有一些固定映射的自定义字体,即能够使用该固定映射来找到当前网页所使用的自定义字体的映射表,从而替换使用。然而,在一些网站中,其根本找不到什么规律,每次都是随机的字符映射表,本篇博客将以猫眼为例,讲述遇到这种随机的字符映射表,我们应该处理。首先,我们根据之前说讲的方法,找到当前网页所使用的自定义字体文件的地址,并将其转化为xml文件进行查看,如下:字体 1字体 2...原创 2019-05-04 16:02:47 · 614 阅读 · 1 评论