爬虫基础_onejane的博客-优快云博客

爬虫基础

文章平均质量分 93

爬虫逆向

文章数：8 文章阅读量：18674 文章收藏量：153

作者: onejane

公众号欢迎关注微信：ReverseCode

展开

爬虫基础篇之多途径抓取失信人名单

需求继JS逆向之国家企业信用信息公示系统Cookie传递之后，我们对scrapy有了一定的掌握，接下来通过多渠道汇总对失信人信息抓取入库。抓取百度失信人名单抓取最高人民法院失信人名单抓取国家企业信用公示系统失信人公告把上面三个来源的失信人信息进行合并,去重目标百度搜索失信人名单抓取数据: 失信人名称, 失信人号码,法人(企业), 年龄(企业的年龄为0), 区域,失信内容, 公布日期, 公布执行单位, 创建日期, 更新日期企业信用信息公示系统访问http://ww

原创 2021-04-28 03:35:21 · 2173 阅读 · 7 评论
爬虫基础篇之页面请求解析

CSS选择器html中为指定元素指定显示效果，比如颜色，背景，字体等不同的属性，这些样式都是通过css选择器告诉浏览器指定样式风格。表达式含义#animal获取id为animal的所有元素.animal获取class为animal的所有元素a.active获取类为active的a标签.animal > .pig获取类animal直接子元素中类为.pig的元素.animal .pig获取类animal后代元素中类为.pig的元素a[hre

原创 2021-03-30 20:07:59 · 726 阅读 · 2 评论
爬虫基础篇之IP代理池

代理池介绍由众多ip组成提供多个稳定可用代理IP的ip池。当我们做爬虫时，最常见的反爬手段就是IP反爬，当同一个IP访问网站超出频控限制，将会被限制访问，那么代理IP池应运而生。资金充足的情况下个人建议还是付费ip代理池，比较免费ip时效性低，且难以维护。本文将介绍通过requests库多线程抓取多个免费代理ip网站数据落库mongo后并动态维护保证IP高度可用，以API形式暴露接口获取代理IP的解决方案。爬取流程代理IP采集模块：采集代理IP -> 检测代理IP ->如果不可用

原创 2021-03-31 19:09:09 · 5200 阅读 · 0 评论
爬虫基础篇之Scrapy抓取京东

虚拟环境同一台服务器上不同的项目可能依赖的包不同版本，新版本默认覆盖旧版本，可能导致其他项目无法运行，通过虚拟环境，完全隔离各个项目各个版本的依赖包，实现运行环境互不影响。virtualenvpip install virtualenv 安装virtualenvpython -m pip install --upgrade pip 升级pippip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio

原创 2021-04-22 17:51:25 · 5476 阅读 · 5 评论
抓包对抗原理与案例

案例：爱奇艺平时我们碰到的HTTP和HTTPS都在应用层，SOCKS在会话层，TCP和UDP在传输层，IP在网络层。HTTP未加密主要有这些不足通信使用明文(不加密),内容可能会被窃听不验证通信方的身份,因此有可能遭遇伪装 DNS劫持->GFW翻墙无法证明报文的完整性,所以有可能已遭篡改运营商劫持->弹窗广告HTTP+加密+认证+完整性保护=HTTPS，是身披SSL的HTTP。

原创 2023-02-02 22:01:43 · 2334 阅读 · 3 评论
爬虫基础篇之基本库的使用

爬虫介绍爬虫目的大数据时代所谓的人工智能都需要建立海量基础的数据上，一切一切的分析都是一数据为基础核心，那么对于企业来说，合理采集数据是既节省成本同时间也可以完成业务分析的捷径。企业需要大量数据进行测试，对网站或app的负载，流量，服务器的CPU进行测试，采集数据是保证大数据量业务上线正常流转的必备前提。所有搜索引擎的底层都是一个个的自动化爬虫，在海量的互联网信息中进行分析处理收录。各大企业都希望自己的产品搜索靠前，对于SEO来说，除了充钱，足够了解爬虫可以从原理上实现搜索引擎的工作原理，实现S

原创 2021-03-28 14:26:21 · 285 阅读 · 0 评论
爬虫基础篇之斗鱼弹幕

Socketasyncore 模块为异步socket的服务器客户端通信提供简单的接口。该模块提供了异步socket服务客户端和服务器的基础架构。相比python原生的socket api，asyncore具备有很大的优势，asyncore对原生的socket进行封装，提供非常简洁优秀的接口，利用asyncore覆写相关需要处理的接口方法，就可以完成一个socket的网络编程，从而不需要处理复杂的socket网络状况以及多线程处理等等。demo服务端netcat-win32-1.12>n

原创 2021-04-08 20:39:13 · 792 阅读 · 1 评论
爬虫基础篇之selenium登陆获取阿里腾讯cookie

简介selenium本身是自动化测试框架，只是在爬虫领域更能够显示出其一把梭的威力，所有网站比如淘宝，微博等必须登录状态才能访问页面，对数据进行抓取时，逆向分析js将是一条不归路，而自动化测试框架selenium完全模拟人的行为模式，对网站按钮的点击，元素的获取，内容文本的输入有着得天独厚的优势。不过相对于逆向加密参数执行的爬虫程序来说，selenium还是太过效率低下了，常规套路一般是通过selenium拿到cookie或者token后，再通过爬虫程序去抓取页面，事半功倍。Alimama实战以阿里妈

原创 2021-04-29 17:16:51 · 1691 阅读 · 2 评论

爬虫基础

作者: onejane

爬虫基础篇之多途径抓取失信人名单

爬虫基础篇之页面请求解析

爬虫基础篇之IP代理池

爬虫基础篇之Scrapy抓取京东

抓包对抗原理与案例

爬虫基础篇之基本库的使用

爬虫基础篇之斗鱼弹幕

爬虫基础篇之selenium登陆获取阿里腾讯cookie