
python_爬虫
文章平均质量分 79
记录爬虫相关
K'illCode
记录自己的学习历程,大部分来自转载,如有侵权联系删除.......
展开
-
识别密文加密方式
前言爬虫工程师在做加密参数逆向的时候,经常会遇到各种各样的加密算法、编码、混淆,每个算法都有其对应的特征,对于一些较小的网站,往往直接引用这些官方算法,没有进行魔改等其他操作,这种情况下,如果我们能熟悉常见算法的特征,通过密文就能猜测出使用的哪种算法、编码、混淆,将会大大提高工作效率!在 CTF 中通常也会有密码类的题目,掌握一些常见密文特征也是 CTFer 们必备的技能!本文将介绍以下编码和加密算法的特征: 编码:Base 系列、Unicode、Escape、URL、Hex; 算法原创 2022-03-07 16:18:50 · 20388 阅读 · 0 评论 -
httpx 爬虫效率提高一倍
最近公司 Python 后端项目进行重构,整个后端逻辑基本都变更为采用"异步"协程的方式实现。看着满屏幕经过 async await(协程在 Python 中的实现)修饰的代码,我顿时感到一脸懵逼,不知所措。虽然之前有了解过"协程"是什么东西,但并没有深入探索,于是正好借着这次机会可以好好学习一下。什么是协程?简单来说,协程是一种基于线程之上,但又比线程更加轻量级的存在。对于系统内核来说,协程具有不可见的特性,所以这种由程序员自己写程序来管理的轻量级线程又常被称作 "用户空间线...原创 2021-08-01 16:56:46 · 591 阅读 · 0 评论 -
爬虫相关22 个python库
1. Urllib38.93亿次下载Urllib3 是 Python 的 HTTP 客户端,它提供了许多 Python 标准库没有的功能。 线程安全 连接池 客户端 SSL/TLS 验证 使用 multipart 编码进行文件上传 用于重传请求并处理 HTTP 重定向的辅助功能 支持 gzip 和 deflate 编码 支持 HTTP 和 SOCKS 代理 尽管名字叫做 Urllib3,但它并不是 Python 自带的 urlli原创 2021-08-01 16:53:48 · 1031 阅读 · 0 评论 -
小众且好用的 Python 爬虫库
今天再推荐一款小众轻量级的爬虫库:MechanicalSoupMechanicalSoup,也是一款爬虫神器!它使用纯 Python 开发,底层基于 Beautiful Soup 和 Requests,实现网页自动化及数据爬取项目地址:https://github.com/MechanicalSoup/MechanicalSoup2. 安装及常见用法首先安装依赖库#安装依赖库pip3installMechanicalSoup常见操作如下:...原创 2021-05-15 10:26:57 · 381 阅读 · 0 评论 -
Python 爬虫:单线程、多线程和协程的爬虫性能对比
今天我要给大家分享的是如何爬取豆瓣上深圳近期即将上映的电影影讯,并分别用普通的单线程、多线程和协程来爬取,从而对比单线程、多线程和协程在网络爬虫中的性能。具体要爬的网址是:https://movie.douban.com/cinema/later/shenzhen/除了要爬入口页以外还需爬取每个电影的详情页,具体要爬取的结构信息如下:爬取测试下面我演示使用xpath解析数据。入口页数据读取:importrequestsfromlxmlimportetreeimp...转载 2021-03-05 20:17:21 · 368 阅读 · 0 评论 -
『爬虫四步走』手把手教你使用 Python 抓取并存储网页数据!
爬虫是 Python 的一个重要的应用,使用 Python 爬虫我们可以轻松的从互联网中抓取我们想要的数据本文将基于爬取 B 站视频热搜榜单数据并存储为例,详细介绍 Python 爬虫的基本流程。如果你还在入门爬虫阶段或者不清楚爬虫的具体工作流程,那么应该仔细阅读本文!第一步:尝试请求首先进入 b 站首页,点击排行榜并复制链接https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d6172795061676554..原创 2020-10-24 17:26:52 · 564 阅读 · 0 评论 -
Python爬虫:一些常用的爬虫技巧总结
来源:j_hao104 链接:https://my.oschina.net/jhao104/blog/647308?fromerr=KzH2VGaK用Python也差不多一年多了,Python应用最多的场景还是Web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。1、基本抓取网页get方法import urllib2url = "http:...原创 2020-10-20 23:17:53 · 492 阅读 · 1 评论 -
七步完美解决问题python爬虫极验滑动验证码问题
滑动验证码的识别介绍本节目标:用程序识别极验滑动验证码的验证,包括分析识别思路、识别缺口位置、生成滑块拖动路径、模拟实现滑块拼合通过验证等步骤。准备工作:本次案例我们使用Python库是Selenium,浏览器为Chrome。请确保已安装Selenium库和ChromeDriver浏览器驱动。了解极验滑动验证码:极验滑动验证码官网为:http://www.geetest.c...原创 2019-11-07 21:20:48 · 2086 阅读 · 0 评论 -
入门爬虫
爬虫三要素:抓取、分析、存储通过url进行网页的抓取,当我们请求一个网页时,先通过域名解析到对应的ip地址,然后向浏览器发送请求,建立历TCP链接,服务器返回网页的内容。再由浏览器对内容进行解析。01基础的抓取1urllib 在Python2.x中我们可以通过urllib 或者urllib2 进行网页抓取,但是再Python3.x 移除了urllib2。只...原创 2019-08-26 08:56:20 · 436 阅读 · 0 评论 -
三个Python爬虫版本,带你以各种方式爬取校花网,轻松入门爬虫
爬虫是什么?如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用;基本环境配置版本...转载 2019-08-19 09:02:29 · 295 阅读 · 0 评论 -
爬虫得会的预备知识
爬虫定义网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。爬虫就是模拟浏览器的行为,越像越好,越像就越不容易被发现。原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。爬虫的分类通用爬虫:通常指搜索引擎的爬虫聚焦爬虫:针对特定网站的爬虫爬虫的用途 今日头条 网易云音乐...原创 2019-05-24 13:33:54 · 274 阅读 · 1 评论 -
Python爬虫绕过登录的小技巧
前言很多时候我们做 Python 爬虫时或者自动化测试时需要用到 selenium 库,我们经常会卡在登录的时候,登录验证码是最头疼的事情,特别是如今的文字验证码和图形验证码。文字和图形验证码还加了干扰线,本文就来讲讲怎么绕过登录页面。登录页面的验证,比如以下的图形验证码。还有我们基本都看过的 12306 的图形验证码。绕过登录方法绕过登录基本有两种方...原创 2019-05-10 09:37:22 · 8610 阅读 · 0 评论 -
一些关于Python爬虫的源码
利用Python批量下载百度图片# !/usr/bin/env python# -*- coding:utf-8 -*-# 导入URLLIB库的编码方法from urllib.parse import urlencode# 请求库import requests# 用于处理Json格式的文件import json# 函数作用,拼接完整的URLdef page_url_c...原创 2018-08-31 17:00:48 · 4406 阅读 · 2 评论 -
Python入门网络爬虫之精华版
Python学习网络爬虫主要分3个大的版块:抓取,分析,存储另外,比较常用的爬虫框架Scrapy,这里最后也详细介绍一下。首先列举一下本人总结的相关文章,这些覆盖了入门网络爬虫需要的基本概念和技巧:宁哥的小站-网络爬虫当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入http://www.lining0806.com/,你就会看到宁哥的小站首页。简单来说这段过程发生了以下四个步骤:...原创 2018-06-17 10:02:19 · 323 阅读 · 0 评论