
Python爬虫
文章平均质量分 54
Python
Codeooo
爱好学习及分享,若文章侵权,优先联系本人删帖处理。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flask接受任务并异步处理同时多线程处理任务
常用flask任务,记录比较,后期方便查看。原创 2023-07-18 18:51:51 · 5512 阅读 · 0 评论 -
图片去除噪点
将图片进行二值化,灰度处理,判断为噪点即去除:思路:依次遍历图中所有非白色的点,计算其周围8个点中属于非白色点的个数,如果数量小于一个固定值,那么这个点就是噪点。使用流程:使用Opencv二值化 灰度处理 领域降噪,通过图片转base64传输进行降噪后再传出base64。 示例:http://49.233.44.7:5000/图片base64测试:iVBORw0KGgoAAAANSUhEUgAAAFUAAAAjCAYAAADljkaGAAAKxUlEQVR42u1aeVTU9xHPv2o原创 2021-09-10 14:24:07 · 12621 阅读 · 0 评论 -
Fiddler特殊中间人劫持数据
Fiddler中间人特殊劫持数据如果遇到加密严重的情况下,又想拿到数据,可采取该方法。1.在菜单栏中 Rules下找到Customize Rules (快捷键 CTRL + R)2.在 Fiddler ScriptEditor 中 修改 OnBeforeResponse 函数,达到控制Response返回的数据。3.将修改的函数保存,重启后可以将数据写入本地。 public static var company_id: String = ''; static function OnBefo原创 2021-08-18 13:54:54 · 10741 阅读 · 0 评论 -
公众号历史文章采集
公众号历史文章采集前言:采集公众号历史文章,且链接永久有效,亲测2年多无压力。1.先在 https://mp.weixin.qq.com/ 注册一个个人版使用公众号,供后续使用。2.点击左侧图文素材,新的创作,写新图文。3.点击超链接后,填入要查询的公众号。4.一个小知识点,通过xpath拿到html源码,并提取正文。def get_html_code(parseHtml, url, codeXpath): code_html = parseHtml.xpath(codeXpath原创 2021-08-04 10:24:49 · 11860 阅读 · 1 评论 -
百度百科多线程抓取
百度百科多线程抓取# encoding:utf-8# Mengtaoimport reimport jsonimport timeimport hashlibimport requestsfrom lxml import etreefrom queue import Queuefrom threading import Threadfrom fake_useragent import UserAgentfrom requests import RequestException原创 2020-08-03 11:04:12 · 12935 阅读 · 0 评论 -
批量全站抓取,结构化抓取, 智能解析
批量全站抓取,结构化抓取, 智能解析。思路:分析匹配有url链接,加入队列,等待循环抓取。通过xpath匹配,判断正文格式不对不进行抓取。通过xml直接转dict, 直接转化成json结构化 。出于隐私考虑,网址及结果已打码。# -*- coding: utf-8 -*-# @author Mengtaoimport htmlimport jsonimport reimport requestsimport xmltodictfrom lxml import etreefrom原创 2020-08-20 18:16:32 · 13047 阅读 · 0 评论 -
crontab和apscheduler自动任务
crontab和apscheduler自动任务本次介绍两种自动任务,一种为linux自动任务crontab,另一种是基于python自动任务apscheduler。**一:crontab定时任务讲解:**1.云服务器都会自带了crontab服务,若没有可用yum安装下即可。 安装crontab: yum install crontabs2.linux和windows一样都会有定时任务,先熟悉下crontab命令。 服务操作说明: /原创 2021-08-04 10:58:34 · 11702 阅读 · 0 评论 -
python实现Content-Type:application/octet-stream
Content-Type:application/octet-stream这种传输用于图片|文本传输:我也是在操作河马云手机中,往云机传输图片和文本txt遇到的。“”"=============================================================="""接下来python实现下:首先要先安装:requests-toolbeltpip install requests-toolbelt图片:# -*- coding: utf-8 -*-# @Au原创 2022-03-21 09:53:13 · 11915 阅读 · 0 评论 -
手机详细设备生成
手机详细设备生成:并绑定账号和ip进行验证,一机一码一IP一账号:群控养号 登号使用,虚拟设备,绑定固定ip# -*- coding: utf-8 -*-# @Author : Codeooo# @Time : 2021/10/27import jsonimport uuidimport randomfrom db.RedisDB import RedisDBalphabet = ''.join(str(uuid.uuid4()).split('-'))def de原创 2022-03-18 11:34:39 · 7966 阅读 · 0 评论 -
二分、冒泡、快速、插入排序
1.二分查找(折半查找)找出**有序**数据中的中间元素,由中间元素将数据分成左右两部分,比较中间元素与待查找值的大小: 如果相等,则查找成功; 如果中间元素比查找元素值大,则继续在左侧重复该过程; 如果中间元素比查找元素值小,则继续在右侧重复该过程;如此递归下去,直到成功找到或者查找完所有数据为止。使用递归实现:# -*- coding: utf-8 -*-# @Author : Codeooo# @Time : 2021/12/05# 二分查找# 使用递...原创 2021-12-06 14:04:39 · 15809 阅读 · 0 评论 -
Python django解决跨域请求的问题
Python django解决跨域请求的问题解决方案1.安装django-cors-headerspip3 install django-cors-headers2.配置settings.py文件INSTALLED_APPS = [ ... 'corsheaders', ... ] MIDDLEWARE_CLASSES = ( ... 'corsheaders.middleware.CorsMiddleware', 'django.middl原创 2020-07-30 17:50:44 · 12998 阅读 · 0 评论 -
Python conda命令
Windows下 Anaconda Prompt 这个东西就是用来管理Anaconda的,使用的是conda这样的一种命令在Linux中,可以直接在终端中输入conda 命令可以使用conda命令创建新的python环境(python版本,包),新的环境与原来的环境不相关。这样,方便不同的应用中使用不同的python版本。创建新环境的步骤如下:1、首先在所在系统中安装Anaconda。可以打开命令行输入conda -V检验是否安装以及当前conda的版本。2、conda常用的命令。 1) co原创 2020-07-30 18:33:40 · 13416 阅读 · 0 评论 -
Linux安装Python详细步骤
编译安装python3.6的步骤1.下载python3源码包wget https://www.python.org/ftp/python/3.6.6/Python-3.6.6.tgz2.下载python3编译的依赖包 yum install -y gcc patch libffi-devel python-devel zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel g原创 2020-07-30 19:30:32 · 15947 阅读 · 10 评论 -
Python之xlsx文件与csv文件相互转换
Python之xlsx文件与csv文件相互转换在Python中,可以使用xlrd和csv模块来处理Excel文件和csv文件。xlsx文件转csv文件import xlrdimport csvdef xlsx_to_csv(): workbook = xlrd.open_workbook('1.xlsx') table = workbook.sheet_by_index(0) with codecs.open('1.csv', 'w', encoding='utf-8')原创 2020-07-30 17:07:20 · 13673 阅读 · 0 评论