
python
文章平均质量分 64
Bing@DBA
专注于数据库和自动化领域的工程师
展开
-
Python 获取 SQL 指纹和 HASH 值
本文介绍一个提取 SQL 指纹的方法,就是将 SQL 语句的条件转换为?可用于脱敏和 SQL 聚类分析的场景。原创 2024-07-10 17:09:17 · 713 阅读 · 0 评论 -
MySQL 如何从 Binlog 找出变更记录并回滚
最近有研发同学问我:有一个问题,想查一个 ID 为 xxxx 的 sku 什么时候被更新了吗?更新前的数据是什么?一般这么讲,可能是由于手动执行或者是代码 Bug 导致出现数据丢失或者数据误更新,需要确认订正,一般需要通过分析 Binlog 来解决,本篇文章将通过该案例介绍此类问题的处理思路。本篇文章介绍了如何从 Binlog 中定位记录,需要有一点 Python 基础,但注册 Binlog 思路可应用多个场景,例如使用它恢复增量日志等。原创 2024-02-28 15:46:34 · 1890 阅读 · 0 评论 -
Python 调用阿里云 OpenAPI 巡检到期云资源
说到云资源续费,公认不移,是一件几乎不可能出错的事情,根据 “墨菲定律” 如果事情有变坏的可能,不管概率多小,总会发生。原创 2023-12-08 14:19:32 · 1463 阅读 · 1 评论 -
Python 并发编程 Futures
本篇文章介绍了如何使用 Futures 创建线程池和进程池,并提供了两个 case,在实验过程中发现,因为 GIL 的原因 Python 的线程池并不适合 CPU 密集型的应用,此时就需要考虑使用多进程的方式,或者将核心代码使用 C++ 编写通过 Python 调用,从而绕过 GIL。虽然有 GIL 用户依然要考虑线程安全的问题,因为 GIL 只是方便 Python 解释器的编写人员,而不是 Python 程序的编写人员。程序每次执行的结果可能都不相同,结果都不为 0,此时就需要使用线程锁来规避此类问题。原创 2023-07-27 11:29:25 · 514 阅读 · 0 评论 -
Python 使用 pyc 解决明文密钥问题
写代码过程中,可能遇到一些敏感信息不想明文暴露在代码中的情况,本篇文章介绍使用 pyc 解决明文密钥问题。pyc 是 Python 经过 compile 后的文件类型,一段 Python 代码执行前会先将 .py 文件编译成 .pyc 文件它是一种字节码 byte code,然后由 Python 虚拟机执行。相对于 .py 来讲,.pyc 对源代码有一定保护作用,提高了模块加载速度和跨平台性,但代码执行速度未得到提高。原创 2023-07-06 10:55:56 · 617 阅读 · 0 评论 -
Python 小记:组织 SQL写入数据库特殊符号转义
最近写一个项目,需要将数据库中的 Slow SQL 查到,然后拼接 SQL 语句插入到数据库中,那 SQL 语句大家都知道,有很多特殊符号,拼接后插入数据库会报 SQL 语法错误,如何解决呢?使用上面的方法,escape_string(文本) 转义后,再插入数据库就不会报错了。原创 2023-06-07 17:35:03 · 571 阅读 · 0 评论 -
Python 识别 MySQL 中的冗余索引
最近在搞标准化巡检平台,通过 MySQL 的元数据分析一些潜在的问题。冗余索引也是一个非常重要的巡检目,表中索引过多,会导致表空间占用较大,索引的数量与表的写入速度与索引数成线性关系(微秒级),如果发现有冗余索引,建议立即审核删除。PS:之前见过一个客户的数据库上面竟然创建 300 多个索引!?当时的想法是 “他们在玩排列组合呢” 表写入非常慢,严重影响性能和表维护的复杂度。原创 2022-10-17 16:57:04 · 531 阅读 · 0 评论 -
MySQL 查询 Binlog 生成时间
本篇文章介绍如何查询 Binlog 的生成时间。云上 RDS 有日志管理,但是自建实例没有,该脚本可用于自建实例闪回定位 Binlog 文件。原创 2022-09-21 13:41:22 · 2227 阅读 · 0 评论 -
Python 检测进程是否存在发送告警
工作上的需求,需要写一个告警中转程序,写完后又怕挂掉没人知道,就写了这个简单进程检测脚本,如果有进程不存在则发出钉钉告警。原创 2022-07-27 08:45:08 · 548 阅读 · 0 评论 -
Python 写脚本文件外部传递参数方法介绍
文章目录前言一、流文本处理二、argparse 模块三、args前言我们写的 Python 脚本需要修改参数,当我们将脚步上传到服务器或者给不会编程的人用时,会比较不方便,如果直接可以在外部指定参数,会非常方便,今天介绍的就是 Python 外部指定参数的几种方法。一、流文本处理这种方法适用于修改一下文件中的内容,配合 Linux 命令非常方便,举一个例子,我们需要从一个 binlog 文件中找到该里面最大的事物,我们要配合 mysqldump 来做:mysqlbinlog -v --bas.原创 2021-05-26 17:14:55 · 4619 阅读 · 1 评论 -
Python 离线安装模块
有时候我们会遇到一些模块无法安装的情况,网络问题或者其它玄学问题… 从官方下载也不知道下哪个版本,今天记录一下解决方案以安装 PyYAML 为例,安装并下载到 /myinstall 文件夹下pip install --download /myinstall PyYAML我们就得到了 PyYAML-5.4.1.tar.gz,然后上传到服务器上tar -zxvf PyYAML-5.4.1.tar.gzcd PyYAML-5.4.1python setup.py install就欧了,总结一.原创 2021-04-22 18:50:28 · 1383 阅读 · 0 评论 -
Python 实现字节转换函数
有时候需要计算一个文件的大小,但是 473234234 B 我们一眼也看不出来有多大,下面的程序可以帮助你快速转换。# -*- coding: utf-8 -*-import mathdef bit_conversion(size, dot=2): size = float(size) # 位 比特 bit if 0 <= size < 1: human_size = str(round(size / 0.125, dot)) + ' b'.原创 2021-04-21 16:55:46 · 662 阅读 · 1 评论 -
酒店评论数据分析和挖掘-展现数据分析全流程(一)报告展示篇
本为应该会出四篇博客展现数据分析的整个流程(开源源码)数据报告成品展示(本文)描述性数据分析关键字提取分析评论情感分类建模LDA主题模型分析下面是本文的写作框架:1. 分析背景1.1 分析原理—为什么选择分析酒店网络评论 随着互联网的发展, 我们的生活也愈加便捷, 网上购物及预订酒店和景点门票已是多少数人的选择。移动互联网时代,酒店业的市场更加风云变幻,其中最为显著......原创 2020-02-27 18:34:43 · 24914 阅读 · 39 评论 -
使用Python对英雄联盟英雄数据进行聚类等分析 (字符串离散化)
一、字符串离散化上图是我们本次需要分析的数据, 有一个 tags 标签, 它代表每个英雄的属性, 每英雄的属性有多个, 他们房子一个列表里 (类型是字符串) 我们第一步做的就是将它拆分, 将数据变为 宽数据首先我们需要将 tag 中所有的类别提取出来, 然后再创建一个与原数据同长, 与类别同宽的全为 0 的数组, 然后遍历原数据中的 tags 对应位置上的 0 改为 1下面展示一下...原创 2020-02-17 16:31:54 · 3578 阅读 · 18 评论 -
Python爬取冠状病毒“谣言”新闻进行数据分析
一、前言今天给大家介绍的爬虫项目是爬取冠状病毒谣言数据,因为最近网络上有很多关于冠状病毒的谣言,官方也积极的出来辟谣,作为一名数据爱好者,我也想尽自己一份微薄之力,分享一些有用的数据分享,希望大家在特殊情况下能明辨是非,保护好自己和家人!二、爬取数据话不多说了,直接上代码( copy即可用 )import requestsimport pandas as pdclass Sp...原创 2020-02-14 21:16:18 · 6676 阅读 · 8 评论 -
特殊情况下需要分享屏幕? 基于 flask 的微型屏幕共享服务器(可实现屏幕共享)
前言:话说在很久以前我需要做一个报告,原来的屏幕共享软件出了点问题,于是临时写了这个程序来应急,效果还不错,今天分享给大家,如果遇到某些情况,可以用来应急一、使用环境Pillow 6.0.0Opencv-Python 4.1.1.26flask 1.1.1二、项目介绍其实也不是很难,之前我使用 UDP广播的共享屏幕, 现在我们用 Python 有一个库加 Pillow 可以获取屏...原创 2020-02-13 21:06:45 · 2201 阅读 · 4 评论 -
Python新型冠状病毒疫情数据自动爬取+统计+发送报告+数据屏幕(四)数据屏幕
今天介绍给大家的是:如果使用 Python 制作数据屏幕,将从最基础的开始,如果熟悉 django 和 Python 的朋友可直接跳过项目功能设计:定时爬取疫情数据存入Mysql(爬虫篇)进行数据分析制作疫情报告(统计篇)使用itchat给亲人朋友发送分析报告(发送篇)基于Django做数据屏幕(本文)一、项目效果展示二、项目环境介绍如下是项目需要使用的第三方模块,例如...原创 2020-06-10 21:01:49 · 5014 阅读 · 174 评论 -
Python新型冠状病毒疫情数据自动爬取+统计+发送报告+数据屏幕(三)发送篇
今天介绍的项目是使用 Itchat 发送统计报告项目功能设计:定时爬取疫情数据存入Mysql进行数据分析制作疫情报告使用itchat给亲人朋友发送分析报告基于Django做数据屏幕使用Tableau做数据分析来看看最终效果目前已经完成,预计2月12日前更新使用 itchat 发送数据统计报告itchat 是一个基于 web微信的一个框架,但微信官方并不允许使用这...原创 2020-02-12 20:33:07 · 15315 阅读 · 29 评论 -
Python爬取新型冠状病毒新闻进行LDA主题分析-从概率的角度去看文学
为疫区人民祈福,向医护人员致敬!Hello大家好!我是 Fantasy!今天要给大家介绍到项目是爬取疫情新闻,然后进行分析,项目的功能具体如下:爬取疫情新闻进行词频统计绘制词云图进行LDA主题分析一、爬取疫情新闻过程展示大概需要几首歌的时间~数据展示源码解析我们这次的目标网站是 人民网首先导入我们需要的库import timeimport randomim...原创 2020-02-08 18:40:28 · 5356 阅读 · 24 评论 -
Python新型冠状病毒疫情数据自动爬取+统计+发送报告+数据屏幕(二)统计篇
新型冠状病毒其实没那么可怕,但是它赶上了空前绝后哺乳动物大迁徙殷忧启圣,多难兴邦项目功能设计:定时爬取疫情数据存入Mysql (已完成)进行数据分析使用itchat给亲人朋友发生分析报告使用tanleau做可视化报告需要用到Mysql数据库前面说到要将数据存储到Mysql数据库, 这是数据库创建SQL语句create table all_data( id ...原创 2020-02-03 22:51:10 · 3964 阅读 · 77 评论 -
Python新型冠状病毒疫情数据自动爬取+统计+发送报告+数据屏幕(一)爬虫篇
一切来不的猝不及防一个半月前,武汉还是那个纵横江湖、肆意人间的武汉。165条江河日夜奔流,100多种不重样的过早热气蒸腾,两江四岸13千米长的沿江灯光秀将889个楼宇依次点亮,灯影重重、觥筹交错。武汉从来不缺人间烟火,而今天,毫无疑问,武汉人——以及更多的人正在陪伴武汉度过它的关键时刻 !项目功能设计:定时爬取疫情数据存入Mysql进行数据分析使用itchat给亲人朋友发生分析报...原创 2020-02-01 12:05:15 · 8232 阅读 · 25 评论 -
Python数据挖掘-基于杰卡德相似系数的相似新闻推荐
使用Jaccard系数计算新闻相似度, 实现相似新闻推荐最近想写一个推荐系统的Api, 有个性化推荐, 相似推荐, 热度推荐等, 于是就使用Django写了一个新闻网站来练习, 目前实现了一个简单相似新闻推荐,记录下来...原创 2019-11-28 19:21:53 · 1604 阅读 · 6 评论 -
数据挖掘篇: 使用决策树识别Python招聘信息所属类别(分支)
最近在分析Python招聘信息的数据, 使用职位描述分词来判断分类不是很精准, 于是打算使用分词构造一个特征, 然后使用决策树来分类(下次试试聚类算法), 这样误差会小很对, 可以让我们更加精准的完成一份高质量的数据报告.首先看看原始数据吧接下来我们要通过分词和人工识别来构建专家样本数据注: 原计划训练数据至少2000条, 然后先人工识别了100条就忍不住想试一试由于有20个特征...原创 2019-10-25 09:30:12 · 1264 阅读 · 3 评论 -
Python爬取招聘信息构造字典进行分词生成统计图可视化
首先我们先看看数据吧数据是最近按周期爬取的, 有效数据18000 目的: 我们的目的是要知道关于Python就业有哪些需要用到的技术, 比如说后端是Flask用的多还是Django或者Tornado用的比较多, 深度学习框架是TensorFlow用的多还是caffe或是Mxnet等等…首先我们要构造分词字典 ls_add = ['SQL', 'C++', 'HADOOP',...原创 2019-09-30 08:43:39 · 1476 阅读 · 0 评论 -
Python决策树入门案例: 泰坦尼克号幸存预测(决策树可视化)
Python决策树入门案例: 决策树是机器学习中一个比较重要而且常用的算法, 是基于香农的信息论计算信息熵然后计算信息增益 然后划分决策树的"枝叶 Python实现计算信息熵公式: from fractions import Fraction # 导入分数计算模块 from math import log a = Fraction(4, 6) # 正例占3/6 ...原创 2019-08-13 17:47:27 · 4712 阅读 · 5 评论 -
Python爬取全国最新房价信息保存为CSV文件,进行简单的数据分析
一、 使用Python爬取房价信息1.话不多说先看代码from bs4 import BeautifulSoupimport requestsclass SpiderHours(object): def __init__(self): self.url = "http://www.creprice.cn/rank/cityforsale.html" ...原创 2019-07-09 19:37:56 · 4664 阅读 · 4 评论