qq_24591139-优快云博客

原创设定折线图绘制

设定样式的折线图

2022-07-08 17:31:12 450

原创 Boruta原理及Python-BorutaPy的API应用

一、基本介绍Boruta 算法是一种特征筛选方法，其核心是基于两个思想：shadow features和binomial distribution。该算法可以自动在数据集上执行特征选择。作为 R 的一个包而诞生。目前 Python 的 Boruta 版本是 BorutaPy。二、基本原理2.1 算法原理2.1.1 算法步骤创建阴影特征 (shadow feature) 。从X开始，对每个真实特征R，随机打乱顺序，这些被打乱顺序的原始特征称为阴影特征（shadow features）。此时，阴

2022-05-12 16:04:59 8706 2

原创 tsfresh基本原理及使用

一、引言1、基本介绍tsfresh 用于从时间序列或其他序列数据中进行系统特征工程。这些数据的共同点是它们按自变量排序。最常见的自变量是时间（时间序列）。比如，工业界毫秒级制程数据，不同用户连续交易数据等等。tsfresh一方面提供了大量衍生规则（统计指标计算的方法）供使用者按照自身需求单独调用；另一方面，提供了自动提取大量统计指标特征并自动进行筛选的方法。tsfresh仅特征工程模块相关功能，用于后续机器学习或深度学习算法的模型训练，不提供模型。2、使用二、衍生规则tsfresh.featur

2022-05-11 13:47:36 3794

原创下载数据-提供数据流

def download_excel(project_id: str, info_save_url: str, node_chain: str): ''' 因子集下载 ''' node_chain = node_chain.split(",") file_name = "project_{0}_{1}_factor.csv".format(project_id, str(node_chain[-1])) x, y, label_data, time_data

2021-10-29 17:41:23 185

原创读写大数据量CSV文件

import csvdef bigdata_csv(openpath,savepath): f = open(openpath) csv_read = csv.reader(f) ''' csv.reader(f)返回一个迭代器。迭代器的好处就是可以不用一次性将大量的数据都读进来，而是如果你需要一条，就给迭代器一个命令让它输出一条。关于迭代器的优点读者可以另行学习。 ''' i = 0 for line in csv_read:.

2021-06-10 10:32:13 957

原创 python更换证件照底色

'''pip install removebg'''import osfrom PIL import Imagefrom removebg import RemoveBgdef image_matting(old_image_path, new_image_path, color,api_key ='NWjLpDPauKVoxUQLYSjFxhnh'): # removebg 官网（注册账号地址）：https://www.remove.bg/zh # API KEY获取官方网站：ht

2021-01-07 17:10:26 362 1

原创 python将图片批量保存至word文档中

def picture_docx(path_picture,path_docx): # 要插入的图片所在的文件夹 #fold = 'C:\\Users\\Administrator\\Desktop\\tu' fold = path_picture # os.walk(fold)没有返回值，所以这么做显然没有结果，是错的 # pics=list(os.walk(fold)[3]) # # pics.pop() # print(pics) #

2020-11-18 10:53:12 3939

原创数据处理小技巧——重名区分，获取重复行号

1.重名加后缀区分cols = copy.deepcopy(timesort_data.loc[:,'glass_id'])for dup in cols[cols.duplicated()].unique(): cols[cols[cols == dup].index.values.tolist()] = [dup + '_' + str(i) if i != 0 else dup for i in

2020-09-09 15:55:07 473

原创归一化与标准化的区别

参考：https://www.jianshu.com/p/95a8f035c86c

2020-07-31 16:35:48 198

原创 python等值线图绘制,计算合适的等值线间距

def get_gap(gap): gap = str(gap) gap_len = len(gap) gap_list = list(map(int, gap)) top_value = int(gap_list[0]) gap_bottom = top_value * (10 ** (gap_len - 1)) gap_mid = gap_bo...

2019-12-20 15:23:08 2533 1

原创时间序列各步骤方法汇总

差分diff_12 = ts_log.diff(12)平滑法https://editor.youkuaiyun.com/md/?articleId=103409165对数变换减小数据的振动幅度，使其线性规律更加明显ts_log = np.log(ts)分解from statsmodels.tsa.seasonal import seasonal_decomposedecompositio...

2019-12-19 11:02:06 1504

原创 EMD分解及预测

import mathimport numpy as np import pylab as plimport matplotlib.pyplot as pltimport scipy.signal as signalfrom scipy import fftpack import scipy.signal as signalfrom scipy import interpolate...

2019-12-19 10:59:55 2501

原创时间序列分析建模及相关算法的python实现

纯随机性检验纯随机序列: 平稳序列值之间没有任何相关性的序称为纯随机序列,这意味着该序列过去的行为对将来的发展没有丝毫影响. 从统计分析的角度而言, 纯随机序列没有任何分析价值. 纯随机序列也称为白噪声序列.纯随机性检验，又叫白噪声检验，一般是构造检验统计量来检验。常用的检验统计量有Q统计量、LB统计量，由样本各延迟期数的自相关系数，可以计算出检验统计量，然后计算对应的p值，如果p值大于显著性...

2019-12-19 10:59:29 2036

原创反距离权重IDW插值法

arcpy.Idw_3d

2019-12-19 10:07:37 1201

原创 plt绘图—取消坐标轴，边框处理，白边处理，颜色图谱

调整图片像素或大小plt.figure(dpi= 150)plt.figure(figsize=(16,4))取消坐标轴ax = plt.subplot()ax.contourf(grid_x_plot, grid_y_plot, f_plot, levels = levels, cmap=cmap2)ax.set_xticks([])ax.set_yticks([])不显示图...

2019-12-19 10:03:31 7789 3

原创时间序列分析方法概述

移动平均法指数平滑法AR模型MA模型ARMA模型模型识别参考文献：https://zhuanlan.zhihu.com/p/35128342https://blog.youkuaiyun.com/zjlamp/article/details/81606222https://www.cnblogs.com/foley/p/5582358.html...

2019-12-06 09:50:08 1286

原创集成学习

Bagging随机森林BoostingAdaboost：普通boostingGBDT：拟合误差xgboost：目标函数加入正则项catboostLightgbm

2019-12-02 14:55:30 133

原创决策树-集成学习（bagging，boosting)-经典算法（RF,iForest,GBDT,XGboost,Adaboost）

决策树构建步骤1、计算当前决策节点的混乱程度。2、列举决策属性，分别计算按每一个决策属性决策的情况下熵值的大小。3、计算信息增益：Entropy(决策之前)-Entropy(决策之后)，选择信息增益最大的属性作为优先决策属性。4、递归循环上述步骤，直到决策树达到停止生长的条件为止，即每个叶子节点均只有一类数据。集成学习总的来说可以分为如下两种：1.基于Bagging, 代表算法：随...

2019-12-02 14:45:08 891

原创置信椭圆原理以及椭圆图形绘制

置信椭圆

2019-11-29 14:12:35 5753 1

原创 list差集

list差集x = [item for item in new_categories if item not in categories]

2019-11-01 14:46:38 161

原创 Python正态性检验

https://blog.youkuaiyun.com/cyan_soul/article/details/81236124from scipy import statsstats.kstest(df['value'], 'norm', (u, std))# 结果返回两个值：statistic → D值，pvalue → P值# p值大于0.05，很可能为正态分布...

2019-09-17 18:58:22 2091

原创 python抽样方法概述

一、简单随机抽样1、pandas随机抽样DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)局限：对于多类样本不能很好的进行抽样。解决：对于不平衡数据，使用imblearn库中的函数完成随机过采样，随机欠采样。注：针对不平衡的数据，要实现欠抽样时，...

2019-09-17 14:29:20 879

原创 imblearn算法详解及实例

过采样（Over-sampling）1、RandomOverSampler从少数类的样本中进行随机采样来增加新的样本from imblearn.over_sampling import RandomOverSamplerros = RandomOverSampler(sampling_strategy={0: 900,2:200,1:300 },random_state=0)X_resa...

2019-09-17 14:22:26 15117 14

原创 python抽样方法详解及实现

随机抽样—总体个数较少每个抽样单元被抽中的概率相同，并且可以重现。随机抽样常常用于总体个数较少时，它的主要特征是从总体中逐个抽取。1、抽签法2、随机数法：随机数表、随机数骰子或计算机产生的随机数。分层抽样——总体存在差异且对结果有影响分层抽样是指在抽样时，将总体分成互不相交 [2] 的层，然后按照一定的比例，从各层独立地抽取一定数量的个体，将各层取出的个体合在一起作为样本的方法。层内...

2019-09-06 10:43:10 26668 4

原创 catboost原理、参数详解及python实例

catboost 简介优点：1）它自动采用特殊的方式处理类别型特征（categorical features）。首先对categorical features做一些统计，计算某个类别特征（category）出现的频率，之后加上超参数，生成新的数值型特征（numerical features）。这也是我在这里介绍这个算法最大的motivtion，有了catboost，再也不用手动处理类别型特征了...

2019-09-02 10:23:33 12077 2

原创 Lightgbm原理、参数详解及python实例

GDBT1)对所有特征都按照特征的数值进行预排序。2)在遍历分割点的时候用O(#data)的代价找到一个特征上的最好分割点。3)找到一个特征的分割点后，将数据分裂成左右子节点。两个方面可改进GDBT降低训练集的规模。降低特征维度。LightGBM重点：对模型训练时样本点的采样优化和特征维度的优化原理1.单边梯度采样算法（Grandient-based One-Side S...

2019-09-02 10:14:12 20815 1

原创 DataFrame

分割某一列data['HEADER_BEGIN'].str.split(',', expand=True)分组fill_data_x=[]for key,group in all_data_x.groupby('Elapsed'): group['curr_p'] = group['curr_p'].fillna(group['curr_p'].mean()) group...

2019-08-26 20:30:25 155

原创 DataFrame索引相关操作

修改索引名称（1）a = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6], 'C':[7,8,9]})（2）a.columns = ['a','b','c']（3）a.rename(index={'A':'a', 'B':'b', 'C':'c},columns={'A':'a', 'B':'b', 'C':'c'}, inplace = True)重设In...

2019-08-26 20:29:10 301

原创 python矩阵相乘

矩阵相乘np.dot(num_data.values,feature_importances)

2019-08-26 20:16:38 296

原创 python字典

字典排序#字典按照key排序train_x_dictnew={}for ids in sorted(train_x_dict): print((ids, train_x_dict[ids])) train_x_dictnew.update({ids:train_x_dict[ids]})

2019-08-26 19:53:14 121

原创 python批量获取某文件夹下所有文件

Python批量获取某文件夹下所有文件path_x_str = os.listdir('G:\\testdata\\CSOT\\train_x\\CVDLog_train')path_x_list = [os.path.join('G:\\testdata\\CSOT\\train_x\\CVDLog_train',x) for x in path_x_str]for i in range...

2019-08-26 19:47:07 599

qq_24591139的博客