- 博客(31)
- 资源 (1)
- 收藏
- 关注
原创 Boruta原理及Python-BorutaPy的API应用
一、基本介绍Boruta 算法是一种特征筛选方法,其核心是基于两个思想:shadow features和binomial distribution。该算法可以自动在数据集上执行特征选择。作为 R 的一个包而诞生。目前 Python 的 Boruta 版本是 BorutaPy。二、基本原理2.1 算法原理2.1.1 算法步骤创建阴影特征 (shadow feature) 。从X开始,对每个真实特征R,随机打乱顺序,这些被打乱顺序的原始特征称为阴影特征(shadow features)。此时,阴
2022-05-12 16:04:59
8706
2
原创 tsfresh基本原理及使用
一、引言1、基本介绍tsfresh 用于从时间序列或其他序列数据中进行系统特征工程。这些数据的共同点是它们按自变量排序。最常见的自变量是时间(时间序列)。比如,工业界毫秒级制程数据,不同用户连续交易数据等等。tsfresh一方面提供了大量衍生规则(统计指标计算的方法)供使用者按照自身需求单独调用;另一方面,提供了自动提取大量统计指标特征并自动进行筛选的方法。tsfresh仅特征工程模块相关功能,用于后续机器学习或深度学习算法的模型训练,不提供模型。2、使用二、衍生规则tsfresh.featur
2022-05-11 13:47:36
3794
原创 下载数据-提供数据流
def download_excel(project_id: str, info_save_url: str, node_chain: str): ''' 因子集下载 ''' node_chain = node_chain.split(",") file_name = "project_{0}_{1}_factor.csv".format(project_id, str(node_chain[-1])) x, y, label_data, time_data
2021-10-29 17:41:23
185
原创 读写大数据量CSV文件
import csvdef bigdata_csv(openpath,savepath): f = open(openpath) csv_read = csv.reader(f) ''' csv.reader(f)返回一个迭代器。迭代器的好处就是可以不用一次性将大量的数据都读进来,而是如果你需要一条, 就给迭代器一个命令让它输出一条。关于迭代器的优点读者可以另行学习。 ''' i = 0 for line in csv_read:.
2021-06-10 10:32:13
957
原创 python更换证件照底色
'''pip install removebg'''import osfrom PIL import Imagefrom removebg import RemoveBgdef image_matting(old_image_path, new_image_path, color,api_key ='NWjLpDPauKVoxUQLYSjFxhnh'): # removebg 官网(注册账号地址):https://www.remove.bg/zh # API KEY获取官方网站:ht
2021-01-07 17:10:26
362
1
原创 python将图片批量保存至word文档中
def picture_docx(path_picture,path_docx): # 要插入的图片所在的文件夹 #fold = 'C:\\Users\\Administrator\\Desktop\\tu' fold = path_picture # os.walk(fold)没有返回值,所以这么做显然没有结果,是错的 # pics=list(os.walk(fold)[3]) # # pics.pop() # print(pics) #
2020-11-18 10:53:12
3939
原创 数据处理小技巧——重名区分,获取重复行号
1.重名加后缀区分cols = copy.deepcopy(timesort_data.loc[:,'glass_id'])for dup in cols[cols.duplicated()].unique(): cols[cols[cols == dup].index.values.tolist()] = [dup + '_' + str(i) if i != 0 else dup for i in
2020-09-09 15:55:07
473
原创 python等值线图绘制,计算合适的等值线间距
def get_gap(gap): gap = str(gap) gap_len = len(gap) gap_list = list(map(int, gap)) top_value = int(gap_list[0]) gap_bottom = top_value * (10 ** (gap_len - 1)) gap_mid = gap_bo...
2019-12-20 15:23:08
2533
1
原创 时间序列各步骤方法汇总
差分diff_12 = ts_log.diff(12)平滑法https://editor.youkuaiyun.com/md/?articleId=103409165对数变换减小数据的振动幅度,使其线性规律更加明显ts_log = np.log(ts)分解from statsmodels.tsa.seasonal import seasonal_decomposedecompositio...
2019-12-19 11:02:06
1504
原创 EMD分解及预测
import mathimport numpy as np import pylab as plimport matplotlib.pyplot as pltimport scipy.signal as signalfrom scipy import fftpack import scipy.signal as signalfrom scipy import interpolate...
2019-12-19 10:59:55
2501
原创 时间序列分析建模及相关算法的python实现
纯随机性检验纯随机序列: 平稳序列值之间没有任何相关性的序称为纯随机序列,这意味着该序列过去的行为对将来的发展没有丝毫影响. 从统计分析的角度而言, 纯随机序列没有任何分析价值. 纯随机序列也称为白噪声序列.纯随机性检验,又叫白噪声检验,一般是构造检验统计量来检验。常用的检验统计量有Q统计量、LB统计量,由样本各延迟期数的自相关系数,可以计算出检验统计量,然后计算对应的p值,如果p值大于显著性...
2019-12-19 10:59:29
2036
原创 plt绘图—取消坐标轴,边框处理,白边处理,颜色图谱
调整图片像素或大小plt.figure(dpi= 150)plt.figure(figsize=(16,4))取消坐标轴ax = plt.subplot()ax.contourf(grid_x_plot, grid_y_plot, f_plot, levels = levels, cmap=cmap2)ax.set_xticks([])ax.set_yticks([])不显示图...
2019-12-19 10:03:31
7789
3
原创 时间序列分析方法概述
移动平均法指数平滑法AR模型MA模型ARMA模型模型识别参考文献:https://zhuanlan.zhihu.com/p/35128342https://blog.youkuaiyun.com/zjlamp/article/details/81606222https://www.cnblogs.com/foley/p/5582358.html...
2019-12-06 09:50:08
1286
原创 集成学习
Bagging随机森林BoostingAdaboost:普通boostingGBDT:拟合误差xgboost:目标函数加入正则项catboostLightgbm
2019-12-02 14:55:30
133
原创 决策树-集成学习(bagging,boosting)-经典算法(RF,iForest,GBDT,XGboost,Adaboost)
决策树构建步骤1、计算当前决策节点的混乱程度。2、列举决策属性,分别计算按每一个决策属性决策的情况下熵值的大小。3、计算信息增益:Entropy(决策之前)-Entropy(决策之后),选择信息增益最大的属性作为优先决策属性。4、递归循环上述步骤,直到决策树达到停止生长的条件为止,即每个叶子节点均只有一类数据。集成学习总的来说可以分为如下两种:1.基于Bagging, 代表算法:随...
2019-12-02 14:45:08
891
原创 list差集
list差集x = [item for item in new_categories if item not in categories]
2019-11-01 14:46:38
161
原创 Python正态性检验
https://blog.youkuaiyun.com/cyan_soul/article/details/81236124from scipy import statsstats.kstest(df['value'], 'norm', (u, std))# 结果返回两个值:statistic → D值,pvalue → P值# p值大于0.05,很可能为正态分布...
2019-09-17 18:58:22
2091
原创 python抽样方法概述
一、简单随机抽样1、pandas随机抽样DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)局限: 对于多类样本不能很好的进行抽样。解决:对于不平衡数据,使用imblearn库中的函数完成随机过采样,随机欠采样。注:针对不平衡的数据,要实现欠抽样时,...
2019-09-17 14:29:20
879
原创 imblearn算法详解及实例
过采样(Over-sampling)1、RandomOverSampler从少数类的样本中进行随机采样来增加新的样本from imblearn.over_sampling import RandomOverSamplerros = RandomOverSampler(sampling_strategy={0: 900,2:200,1:300 },random_state=0)X_resa...
2019-09-17 14:22:26
15117
14
原创 python抽样方法详解及实现
随机抽样—总体个数较少每个抽样单元被抽中的概率相同,并且可以重现。随机抽样常常用于总体个数较少时,它的主要特征是从总体中逐个抽取。1、抽签法2、随机数法:随机数表、随机数骰子或计算机产生的随机数。分层抽样——总体存在差异且对结果有影响分层抽样是指在抽样时,将总体分成互不相交 [2] 的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本的方法。层内...
2019-09-06 10:43:10
26668
4
原创 catboost原理、参数详解及python实例
catboost 简介优点:1)它自动采用特殊的方式处理类别型特征(categorical features)。首先对categorical features做一些统计,计算某个类别特征(category)出现的频率,之后加上超参数,生成新的数值型特征(numerical features)。这也是我在这里介绍这个算法最大的motivtion,有了catboost,再也不用手动处理类别型特征了...
2019-09-02 10:23:33
12077
2
原创 Lightgbm原理、参数详解及python实例
GDBT1)对所有特征都按照特征的数值进行预排序。2)在遍历分割点的时候用O(#data)的代价找到一个特征上的最好分割点。3)找到一个特征的分割点后,将数据分裂成左右子节点。两个方面可改进GDBT降低训练集的规模。降低特征维度。LightGBM重点:对模型训练时样本点的采样优化和特征维度的优化原理1.单边梯度采样算法(Grandient-based One-Side S...
2019-09-02 10:14:12
20815
1
原创 DataFrame
分割某一列data['HEADER_BEGIN'].str.split(',', expand=True)分组fill_data_x=[]for key,group in all_data_x.groupby('Elapsed'): group['curr_p'] = group['curr_p'].fillna(group['curr_p'].mean()) group...
2019-08-26 20:30:25
155
原创 DataFrame索引相关操作
修改索引名称(1)a = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6], 'C':[7,8,9]})(2)a.columns = ['a','b','c'](3)a.rename(index={'A':'a', 'B':'b', 'C':'c},columns={'A':'a', 'B':'b', 'C':'c'}, inplace = True)重设In...
2019-08-26 20:29:10
301
原创 python字典
字典排序#字典按照key排序train_x_dictnew={}for ids in sorted(train_x_dict): print((ids, train_x_dict[ids])) train_x_dictnew.update({ids:train_x_dict[ids]})
2019-08-26 19:53:14
121
原创 python批量获取某文件夹下所有文件
Python批量获取某文件夹下所有文件path_x_str = os.listdir('G:\\testdata\\CSOT\\train_x\\CVDLog_train')path_x_list = [os.path.join('G:\\testdata\\CSOT\\train_x\\CVDLog_train',x) for x in path_x_str]for i in range...
2019-08-26 19:47:07
599
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人