
Python
文章平均质量分 53
qq_24591139
这个作者很懒,什么都没留下…
展开
-
Boruta原理及Python-BorutaPy的API应用
一、基本介绍Boruta 算法是一种特征筛选方法,其核心是基于两个思想:shadow features和binomial distribution。该算法可以自动在数据集上执行特征选择。作为 R 的一个包而诞生。目前 Python 的 Boruta 版本是 BorutaPy。二、基本原理2.1 算法原理2.1.1 算法步骤创建阴影特征 (shadow feature) 。从X开始,对每个真实特征R,随机打乱顺序,这些被打乱顺序的原始特征称为阴影特征(shadow features)。此时,阴原创 2022-05-12 16:04:59 · 8750 阅读 · 2 评论 -
下载数据-提供数据流
def download_excel(project_id: str, info_save_url: str, node_chain: str): ''' 因子集下载 ''' node_chain = node_chain.split(",") file_name = "project_{0}_{1}_factor.csv".format(project_id, str(node_chain[-1])) x, y, label_data, time_data原创 2021-10-29 17:41:23 · 191 阅读 · 0 评论 -
读写大数据量CSV文件
import csvdef bigdata_csv(openpath,savepath): f = open(openpath) csv_read = csv.reader(f) ''' csv.reader(f)返回一个迭代器。迭代器的好处就是可以不用一次性将大量的数据都读进来,而是如果你需要一条, 就给迭代器一个命令让它输出一条。关于迭代器的优点读者可以另行学习。 ''' i = 0 for line in csv_read:.原创 2021-06-10 10:32:13 · 967 阅读 · 0 评论 -
python更换证件照底色
'''pip install removebg'''import osfrom PIL import Imagefrom removebg import RemoveBgdef image_matting(old_image_path, new_image_path, color,api_key ='NWjLpDPauKVoxUQLYSjFxhnh'): # removebg 官网(注册账号地址):https://www.remove.bg/zh # API KEY获取官方网站:ht原创 2021-01-07 17:10:26 · 365 阅读 · 1 评论 -
python将图片批量保存至word文档中
def picture_docx(path_picture,path_docx): # 要插入的图片所在的文件夹 #fold = 'C:\\Users\\Administrator\\Desktop\\tu' fold = path_picture # os.walk(fold)没有返回值,所以这么做显然没有结果,是错的 # pics=list(os.walk(fold)[3]) # # pics.pop() # print(pics) #原创 2020-11-18 10:53:12 · 3949 阅读 · 0 评论 -
数据处理小技巧——重名区分,获取重复行号
1.重名加后缀区分cols = copy.deepcopy(timesort_data.loc[:,'glass_id'])for dup in cols[cols.duplicated()].unique(): cols[cols[cols == dup].index.values.tolist()] = [dup + '_' + str(i) if i != 0 else dup for i in原创 2020-09-09 15:55:07 · 475 阅读 · 0 评论 -
归一化与标准化的区别
参考:https://www.jianshu.com/p/95a8f035c86c原创 2020-07-31 16:35:48 · 207 阅读 · 0 评论 -
python等值线图绘制,计算合适的等值线间距
def get_gap(gap): gap = str(gap) gap_len = len(gap) gap_list = list(map(int, gap)) top_value = int(gap_list[0]) gap_bottom = top_value * (10 ** (gap_len - 1)) gap_mid = gap_bo...原创 2019-12-20 15:23:08 · 2546 阅读 · 1 评论 -
时间序列各步骤方法汇总
差分diff_12 = ts_log.diff(12)平滑法https://editor.youkuaiyun.com/md/?articleId=103409165对数变换减小数据的振动幅度,使其线性规律更加明显ts_log = np.log(ts)分解from statsmodels.tsa.seasonal import seasonal_decomposedecompositio...原创 2019-12-19 11:02:06 · 1515 阅读 · 0 评论 -
EMD分解及预测
import mathimport numpy as np import pylab as plimport matplotlib.pyplot as pltimport scipy.signal as signalfrom scipy import fftpack import scipy.signal as signalfrom scipy import interpolate...原创 2019-12-19 10:59:55 · 2512 阅读 · 0 评论 -
时间序列分析建模及相关算法的python实现
纯随机性检验纯随机序列: 平稳序列值之间没有任何相关性的序称为纯随机序列,这意味着该序列过去的行为对将来的发展没有丝毫影响. 从统计分析的角度而言, 纯随机序列没有任何分析价值. 纯随机序列也称为白噪声序列.纯随机性检验,又叫白噪声检验,一般是构造检验统计量来检验。常用的检验统计量有Q统计量、LB统计量,由样本各延迟期数的自相关系数,可以计算出检验统计量,然后计算对应的p值,如果p值大于显著性...原创 2019-12-19 10:59:29 · 2041 阅读 · 0 评论 -
反距离权重IDW插值法
arcpy.Idw_3d原创 2019-12-19 10:07:37 · 1207 阅读 · 0 评论 -
plt绘图—取消坐标轴,边框处理,白边处理,颜色图谱
调整图片像素或大小plt.figure(dpi= 150)plt.figure(figsize=(16,4))取消坐标轴ax = plt.subplot()ax.contourf(grid_x_plot, grid_y_plot, f_plot, levels = levels, cmap=cmap2)ax.set_xticks([])ax.set_yticks([])不显示图...原创 2019-12-19 10:03:31 · 7804 阅读 · 3 评论 -
集成学习
Bagging随机森林BoostingAdaboost:普通boostingGBDT:拟合误差xgboost:目标函数加入正则项catboostLightgbm原创 2019-12-02 14:55:30 · 133 阅读 · 0 评论 -
决策树-集成学习(bagging,boosting)-经典算法(RF,iForest,GBDT,XGboost,Adaboost)
决策树构建步骤1、计算当前决策节点的混乱程度。2、列举决策属性,分别计算按每一个决策属性决策的情况下熵值的大小。3、计算信息增益:Entropy(决策之前)-Entropy(决策之后),选择信息增益最大的属性作为优先决策属性。4、递归循环上述步骤,直到决策树达到停止生长的条件为止,即每个叶子节点均只有一类数据。集成学习总的来说可以分为如下两种:1.基于Bagging, 代表算法:随...原创 2019-12-02 14:45:08 · 896 阅读 · 0 评论 -
list差集
list差集x = [item for item in new_categories if item not in categories]原创 2019-11-01 14:46:38 · 165 阅读 · 0 评论 -
python字典
字典排序#字典按照key排序train_x_dictnew={}for ids in sorted(train_x_dict): print((ids, train_x_dict[ids])) train_x_dictnew.update({ids:train_x_dict[ids]})原创 2019-08-26 19:53:14 · 123 阅读 · 0 评论 -
python矩阵相乘
矩阵相乘np.dot(num_data.values,feature_importances)原创 2019-08-26 20:16:38 · 298 阅读 · 0 评论 -
DataFrame索引相关操作
修改索引名称(1)a = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6], 'C':[7,8,9]})(2)a.columns = ['a','b','c'](3)a.rename(index={'A':'a', 'B':'b', 'C':'c},columns={'A':'a', 'B':'b', 'C':'c'}, inplace = True)重设In...原创 2019-08-26 20:29:10 · 303 阅读 · 0 评论 -
DataFrame
分割某一列data['HEADER_BEGIN'].str.split(',', expand=True)分组fill_data_x=[]for key,group in all_data_x.groupby('Elapsed'): group['curr_p'] = group['curr_p'].fillna(group['curr_p'].mean()) group...原创 2019-08-26 20:30:25 · 157 阅读 · 0 评论 -
imblearn算法详解及实例
过采样(Over-sampling)1、RandomOverSampler从少数类的样本中进行随机采样来增加新的样本from imblearn.over_sampling import RandomOverSamplerros = RandomOverSampler(sampling_strategy={0: 900,2:200,1:300 },random_state=0)X_resa...原创 2019-09-17 14:22:26 · 15154 阅读 · 14 评论 -
python抽样方法概述
一、简单随机抽样1、pandas随机抽样DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)局限: 对于多类样本不能很好的进行抽样。解决:对于不平衡数据,使用imblearn库中的函数完成随机过采样,随机欠采样。注:针对不平衡的数据,要实现欠抽样时,...原创 2019-09-17 14:29:20 · 886 阅读 · 0 评论 -
Python正态性检验
https://blog.youkuaiyun.com/cyan_soul/article/details/81236124from scipy import statsstats.kstest(df['value'], 'norm', (u, std))# 结果返回两个值:statistic → D值,pvalue → P值# p值大于0.05,很可能为正态分布...原创 2019-09-17 18:58:22 · 2098 阅读 · 0 评论 -
python批量获取某文件夹下所有文件
Python批量获取某文件夹下所有文件path_x_str = os.listdir('G:\\testdata\\CSOT\\train_x\\CVDLog_train')path_x_list = [os.path.join('G:\\testdata\\CSOT\\train_x\\CVDLog_train',x) for x in path_x_str]for i in range...原创 2019-08-26 19:47:07 · 604 阅读 · 0 评论