
python
wei_liao
这个作者很懒,什么都没留下…
展开
-
python正则模块re
python正则模块re一.re模块内置的函数方法re.compile(pattern, flags=0)https://cdn.analyticsvidhya.com/wp-content/uploads/2019/06/seq2seq.gif)re.compile()方法可以把一个正则表达式编译成一个正则对象(PatternObj),返回的正则对象是操作其他处理字符串方法的主体。p...原创 2020-03-23 22:11:46 · 474 阅读 · 0 评论 -
python xgboost 调参
def modelfit(model, X_train, X_test, y_train, y_test,useTrainCV, eval_metric='auc', cv_folds=4, early_stopping_rounds=20): #early_stopping_rounds 在20轮迭代里没有提升的话,就停止 print('Model...原创 2019-09-06 21:48:16 · 894 阅读 · 0 评论 -
将多个txt中的文件读写到一个TXT文件中
import os def ListFileToTxt(dir,file,wildcard,recursion=False): ''' dir : 文件路径 file: 找到的文件名写入路径 wildcard :查找的文件类型字符串 recursion : 查找方式: 是否递归查找 ''' exts = wildcard.split(' ...转载 2019-10-01 13:46:27 · 518 阅读 · 0 评论 -
python 交叉验证1
# 2> 十折决策树算法from sklearn.tree import DecisionTreeClassifier #导入决策树模型from __future__ import divisionfrom sklearn.metrics import confusion_matrixp = 0.1 #设置训练集的比例N = 1/pcorrectRate = []for i ...原创 2019-08-25 22:06:29 · 2168 阅读 · 0 评论 -
python 时间序列缺失值
此处提供了三种数据填充方法:# 缺失值处理:补充缺失的数据# 三种方法:Lagrange插值法和Newton插值法以及Series自带的interpolate#1、Lagrange插值法和Newton插值法解决实际问题中关于只提供复杂的离散数据的函数求值问题,通过将所考察的函数简单化,构造关于离散数据实际函数f(x)的近似函数P(x),从而可以计算未知点出的函数值,是插值法的基本思路。#...原创 2019-08-25 22:02:07 · 4031 阅读 · 1 评论 -
python 参数选择 基于非常规metric
#调参通过网格搜索完成from sklearn.datasets import make_hastie_10_2from sklearn.model_selection import GridSearchCVfrom sklearn.metrics import make_scorerfrom sklearn.metrics import recall_score,r2_scorefr...原创 2019-08-23 21:43:41 · 641 阅读 · 0 评论 -
python auc /precision_recall_vs_threshold 曲线绘制
from matplotlib import pyplot as plt%matplotlib inlinedef plot_precision_recall_vs_threshold (precisions, recalls, thresholds) :#precision_recall_curve函数的源码中,precision : array, shape = [n_thresho...原创 2019-08-23 21:47:56 · 2441 阅读 · 1 评论 -
python 特征筛选
from sklearn.feature_selection import VarianceThreshold,SelectKBest,chi2from sklearn.datasets import load_irisimport pandas as pdX,y = load_iris(return_X_y=True) X_df = pd.DataFrame(X,columns=l...原创 2019-08-23 22:02:16 · 1117 阅读 · 1 评论 -
python psi指标
def Cal_Psi(score,pre_score,length=10): import math labels=['c'+str(i) for i in range(length)] True_out,bins=pd.qcut(score,q=length,retbins=True,labels=labels) bins[0] = bins[0]-0.001...原创 2019-08-23 22:03:08 · 6269 阅读 · 1 评论 -
python 文件读取 & 变量类型检查 & 缺失值分析
def read_file(filepath,filename): import os os.chdir(filepath) import pandas as pd data=pd.read_csv(filename) return data#变量类型检查def check_df_var_type(df): not_num_var=[] ...原创 2019-08-24 10:56:02 · 1244 阅读 · 0 评论 -
python 特征筛选
#特征初筛#如果是分类问题:对于分类变量,分析较多类的变迁分布是否差异明显,此类变量不删除#这里回归问题 则 不考虑def Remove_singleValue_var(df,var_list): # 变量取值同一性,删除 Sigle_var = [i for i in df if df[i].value_counts().so...原创 2019-08-24 10:56:34 · 1944 阅读 · 0 评论 -
python EDA
#导入可能需要的包,应为我们先做的是初步的分析嘛,所以可视化的包和pandas,numpy ,scipy还是要导入的#https://www.kaggle.com/wkevin/house-prices/notebookimport plotly.offline as pyfrom plotly.graph_objs import Scatter, Layoutimport plotly...原创 2019-08-25 21:31:05 · 2806 阅读 · 0 评论 -
python 混淆矩阵绘图
y_predicted=bdt.predict(X_test)from sklearn.metrics import confusion_matrixfrom sklearn import cross_validation, metricsimport matplotlib.pyplot as pltplt.rc('figure',figsize=(5,5))cm = confusi...原创 2019-08-25 21:35:50 · 5797 阅读 · 0 评论 -
python 回归问题特征筛选
import statsmodels.formula.api as smfimport pandas as pd def forward_selected(data, response): """前向逐步回归算法,源代码来自https://planspace.org/20150423-forward_selection_with_statsmodels/ 使用Adjuste...原创 2019-08-25 21:44:49 · 3175 阅读 · 0 评论 -
python 分类任务特征筛选1
#检验一个变量,如果取较多数值的(>=90%),如果较多类和较小类的label分布差异不明显,删除该变量def Remove_not_obvious(df,col,var_list,label='label'): '''df:数据样本''' '''col:检测变量''' '''label:标签''' '''vae_list:变量列表''' df_d...原创 2019-08-23 21:41:56 · 798 阅读 · 0 评论