yongzhiemmmmm-优快云博客

原创 baseline--协同过滤

导包# import packagesimport time, math, osfrom tqdm import tqdmimport gcimport pickleimport randomfrom datetime import datetimefrom operator import itemgetterimport numpy as npimport pandas as pdimport warningsimport collectionsfrom collections

2020-11-25 10:11:58 204

原创模型融合

平均#简单平均pre = (pre1 + pre2 + pre3 +...+pren )/n#加权平均pre = 0.3pre1 + 0.3pre2 + 0.4pre3 投票#简单投票from xgboost import XGBClassifierfrom sklearn.linear_model import LogisticRegressionfrom sklearn.ensemble import RandomForestClassifier, VotingClassifier

2020-09-27 21:27:12 138

原创建模调参

逻辑回归#逻辑回归#1.总述：逻辑回归是将数据拟合到一个logit函数中，从而能够完成对事件发生的概率进行预测#线性回归与逻辑回归：线性回归即对于多维空间中存在的样本点，用特征的线性组合去拟合空间中点的分布和轨迹。线性回归是对连续值结果进行预测如果要进行分类问题 #就要借助线性回归+阈值的方式。但实际情况下，分类数据并没有这么精准，出现异常值时，判定阈值就失效了。在这样的场景下，逻辑回归就诞生了。 #它的核心思想是，如果线性回归的结果

2020-09-24 17:04:36 154

原创特征工程

内容介绍1.异常处理：通过箱线图（或 3-Sigma）分析删除异常值；BOX-COX 转换（处理有偏分布）；长尾截断；2.特征归一化/标准化：标准化（转换为标准正态分布）；归一化（抓换到 [0,1] 区间）；针对幂律分布，可以采用公式： log ⁡ ( 1 + x 1 + median ) \log \left(\frac{1+x}{1+\text {median}}\right) log(1+median1+x)3.数据分桶：等频分桶；等距分桶；Best-KS 分桶（类似利用基尼

2020-09-21 19:34:39 232

原创数据挖掘2

目的：1.熟悉了解整个数据集的基本情况（缺失值、异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模。2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备。导入相关库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimeimport warningswarnings.filterwarnings

2020-09-18 13:54:39 143

原创数据挖掘之金融风控01

赛题介绍赛题概况赛题以预测金融风险为任务，数据集来自某信贷平台的贷款记录。数据概况import pandas as pdtrain = pd.read_csv('E:/train.csv')testA = pd.read_csv('E:/testA.csv')train.head()train.info()预测指标采用AUC作为评价指标，AUC被定义为ROC曲线下与坐标轴围成的面积。混淆矩阵from sklearn.metrics import confusion_matrix#混

2020-09-14 17:06:23 249

原创模型搭建与评估

模型搭建切割训练集和测试集from sklearn.model_selection import train_test_split# 一般先取出X和y后再切割，有些情况会使用到未切割的，这时候X和y就可以用X = datay = train['Survived']X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)模型创建from sklearn.linear_model

2020-08-27 18:56:26 303

原创数据重构、数据聚合与运算、数据可视化

5.数据重构5.1数据的合并5.1.1数据载入import numpy as npimport pandas as pdtext_left_up=pd.read_csv("train-left-up.csv")text_left_down=pd.read_csv("train-left-down.csv")text_right_up=pd.read_csv("train-right-up.csv")text_right_down=pd.read_csv("train-right-down.c

2020-08-23 21:27:18 323

原创数据清洗及特征处理

4.数据清洗及特征处理4.1导入numpy、pandas包和数据import numpy as npimport pandas as pddf=pd.read_csv('train.csv')4.2缺失值观察与处理4.2.1缺失值观察#查看每个特征缺失值个数df.info()df.isnull().sum()4.2.2对缺失值进行处理df.dropna()df.fillna()#对Age列的数据缺失值进行处理df[df['Age']==None]=04.3重复值观

2020-08-21 11:46:37 278

原创数据分析

@数据分析1.数据加载1.1载入数据1.1.1导入相关库import numpy as npimport pandas as pd1.1.2载入数据（1）使用相对路径载入数据df = pd.read_csv('train.csv')相对路径报错时，尝试使用os.getcwd()查看当前工作目录（2）使用绝对路径载入数据df = pd.read_csv('/Users/../train.csv')1.1.3逐块读取数据chunker = pd.read_csv('train.c

2020-08-19 12:16:41 308

yongzhiemmmmm的博客