
机器学习
文章平均质量分 74
JamePrin
这个作者很懒,什么都没留下…
展开
-
sklearn中的数据预处理和特征工程----【5】嵌入法
嵌入法过程:将所有特征都放入一个循环。这个循环会选出特征子集投入算法进行模型评估。如此反复嵌入法的结果会更加精确到模型的效用本身,对于提高模型效力有更好的效果。但他也有缺点:嵌入法使用的权值系数没有像p值这样能够界定范围的。大量特征对模型有贡献且贡献不一,就很难界定有效的临界值。 计算速度依赖于算法模型的数据。元变换器,可以与任何在拟合后具有coef_,feature_importances_或者参数中可选惩罚项的评估其一起使用(随机森林和树模型就有feature_importances_;逻原创 2021-06-14 16:39:24 · 353 阅读 · 0 评论 -
sklearn中的数据预处理和特征工程----【4】相关性过滤
文章目录卡方过滤F检验互信息法过滤法总结寻找与标签有相关性的特征。卡方过滤专门针对离散型标签(分类问题)相关过滤类 feature_selection.chi2计算每个非负(不能计算负数,要进行归一化或者标准化)特征和标签之间的卡方统计量,越高越好(相关性越强)如果检测的方差为0的数据,会提示先用方差过滤结合 feature_selectio.SelectKbest选出卡方分数最高的K个from sklearn.feature_selection import Select原创 2021-06-11 16:50:01 · 1072 阅读 · 0 评论 -
sklearn中的数据预处理和特征工程----【3】方差过滤
Feature Engineering【VarianceThreshold】Feature Extraction从文字,图像,声音等其他非结构化数据提取新信息作为特征Feature Creation已有的特征进行组合,或者相互计算,得到新的特征Feature Selection从所有特征中选择出有意义的,对模型有帮助的特征达到降低计算成本的效果Step**step1 理解业务:**根据常识对项目的数据进行判断相关性从而理解数据无法理解特征过滤嵌入包装降原创 2021-06-10 22:33:49 · 968 阅读 · 2 评论 -
sklearn中的数据预处理和特征工程----【2】代码及参数解释【学习笔记】
编码与哑变量将文字型数据转换为数值型。LabelEncoder(标签专用,把分类转换成数值分类)from sklearn.preprocessing import LabelEncoder# 找出数据中的一列特征y = data.iloc[:, -1]# 使用LabelEncoderle = LabelEncoder() # 初始化le = le.fit(y) label = le.transform(y)######################### 一步到位le.f..原创 2021-05-28 11:50:21 · 476 阅读 · 0 评论 -
sklearn中的数据预处理和特征工程----【1】代码及参数解释【学习笔记】
如果数据不给力,在高级的算法都没有用。五大步骤获取数据数据预处理检测、纠正或删除损坏、不准确、不适用的数据过程例如:数据类型(文字、数字、时间序列、连续、离散、噪声、异常、缺失值、出错、量纲不一、重复偏态)目的:让数据适应模型,匹配需求。特征工程将特征转换成更能代表预测模型潜在问题的过程方法:挑选最相关的、提取特征、创造特征:降维或者计算问题:特征间有相关性、特征和标签无关、 太多或者太小、干脆无法表达或展示数据的真实面貌目的:降低计算成本、提升模型上限建模并且测试模型原创 2021-05-28 00:22:01 · 413 阅读 · 0 评论 -
简单的调参学习
评估指标有 : score , oob_score衡量模型在未知数据上准确率 ---- Genelization error当模型在未知数据(测试集或者袋外数据)上表现糟糕时,模型的泛化程度不够模型复杂度受到参数影响通过学习曲线(在上一篇的随机森林学习中有体现)通过网格搜索(其他博主博客)方差与偏差一个集成模型(f)在未知数据集(D)上的泛化误差E(f;D),由方差(var),偏差(bais)和噪声(ε)共同决定。E(f;D)=bias2(x)+var(原创 2021-05-24 18:32:43 · 168 阅读 · 0 评论 -
Sklearn 中的随机森林 【学习笔记--含有尝试代码可用】
首先记录一下集成算法集成学习算法 集成学习(ensemble learning)是通过在数据上构建多个模型,集成所有模型的建模结果。有随机森林(比较基础),梯度提升树(GBDT),Xgboost等集成算法。集成算法的目标集成算法会考虑多个评估器的建模结果,汇总之后得到一个综合的结果,以此来获取比单个模型更好的回归或分类表现。多个模型集成成为的模型叫做集成评估器(ensemble estimator),组成集成评估器的每个模型都叫做基评估器(base estimator)。通常来说,有三类集成方法:原创 2021-05-24 17:44:53 · 493 阅读 · 1 评论 -
Sklearn 中的决策树(分类)【学习笔记--含有尝试代码可用】
模块 sklearn.tree共有5类不包括集成算法tree.DecisionTreeClassifier分类树tree.DecisionTreeRegression回归树tree.export_graphviz将生成的决策树导出为DOT格式,画图专用tree.ExtraTreeClassifier高随机版本分类树tree.ExtraTreeRegression高随机版本回归树使用步骤只有三步实例化,建立评估模型对象(实例化需要使用到参数)通.原创 2021-05-23 02:29:34 · 854 阅读 · 0 评论 -
决策树(分类)原理笔记
----分类树(非参数有监督学习方法)决策树是一种应用广泛的归纳推理算法,在分类问题中,决策树算法基于特征样本进行分类构成一棵包含一系列if-then规则的树数学上,解释为:定义在特征空间与类空间上的条件概率分布。优点:分类速度快、健壮性好、模型具有可读性应用:医疗诊断,贷款风险评估等领域非参数:不用太多处理数据有监督:需要输入标签例子:一个人出去打球与否和天气的特征关系:构成:Node and Directed EdgeNode: Internal Node(for一些特原创 2021-05-22 19:09:20 · 574 阅读 · 0 评论 -
Softmax Regression --【python代码实现】
上次的Logistic Regression 只能处理二元分类问题,而在其推广的Softmax回归能处理多元分类问题->称为多元Logistic Regression。有 K 个 类别就有 K 个 wj列矩阵。 因为对于每个实例x,都要计算ta成为K个特征的概率Zj=gj(x)=wjTxZ_j = g_j(x)=w^T_jxZj=gj(x)=wjTxX = \begin{pmatrix} 1 & x_1 & x_1^2 & \cdots &原创 2021-05-17 20:52:50 · 833 阅读 · 1 评论 -
Logistic Regression --【python代码实现】
此文章缺乏一些公式推导,只直接给代码和必要的解释1、 创建一个类import numpy as np# 以下包是用来操作数据,检验准确率的。这里没有给出。from sklearn.model_selection import train_test_split # 划分数据集from sklearn.preprocessing import StandardScaler # 用来去均值和方差归一化,针对每个特征的处理from sklearn.metrics import accuracy_s原创 2021-05-14 16:05:42 · 349 阅读 · 1 评论