
机器学习
记录
西安人走哪都要吃泡馍
这个作者很懒,什么都没留下…
展开
-
决策树---实现泰坦尼克号预测(记录细节API)
import pandas as pdfrom sklearn.tree import DecisionTreeClassifierimport matplotlib.pyplot as pltfrom sklearn.model_selection import GridSearchCV, train_test_split, cross_val_scoreimport numpy as np# 使用分类树模型预测那些人可能称为幸存者,主要是分类树data = pd.read_csv(r"D:原创 2021-03-15 00:11:16 · 135 阅读 · 0 评论 -
机器学习-----集成学习
问题1,集成学习风哪几种,他们都有何种异同????第一种:BootingBoosting方法训练基分类器时采用串行的方式,各分类器之间有依赖,基本思路是将基分类器层层叠加,每一次在训练的时候,对前一层基分类器分错样本,给与更高的权重,测试时,根据各层分类器的结果的加权得到最终结果第二种:BaggingBagging方法训练过程中,各基分类器之间无强依赖,可以进行并行训练,其中很著名的算法之一是基于决策树基分类器的随机森林,为了让基分类器之间相互独立,将训练集分为若干个子集,Bagging方法原创 2021-02-23 22:50:15 · 154 阅读 · 0 评论 -
机器学习中的超参数调优(网络搜素,随机搜索,贝叶斯优化算法)
在机器学习中,我们通常把样本分为训练集和测试集,训练集用于训练模型,测试集用于评估模型,在样本划分和模型验证的过程中,存在着不同的抽样方法和验证方法,问题1,在模型评估过程中,有那些主要的验证方法,他们的优缺点是什么????Holdout检验:是最简单也是最直接的验证方法,它将原始的样本集合随即划分训练集和测试即两部分,但是缺点很明显,即在验证集上计算出来的最后评估指标与原始分组有很大关系,为了消除随机性,研究者们引入了交叉检验的思想。交叉检验:k-fold交叉检验:首先将全部样本划分成k个大小相原创 2021-02-20 23:03:45 · 834 阅读 · 0 评论 -
AB测试相关问题
在对模型进行过充分的离线评估之后,为什么还要进行在线 A/B测试????1、离线评估无法完全消除模型过拟合的影响,因此,得出的离线评估结果无法替代线上评估结果2、离线评估无法完全还原线上的工程环境,一般来讲,离线评估往往不会考虑线上环境的延迟,数据丢失,标签数据缺失等情况,因此,离线评估的结果是理想工程环境下的结果3、线上系统的某些商业指标在离线评估中无法计算。离线评估往往关注的是ROC曲线,P-R曲线等的改进,而线上评估可以全面了解该推荐算法带来的用户点击率,留存时长,PV访问量等的变化,如原创 2021-02-20 20:00:08 · 215 阅读 · 0 评论 -
余弦相似度,余弦距离,欧氏距离,距离定义
在机器学习问题中,通常将特征表示为向量的形式,所以在分析两个特征向量之间的相似性时,宠用余弦相似度来表示。余弦相似度的取值范围时[-1,1],相同的两个向量之间的相似度为1,如果希望得到类似的距离的表示,将1减去余弦相似度即为余弦距离,因此,宇轩距离的取值范围为[0,2],相同两个向量余弦相似度为0.为什么在一些场景中要使用余弦相似度而不是欧氏距离呢???对于两个向量A和B,其余弦相似度定义为:即两个向量的夹角的余弦,关注的是向量之间的角度关系,并不关心他们的绝对大小,其取值范围是[-1,1]。.原创 2021-02-20 13:09:32 · 1344 阅读 · 0 评论 -
wide&deep模型的认知(未完结)
wide&deep模型:深度加宽度的模型范式,本身并不是一个具体的模型,wide和deep部分可以用任意结构框架,wide的baseline是LR模型,deep的baseline是MLP模型(MLP指多层感知器,是一种签祥结构的人工沉静网络,映射一组输入向量到一组输出向量)面试时会问这种不起眼的问题:1、wide&deep模型是谁提出来的?那一年提出来的?你在哪知道这个模型的?回答:wide&deep是由谷歌16年6月左右提出来的,2、wide&deep中感觉wide原创 2021-01-20 15:20:47 · 268 阅读 · 0 评论 -
机器学习中线性回归中梯度下降法与正规方程法的优缺点
原创 2020-12-19 23:50:17 · 430 阅读 · 1 评论 -
机器学习中关于矩阵名词解释:单位矩阵,方阵,逆矩阵,矩阵转置
原创 2020-12-19 23:16:47 · 566 阅读 · 1 评论 -
机器学习----------------KNN算法----------回归---------原理和python代码实现
直奔主题:import numpy as npimport pandas as pddata = pd.read_csv(r"iris.csv")# 删除不需要的列# 用drop可以删除一个字段,或者删除多个字段# axis 为1表示列,为0表示行# inplace = True 表示在现在这个数据源上修改结果,也称:就地修改data.drop(["class"],axis = 1, inplace=True)# 删除重复的记录data.drop_duplicates(inplace原创 2020-12-17 21:07:41 · 222 阅读 · 0 评论 -
机器学习----------------KNN算法----------分类---------原理和python代码实现
直奔主题:import numpy as npimport pandas as pd#读取燕尾花数据集,header参数来指定标题的行,默认为0,如果没有标题,则使用Nonedata = pd.read_csv(r"iris.csv")#显示前N行记录,默认值为5#data.head(150)#显示末尾的N行记录,默认值为5#data.tail(10)#随机抽取数据,默认为1行#data.sample(100)#修改样本的类型,data["class"] = data["class原创 2020-12-17 19:25:16 · 291 阅读 · 0 评论 -
机器学习(吴恩达老师笔记)-------梯度下降
原创 2020-12-11 08:24:01 · 100 阅读 · 0 评论 -
机器学习(吴恩达老师笔记)-------代价函数之平方误差函数02
原创 2020-12-10 08:13:40 · 274 阅读 · 0 评论 -
机器学习(吴恩达老师笔记)-------代价函数之平方误差函数01
原创 2020-12-10 06:49:00 · 326 阅读 · 0 评论