
机器学习
文章平均质量分 54
qq924178473
这个作者很懒,什么都没留下…
展开
-
学习填坑记录
1、tf.keras.layers.Lambda()——匿名函数层解析https://www.codenong.com/cs105908829/原创 2021-06-03 10:52:56 · 723 阅读 · 0 评论 -
TensorFlow系列——一些api的使用场景及方式
1、string_split:在制作tfrecord的时候,将多个类别特征使用分隔符组装到一起,用一个特征列来存储,降低存储代价。而在训练时候使用string_split将其分隔,分别处理。cank原创 2021-05-31 11:40:30 · 451 阅读 · 0 评论 -
deepFM—理论推导
阅读文章:https://blog.youkuaiyun.com/ISMedal/article/details/100578354一、初始印象1、来源DeepFM相当于将Wide & Deep模型中的Wide部分的LR换成了FM。2、wide & deep的思想与结构实现Wide & Deep Learning 模型的核心思想是结合广义线性模型的记忆能力(memorization,体现在使用的特征都是已有的单一特征,和已有的交叉特征)和深度前馈神经网络模型的泛化能力(g原创 2020-08-24 13:42:13 · 583 阅读 · 0 评论 -
GBDT新认知
参考博客链接:大神在此!1、提升树2、梯度提升树2.1、回归提升树2.2、二分类2.3、多分类1、提升树:GBDT涉及提升树的概念,而与提升最紧密联系的算法包括adaboost,adaboost是利用前一轮迭代的误差率来更新训练集的权重,校正前一轮迭代被错误分类的样本,通俗一点的理解就是将重心放在分错的样本上。而分类误差率是根据训练数据的权值计算得到的,而训练得到的每一...转载 2018-09-18 10:05:46 · 218 阅读 · 0 评论 -
线性与非线性的区分
先来2个博客镇博:1、线性模型和非线性模型的区别,以及激活函数的作用:https://www.cnblogs.com/toone/p/8574294.html这篇博客说的是:a、线性模型可以是用曲线拟合样本,但是分类的决策边界一定是直线的。b.、区分是否为线性模型,主要是看一个乘法式子中自变量x前的系数w,如果w只影响一个x,那么此模型为线性模型。对于b有疑问:疑问1、...转载 2019-04-16 10:08:19 · 7371 阅读 · 0 评论 -
em算法的总结
首先来几个博客:1、https://www.jianshu.com/p/c57ef1508fa72、http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html3、https://blog.youkuaiyun.com/lvhao92/article/details/508050214、https://blog.csdn.ne...原创 2019-04-26 20:19:37 · 526 阅读 · 0 评论 -
L1正则L2正则的一些总结
参考博客:a、https://www.cnblogs.com/lliuye/p/9354972.htmlb、https://vimsky.com/article/969.htmlc、https://blog.youkuaiyun.com/b876144622/article/details/81276818总结:1. 为什么要使用正则化对于博客a的复述: 我们先回顾一下房价预测的...原创 2019-04-23 14:15:51 · 301 阅读 · 0 评论 -
逻辑回归的来源及逻辑回归隐含的一些内容
首先下几个结论:1、逻辑回归是广义线性模型(注意,不是严格的:线性模型)2、逻辑回归处理的是二分类,源自于y的分布:二项分布。接着,逻辑回归的几个问题:1、逻辑回归,为什么叫回归,却处理分类问题。2、逻辑回归怎么就是广义线性模型了?广义线性体现在哪里?3、逻辑回归的决策边界是什么样的?我的想法:1、逻辑回归的直观形式:逻辑回归的假设函数:,其中θ就是我们要的参数...原创 2019-04-19 14:17:48 · 837 阅读 · 0 评论 -
从决策树到gbdt
1、决策树用做分类和回归问题:决策树如何做回归?2、决策树的生成算法有哪几种id3、c4.5、CART3、决策树的结构:内部节点表示特征,叶节点表示类。决策树的内部节点的分支是多分支(一个内部节点可以有多个子节点)。决策树每一层的特征(属性)都不相同。4、决策树的特征选择:熵、条件熵、互信息、信息增益决策树的特征选择的简单描述:如果一个特征具有更好的分类能力...原创 2019-05-06 21:02:20 · 663 阅读 · 0 评论 -
隐马尔可夫模型hmm
参考博客:https://www.cnblogs.com/skyme/p/4651331.html1、最大熵的直观解释:“最大熵”这个名词听起来很深奥,但是它的原理很简单,我们每天都在用。说白了,就是要保留全部的不确定性,将风险降到最小。2、数学中最大熵的原理的实际表现:鸡蛋不能放在同一个篮子里。兜里的耳机线自动变乱。...原创 2019-06-03 19:54:01 · 231 阅读 · 0 评论 -
统计思维
1、统计学手段:2、显著性3、一些专业术语经验之谈(anecdotal evidence) 个人随意收集的证据,而不是通过精心设计并经过研究得到的。直观效应(apparent effect) 表示发生了某种有意思的事情的度量或汇总统计量。人为(artifact) 由于偏差、测量错误或其他错误导致的直观效应。队列(cohort) 一组被调查者。横断面研究(cross-sectional study)...原创 2018-03-28 10:16:08 · 1561 阅读 · 0 评论 -
统计学习方法中的知识点
1、在第2章 感知机 中:①、为什么叫超平面:分割平面:在三维XYZ坐标系里,XoY平面把三维坐标系“分割”成两个空间,XoY平面就是一个分割平面。分割平面可以推广到一维、二维、四维......维空间中,此时把分割平面称为“超平面”。在一维空间里,超平面是一个点;在二维空间里,超平面是一条线;三维空间里是一个平面;四维及四维以上就没法用几何表示,但统称为“超平面”。引自:为啥叫超平面②、w为啥是...转载 2018-03-16 14:55:54 · 292 阅读 · 0 评论 -
logistic回归的一些知识
1、logistic回归的函数(sigmoid)形式:,其中z可以写成的形式。2、预测函数h的形式:3、预测函数h的意义:,分别表示y=1和y=0的概率,其中x表示一个样本,并且x包含多个特征。4、代价函数的形式:,这里是输入一个样本x,预测的结果(0或者1),而式中的y是样本x对应的真实的标签。式子的意义:当y=1时,如果=1,那么代价函数的值就为0,猜对原创 2017-03-20 14:48:22 · 745 阅读 · 0 评论 -
机器学习之-决策树-具体怎么实现及应用
1、对决策树的应用的评价:决策树是最经常使用的数据挖掘算法,流行的原因是使用者不用了解机器学习算法,不用深究它是如何工作的。2、决策树从数据中挖掘规则:决策树很多任务都是为了数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列的规则,机器学习算法最终将使用这些机器从数据集中创造的规则。3、决策树的优缺点及适用数据类型:优点:计算复杂度不高,输出结果易于原创 2017-01-07 10:21:46 · 1170 阅读 · 0 评论 -
机器学习之-Adaboost元算法-具体怎么实现及应用
1、AdaBoost的优缺点及适用数据类型:优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整。缺点:对离群点敏感。适用数据类型:数值型和标称型数据。2、什么是bagging:基于数据随机重抽样的分类器构建方法。就是从原始的数据集进行抽样,抽样得到的数据集大小与原数据集大小一样,但是抽样得到的数据集里含有重复的样本,通过这种方法创建S个这样的抽样数据集,然后将原创 2017-03-21 16:08:12 · 561 阅读 · 0 评论 -
机器学习之-分类性能指标-准确率-召回率-ROC曲线
1、最简单的分类性能指标就是错误率,即在所有测试样例中错分的样例比例。2、在机器学习中有一个普遍适用的称为混淆矩阵的工具,它可以帮助人们更好地了解分类中的错误,比如一个三分类问题:3、对于一个二分类,它的混淆矩阵比较简单:在这个例子中,如果将一个正例预判为正例,则认为产生了一个真正例(True Positive:TP也称真阳),如果对一个反例预判为反例,则认为产生一个真原创 2017-03-23 17:51:44 · 7426 阅读 · 1 评论 -
机器学习之-支持向量机-具体怎么实现及应用
1、支持向量机的优缺点及适用数据类型:优点:泛化错误率低,计算开销不大,结果易于解释。缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。适用数据类型:数值型和标称型数据。2、为什么叫做超平面?这是个让人尴尬的问题!!!!如果数据点都在二维平面上,那么分隔超平面就是一条直线,如果所给的数据点集是三维的,那么分隔数据的就是一个平面,更高维的以此类推,如果数原创 2017-03-14 17:05:42 · 1155 阅读 · 0 评论 -
机器学习之-用k-均值聚类算法对未标注数据分组-具体怎么实现及应用
1、什么叫做k-均值?它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。2、k-均值聚类的算法:创建k个点作为起始质心(经常是随机选择)当任意一个点的簇分配结果发生改变时对数据集中的每个数据点对每个质心计算质心与数据点之间的距离将数据点分配到距其最近的簇对每一个簇,计算簇中所有点的均值并将均值作为质心2、过程:1)加载数据(数据格式是m原创 2017-06-09 18:05:53 · 380 阅读 · 0 评论 -
机器学习之-使用Apriori算法进行关联并分析-具体怎么实现及应用
1、从大规模数据集中寻找物品间的隐含关系被称作关联分析或者关联规则学习。2、频繁项集:经常出现在一块的物品的集合。3、关联规则:暗示两种物品之间可能存在很强的关系,而支持度和可信度是用来量化关联分析是否成功的方法。4、一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。5、可信度或置信度:针对关联规则来定义。例如{尿布,葡萄酒}的支持度为3/5,{尿布}的支持度为4/5,所原创 2017-06-20 16:01:24 · 749 阅读 · 0 评论 -
机器学习之-回归树-具体怎么实现及应用
1、连续和离散型特征的树的构建:用字典来存储树的数据结构,包含4个元素:a)待切分的特征b)待切分的特征值c)右子树。当不再需要切分的时候,也可以是单个值。d)左子树。与右子树类似。原创 2017-04-06 18:01:51 · 6120 阅读 · 0 评论 -
机器学习之-用k-均值聚类算法对未标注数据分组-具体怎么实现及应用
1、什么叫做k-均值?它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。2、k-均值聚类的算法:创建k个点作为起始质心(经常是随机选择)当任意一个点的簇分配结果发生改变时对数据集中的每个数据点对每个质心计算质心与数据点之间的距离将数据点分配到距其最近的簇对每一个簇,计算簇中所有点的均值并将均值作为质心2、过程:1)加载数据(数据格式是m原创 2017-06-09 18:02:01 · 383 阅读 · 0 评论 -
机器学习之-使用FP-growth算法来高效发现频繁项集-具体怎么实现及应用
1、FP-growth算法可以高效地发现频繁项集,但不能用于发现关联规则。2、FP-growth发现频繁项集的基本过程:1)构建FP树2)从FP树种挖掘频繁项集。3、FP树有其数据结构,一般用该数据结构对数据集进行编码。4、一棵FP树看上去与计算机科学中的其他树结构相似,但是它通过链接(link)来连接相似元素,被连起来的元素项可以看成一个链表:一个元素项可以在一棵原创 2017-06-23 17:17:01 · 929 阅读 · 0 评论 -
机器学习之-knn-具体怎么实现与应用
1、定义:k-近邻算法算法采用测量不同特征值之间的距离方法进行分类。--解释:比如要对一个电影分类,就是要把这个电影分为哪种题材的电影,比如是武侠题材还是爱情题材,用k-近邻方法去分类的话,首先得得到要分类的电影的特征值,分类是在特征空间上进行的。k-近邻不需要像其它机器学习算法那样有一个学习的过程,你只需要给出一大堆电影,然后分别找出这些电影的特征值,比如电影A中打斗场景的次数、接吻次数作为原创 2017-01-05 14:34:39 · 463 阅读 · 0 评论