
机器学习---总
阶段性的总结
bylfsj
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RF, GBDT和Xgboost构造新特征+LR融合的原理及实践
关于Xgboost的知识点很多,本篇博客介绍如何利用Xgboost构造新特征,且在此基础上,介绍与LR模型融合的相关知识点。目录一、原理二、实践2.1 如何获得样本落在哪个叶子节点2.2 举例2.2.1 训练集准备2.2.2 RF+LR2.2.3 GBDT+LR2.2.4 Xgbo...转载 2020-03-17 00:15:03 · 1934 阅读 · 1 评论 -
gbdt+LR
gbdt+lr实战gbdt_lr指导原创 2020-03-17 00:13:24 · 515 阅读 · 0 评论 -
探索性数据分析1
探索性数据分析介绍当有人扔给你一份数据时,你对这份数据完全陌生,又没有足够的业务背景,会不会感觉无从下手。如果你什么都不管,直接把...转载 2020-03-16 23:57:57 · 4412 阅读 · 0 评论 -
探索性数据分析
探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在上世纪70年代由美国统计学家J.K.Tukey提出。传统...转载 2020-03-16 23:52:40 · 2220 阅读 · 0 评论 -
浅谈20 ---------机器学习项目流程
一个完整的机器学习项目一般流程包括: 1、抽象成数学问题 首先要明确问题,分类还是回归,尽量避免胡乱尝试;2、数据获取及分析 获取的数据要有代表性,否则必然会过拟合。 而且对于分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级的差距。 而且还要对数据的量级有一个评估,多少个样本,多少个特征,可以估算出其对内存的消耗程度,判断...转载 2020-03-12 23:50:13 · 492 阅读 · 0 评论 -
浅谈19------------协同过滤
协同过滤的模型一般为m个物品,m个用户的数据,只有部分用户和部分数据之间是有评分数据的,其它部分评分是空白,此时我们要用已有的部分稀疏数据来预测那些空白的物品和数据之间的评分关系,找到最高评分的物品推荐给用户。 一般来说,协同过滤推荐分为三种类型。第一种是基于用户(user-based)的协同过滤,第二种是基于项目(item-based)的协同过滤,第三种是基于模型(mod...转载 2020-03-12 23:48:46 · 620 阅读 · 0 评论 -
浅谈18------推荐算法
1、推荐系统目的(1)帮助用户找到想要的商品(新闻/音乐/……),发掘长尾(2)降低信息过载(3)提高站点的点击率/转化率(4)加深对用户的了解,为用户提供定制化服务2、推荐算法概述 推荐算法是非常古老的,在机器学习还没有兴起的时候就有需求和应用了。概括来说,可以分为以下5种: 1)基于内容的推荐:这一类一般依赖于自然语言处理NLP的一些知识,通过挖掘文本的TF-IDF...转载 2020-03-12 23:47:59 · 1059 阅读 · 0 评论 -
浅谈17------------------EM算法
1、EM算法要解决的问题 如果使用基于最大似然估计的模型,模型中存在隐变量,就要用EM算法做参数估计。 EM算法解决这个的思路是使用启发式的迭代方法,既然我们无法直接求出模型分布参数,那么我们可以先猜想隐含数据(EM算法的E步),接着基于观察数据和猜测的隐含数据一起来极大化对数似然,求解我们的模型参数(EM算法的M步)。由于我们之前的隐藏数据是猜测的,所以此时得到的模型参数一般还...转载 2020-03-12 23:12:28 · 595 阅读 · 0 评论 -
浅谈16---------- 极大似然估计(MLE)、贝叶斯估计、最大后验概率估计(MAP)区别
最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum aposteriori estimation, 简称MAP)是很常用的两种参数估计方法。 1、最大似然估计(MLE) 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数...转载 2020-03-12 23:08:36 · 1577 阅读 · 0 评论 -
浅谈15--------- L0、L1、L2正则化区别
1、概念 L0正则化的值是模型参数中非零参数的个数。 L1正则化表示各个参数绝对值之和。 L2正则化标识各个参数的平方的和的开方值。2、问题 1)实现参数的稀疏有什么好处吗? 一个好处是可以简化模型,避免过拟合。因为一个模型中真正重要的参数可能并不多,如果考虑所有的参数起作用,那么对训练数据可以预测的很好,但是对测试数据就只能呵呵了。另一个好...转载 2020-03-12 18:08:45 · 970 阅读 · 0 评论 -
浅谈14 -------特征工程
特征工程:特征选择,特征表达和特征预处理。1、特征选择 特征选择也被称为变量选择和属性选择,它能够自动地选择数据中目标问题最为相关的属性。是在模型构建时中选择相关特征子集的过程。 特征选择与降维不同。虽说这两种方法都是要减少数据集中的特征数量,但降维相当于对所有特征进行了重新组合,而特征选择仅仅是保留或丢弃某些特征,而不改变特征本身。 降维常见的方法有PCA,S...转载 2020-03-12 18:01:41 · 1198 阅读 · 0 评论 -
浅谈 13-----常见统计学习方法总结(一)
1、判别模型和生成模型总结 判别方法:由数据直接学习决策函数 Y = f(X),或者由条件分布概率 P(Y|X)作为预测模型,即判别模型。 生成方法:由数据学习联合概率密度分布函数 P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。 由生成模型可以得到判别模型,但由判别模型得不到生成模型。 常见的判别模型有:K近邻、SVM、决策树、感知机、线性判别...转载 2020-03-12 17:51:15 · 600 阅读 · 0 评论 -
浅谈机器学习(12)— 机器学习中数据不平衡问题
可以把问题根据难度从小到大排个序:大数据+分布均衡<大数据+分布不均衡<小数据+数据均衡<小数据+数据不均衡。 说明:对于小数据集,机器学习的方法是比较棘手的。对于需要解决的问题,拿到数据后,首先统计可用训练数据有多大,然后再观察数据分布情况。经验表明,训练数据中每个类别有5000个以上样本,其实也要相对于特征而言,来判断样本数目是不是足够,数据量是足够的,正负...转载 2020-03-12 16:57:52 · 690 阅读 · 0 评论 -
浅谈(11)— Apriori算法、FP Growth算法
1、Apriori算法 Apriori算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策。 Apriori算法采用了迭代的方法,先搜索出候选1项集及对应的支持度,剪枝去掉低于支持度的1项集,得到频繁1项集。然后对剩下的频繁1项集进行连接,得到候选的频繁2项集,筛选去掉低于支持度的候选频繁2项集,得到真正的频繁二项...转载 2020-03-12 16:22:05 · 794 阅读 · 0 评论 -
浅谈10----相似性度量和距离计算
在机器学习中,经常需要使用距离和相似性计算的公式,在做分类时,常常需要计算不同样本之间的相似性度量(Similarity Measurement),计算这个度量,我们通常采用的方法是计算样本之间的“距离(Distance)”。比如利用k-means进行聚类时,判断个体所属的类别,就需要使用距离计算公式得到样本距离簇心的距离,利用kNN进行分类时,也是计算个体与已知类别...转载 2020-03-12 15:48:51 · 776 阅读 · 0 评论 -
浅谈9-----损失函数、代价函数
1. 损失函数、代价函数与目标函数 损失函数(Loss Function):是定义在单个样本上的,是指一个样本的误差。 代价函数(Cost Function):是定义在整个训练集上的,是所有样本误差的平均,也就是所有损失函数值的平均。 目标函数(Object Function):是指最终需要优化的函数,一般来说是经验风险+结构风险,也就是(代价函数+正则化项)。--2. ...转载 2020-03-11 17:29:27 · 456 阅读 · 0 评论 -
集成学习
1.bagging与boosting区别样本选择上:Bagging采用的是Bootstrap随机有放回抽样;而Boosting每一轮的训练集是不变的,改变的只是每一个样本的权重。样本权重:Bagging使用的是均匀取样,每个样本权重相等;Boosting根据错误率调整样本权重,错误率越大的样本权重越大。预测函数:Bagging所有的预测函数的权重相等;Boosting中误差越小的预测函数其...原创 2020-03-11 17:14:50 · 1050 阅读 · 0 评论 -
快速选择合适的机器学习算法
- 1.很多算法是一类算法,而有些算法又是从其他算法中延伸出来的- 2.从两个方面分类 - 2.1学习的方式 监督式学习 常见应用场景如分类问题和回归问题 常见算法有逻辑回归(Logistic Regression)和反向传递神经网络(Back Propagation Neural Network) ...转载 2020-03-09 18:26:01 · 746 阅读 · 0 评论 -
浅谈8----集成学习
1.集成学习2.差异3.Adaboost集成学习步骤4.基分类器5.偏差与方差6.GBDT7 XGboost与GBDT原创 2020-03-05 21:56:02 · 369 阅读 · 0 评论 -
浅谈7-采样
不均衡样本的采样原创 2020-03-05 21:40:23 · 351 阅读 · 0 评论 -
浅谈6---优化
1.有监督的损失函数2.优化3.梯度验证4.随机梯度下降法5.随机梯度下降法加速解决之法原创 2020-03-05 21:34:37 · 296 阅读 · 0 评论 -
浅谈6 --概率模型
1.概率图2.生产式与判别式3.马尔可夫模型4.最大熵马尔可夫模型5.条件随机场6.LDA原创 2020-03-05 21:24:41 · 394 阅读 · 0 评论 -
浅谈5----无监督
1.K均值聚类优缺点调优:改进模型2.EM算法3.高斯混合模型4.自映射网络5.评估原创 2020-03-05 18:04:29 · 354 阅读 · 0 评论 -
浅谈4---降维
1.PCA最大方差------无监督2.LDA原创 2020-03-05 17:29:44 · 328 阅读 · 0 评论 -
浅谈机器学习3--经典算法
1.SVM2.逻辑回归3.决策树剪枝原创 2020-03-05 17:06:18 · 306 阅读 · 0 评论 -
浅谈机器学习(2) 模型评估
1.模型评估—指标如何解决RMSE?2.ROC曲线3.余弦距离 1-cos(A,B)4.模型评估的方法5.超参数调优6.过拟合和欠拟合原创 2020-03-05 16:28:04 · 362 阅读 · 0 评论 -
浅谈机器学习(一)
一、特征1.为什么要对数值类型特征进行归一化?2.如何处理类别特征1.序号编码2.独热码3.二进制编码3.组合特征,高维组合特征的处理4.文本表示模型5.word2vec6.与LDA的区别7.数据不足的处理...原创 2020-03-05 16:11:48 · 500 阅读 · 0 评论 -
特征工程系列:数据清洗
特征工程系列:数据清洗本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机...转载 2020-03-01 21:30:42 · 3618 阅读 · 0 评论 -
机器学习(二)工作流程与模型调优
上一讲中主要描述了机器学习特征工程的基本流程,其内容在这里:机器学习(一)特征工程的基本流程本次主要说明如下: 1)数据处理:此部分已经在上一节中详细讨论 2)特征工程:此部分已经在上一节中详细讨论 3)模型选择 4)交叉验证 5)寻找最佳超参数首先看下总图:(一)模型选择:1)交叉验证交叉验证集做参数/模型选择测试集只做模型效果评估2)K折交叉验...转载 2020-03-01 17:48:47 · 700 阅读 · 0 评论 -
机器学习(一)特征工程基本流程
前言 特征是数据中抽取出来的对结果预测有用的信息,可以是文本或者数据。特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。过程包含了特征提取、特征构建、特征选择等模块。 特征工程的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简单的模型做训练,更可以得到优秀的结果。“工欲善其事,必先利其器”,特征...转载 2020-03-01 17:47:49 · 641 阅读 · 0 评论 -
sklearn K近邻法类库使用小结
原文链接 1. scikit-learn 中KNN相关的类库概述 在scikit-learn 中,与近邻法这一大类相关的类库都在sklearn.neighbors包之中。KNN分类树的类是KNeighborsClassifier,KNN回归...转载 2020-02-28 16:52:11 · 484 阅读 · 0 评论 -
超参数调优方法整理大全
机器学习中总是会碰见调参这种枯燥无味且消耗时间的事情,所幸,有很多可以帮助你自动调参的库以及相应的方法,在这里统一总结一下吧。一、随机森林超参数优化- RandomSearch和GridSearch(1)RandomSearch原理:超参数优化也就是常说的调参,python-sklear...转载 2020-02-28 11:52:06 · 8389 阅读 · 2 评论 -
文本处理
1.函数from sklearn.feature_extraction.text import CountVectorizerimport jiebafrom sklearn.feature_extraction.text import vect=CountVectorizer(ngram_range=(2,2)) # n-game模式en=['The quic...原创 2020-02-28 11:37:59 · 480 阅读 · 0 评论 -
机器学习算法 3
一、聚类1.函数from sklearn.cluster import KMeans,DBSCANfrom scipy.cluster.hierarchy import dendrogram,ward1.1 K-Means k均值算法from sklearn.datasets import make_blobsfrom sklearn.cluster import KMeans,DB...原创 2020-02-27 20:51:30 · 384 阅读 · 0 评论 -
机器学习算法选择
本文主要回顾下几个常用算法的适应场景和优缺点!对于你的分类问题,你知道应该如何选择哪一个机器学习算法么?当然,如果你真的在乎精度(accuracy),最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后...转载 2020-02-27 16:29:41 · 918 阅读 · 0 评论 -
机器学习算法 2
一、决策树1.函数from sklearn.tree import DecisionTreeClassifier,export_graphvizimport graphvizfrom sklearn.ensemble import RandomForestClassifier1.1决策树调参 max_depthclf_3=DecisionTreeClassifier(m...原创 2020-02-27 16:09:55 · 921 阅读 · 0 评论 -
机器学习算法 1
一、K最近邻1.调用函数—from sklearn.neighbors import KNeighborsClassifierclf=KNeighborsRegressor(n_neighbors=2)clf.fit(x,y)二、广义线性模型1.函数from sklearn.linear_model import LinearRegression,Ridge,Lasso对...原创 2020-02-27 15:14:51 · 422 阅读 · 0 评论