
机器学习
文章平均质量分 92
Johnson0722
learning like deep learning
展开
-
遗传算法原理及其python实现
遗传算法,python实现原创 2022-07-10 17:07:41 · 4534 阅读 · 2 评论 -
Partial Dependence and Individual Conditional Expectation plots
PDP(Partial dependence plots)和 ICE(individual conditional expectation)可以用来分析预测目标和输入特征之间的相互关系。PDP和ICE假设我们要分析的特征和其他特征是独立的。Partial Depentent PlotPDP显示了一个或两个特征对机器学习模型的预测结果的边际效应。PDP可以显示目标和特征之间的关系是线性的、单调的还是更复杂的。 例如,当应用于线性回归模型时,PDP显示线性关系对于回归函数来说 Partial Depend原创 2021-06-27 12:02:31 · 1138 阅读 · 1 评论 -
从CART到Xgboost - 原理及代码实践
CART (Classification and Regression Truee)CART,即分类回归树。顾名思义,CART既可以用于分类任务,又可以用于回归任务.决策树的建模思想非常简单,将特征空间划分位互不相交的子空间,也就是将样本进行分组;然后位每一组样本分配一个预测值。在预测阶段,对一个新来的样本,位样本找到分组,然后给出预测值。分类任务:预测目标是离散值,分类树采用Gini值、entropy、information gain作为节点分裂的依据。采用叶子节点里概率最大的类别作为当前节点的预测原创 2021-06-18 00:03:59 · 1025 阅读 · 0 评论 -
机器学习理论 - 无限假设空间复杂度
PAC可学性与假设空间H\mathcal{H}H复杂度密切相关。假设空间H\mathcal{H}H越复杂,寻找到目标概念的难度越大。对于有限假设空间,可以用其中包含假设的数据来刻画假设空间的复杂度。 然而对于大多数学习问题来说, 学习算法考虑的假设空间并非是有限的,因而无法使用假设的数量来刻画假设空间复杂度。 有以下两种方法可以刻画无限假设空间的复杂度:与数据分布D\mathcal{D}D无关的VC维及其扩展 Natatajan维与数据分布D\mathcal{D}D相关的Rademacher维VC原创 2021-05-15 11:19:21 · 778 阅读 · 0 评论 -
机器学习理论-PAC learning
对于一个机器学习任务,通常需要考虑它是不是可学的 (learnable)基本概念给定样本集 D={(x1,y1),(x2,y2),...(xm,ym)}D=\{ (\pmb{x_1}, y_1), (\pmb{x_2}, y_2), ...(\pmb{x_m}, y_m)\}D={(x1x1x1,y1),(x2x2x2,y2),...(xmxmxm,ym)}, yi∈{−1,+1}=Yy_i \in \{-1, +1\} = \mathcal{Y}yi∈{原创 2021-05-09 12:13:02 · 2474 阅读 · 0 评论 -
机器学习基础-Lagrange duality
Lagrange duality对偶问题是利用拉格朗日对偶性将原始问题转换为对偶问题, 通过解对偶问题得到原始问题的解。学习拉格朗日对偶性原理重要的是理解构造所得的原始问题和原函数的等价性,以及原始问题和对偶问题解的等价性。等式约束条件优化问题对于有等式约束条件的问题,其解决方法是直接将等式约束加入原问题构造出拉格朗日函数,然后求导即可。看如下例子:minwf(w)min_w f(w)minwf(w)s.t.hi(w)=0,i=1,...,ms.t. h_i(w) =0, i=1,...,m原创 2021-05-03 00:06:08 · 354 阅读 · 1 评论 -
Linear Model Trees
IntroductionLinear model trees combine linear models and decision trees to create a hybrid model that produces better predictions and leads to better insights than either model alone. A linear model tree is simply a decision tree with linear models at its转载 2020-07-06 12:46:36 · 714 阅读 · 0 评论 -
强化学习基础
基本概念强化学习(reinforcementlearning, RL)是近年来机器学习和智能控制领域的主要方法之一。强化学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累计回报通过强化学习,一个智能体知道在什么状态下应该采取什么行为。RL是从环境状态到动作的映射学习,我们把这个映射称为策略(Policy)强化学习和监督学习的区别增强学习是试错学习(Trail-and-erro...原创 2019-03-12 18:01:27 · 823 阅读 · 0 评论 -
PCA算法原理及实践
PCA的概念PCA(principal components analysis)即主成分分析技术,是特征降维的常用手段。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成...原创 2019-02-11 17:07:33 · 1075 阅读 · 0 评论 -
使用xgboost进行特征选择
使用基于决策树的梯度提升算法的一个好处是,可以自动地获取特征的重要性,从而有效地进行特征的筛选。本文基于xgboost进行特征选择的实践使用gradient boosting计算特征重要性通过梯度提升的方法,我们可以根据提升之后的树获取每个特征的重要性。一般来说,特征的重要性表示这个特征在构建提升树的作用。如果一个特征在所有树中作为划分属性的次数越多,那么该特征就越重要。通过每个属性分割点改...原创 2018-12-21 17:01:38 · 24571 阅读 · 12 评论 -
利用卡方检验进行特征选择及实践
卡方检验概述卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(行话就叫做“原假设”),然后观察实际值(也可以叫做观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度,如果偏差足够小,我们就认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确确实实是独立的,此时就接受原假设;如果...原创 2018-09-07 12:16:02 · 2917 阅读 · 0 评论 -
集成学习(Ensemble Learning)综述
集成学习简单理解就是指采用多个分类器对数据集进行预测,从而提高整体分类器的泛化能力。 集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。1. BaggingBagging算法(Bootstrap aggregating,引导聚集算法),又称装袋算法,是机器学习领域的一...原创 2018-03-18 17:21:51 · 8056 阅读 · 0 评论 -
doc2vec原理及实践
1.“句向量”简介word2vec提供了高质量的词向量,并在一些任务中表现良好。 关于word2vec的原理可以参考这几篇论文:https://arxiv.org/pdf/1310.4546.pdfhttps://arxiv.org/pdf/1301.3781.pdf关于如何使用第三方库gensim训练word2vec可以参考这篇博客:http://blog.csdn.n原创 2018-01-30 17:20:10 · 20467 阅读 · 5 评论 -
基于图的推荐算法及python实现
概述基于图的模型(graph-based model)是推荐系统中的重要内容。 在推荐系统中,用户行为数据可以表示成图的形式,具体地,可以用二元组(u,i)(u,i)(u,i)表示,其中每个二元组(u,i)(u,i)(u,i)表示用户uuu对物品iii的产生过行为,这种数据很容易用一个二分图表示 其中users集 U={A,B,C}U={A,B,C}U=\{A,B,C\}, item...原创 2017-12-27 18:27:00 · 3636 阅读 · 1 评论 -
PageRank算法与python实现
概述PageRank的Page可是认为是网页,表示网页排名,也可以认为是Larry Page(google 产品经理),因为他是这个算法的发明者之一,还是google CEO。PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序。算法思想如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高如果...原创 2017-12-27 18:19:12 · 11461 阅读 · 5 评论 -
常用的线性回归模型小结
先明确几个概念:方差指的是模型之间的差异,偏差指的是模型预测值和数据之间的差异。最小二乘法线性回归(Oridinary Least Squares, OLS)线性回归拟合具有系数w =(w_1,…,w_p)的线性模型,最小化 通过预测模型得到的预测值和真实值之间的残差,其数学表达式如下:min∥XW−Y∥22min\left \lVert XW-Y\right \rVert^2_2 线性回归模型也原创 2017-04-23 22:52:58 · 9333 阅读 · 0 评论