
机器学习经典算法
文章平均质量分 98
呆呆的猫
爱发呆 爱抹茶 一直在路上
展开
-
【机器学习】14、sklearn
机器学习是通过一定的样本来学习一个模型,来对未知数据的输出做预测。没有逻辑解、手工调整规则、构建适应环境波动的系统、帮助人类学习带标签的训练集表示在有样本的同时,还已知该样本的类别分类和回归聚类、可视化、降维和关联规则学习如果我们想让机器人学会各种各样的走路方式,强化学习很可能表现得最好未知地形,因为这是强化学习处理的典型问题。可以将这个问题表述为一个有监督或半监督的学习问题,但这就不那么自然了。如果不知道如何定义组,那么可以使用聚类算法(无监督学习)将你的客户划分成类似客户的集群。然而,如果您知道您想拥有原创 2018-09-09 23:00:35 · 1764 阅读 · 0 评论 -
【机器学习】13、梯度下降方法对比
梯度下降法(Gradient Descent Algorithm,GD)是以负梯度方向求解目标函数J(θ)J(\theta)J(θ)的全局最小值的一种迭代方法。随机初始化一组参数θ\thetaθ将目标函数J(θ)J(\theta)J(θ)分别对每个参数θi\theta_iθi求偏导每个参数的更新,是在对所有样本点都求得对该参数的偏导之后,求和取平均,作为该参数梯度更新的方向每轮中对每个参数都要求偏导和更新hθ(x)=θ0+θ1x1。原创 2018-08-06 21:32:15 · 6652 阅读 · 1 评论 -
【机器学习】12、主题模型
武侠这个主题,可能会涉及到降龙十八掌、段誉、大理等,任何一个主题在词典的所有词上都有一个取到的概率,每个主题有各自特定的词分布,词分布也是多项分布,该多项分布的参数服从狄利克雷分布,参数为beta。比如第一个文章涉及了70%的武侠,30%的爱情,这就是主题分布,主题分布在每个主题上都可能发生,所以是一个多项分布,主题的参数服从狄利克雷分布,该分布的参数即为alpha。就是我们要求的概率,而关于概率我们做了一个超参数alpha,比如x1=x2=0的点,此时x3等于某个值,该值最大,也就是该点的概率值大,原创 2018-08-01 16:02:49 · 913 阅读 · 1 评论 -
【机器学习】11、贝叶斯网络
因此我们希望通过建立联合概率与图的关联,从图中找到条件独立性论断(并且我们可以证明,图中的条件独立性论断在联合概率中都是成立的),这样就可以将原始的联合概率写成多个独立因子的乘积,从而减少独立变量的个数,使得模型更加“紧凑”。呼吸困:和支气管炎及肺癌都有关,所以是(0,0),(0,1),(1,0),(1,1)四种情况,参数为4(图中看起来是8个, 其实每行的和都为1,所以实质上给定一个另一个也不变):和抽烟及肺癌都有关,所以是(0,0),(0,1),(1,0),(1,1)四种情况,参数为4。原创 2018-08-01 10:05:12 · 3701 阅读 · 0 评论 -
【机器学习】10、最大熵模型与EM算法
承认已知事物对未知事物不做任何假设,没有任何偏见示例:假设1:假设2:承认已知的X,让未知的Y的概率最大。写成一般的形式:对于一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况下不做任何主观的假设,在这种情况下,概率分布是最均匀的,预测的风险性最小,因此得到的概率分布的熵最大。最大熵原则就是使得未知部分的概率分布都相等,因为相等情况下不确定性最大,也就是熵最大。正态分布是给定均值和方差情况下的最好的分布,熵最大的分布。p‾。原创 2018-07-30 16:56:12 · 6759 阅读 · 1 评论 -
【机器学习】9、最小二乘法和岭回归
线性回归模型的基本假设满足时,用最小二乘法得到的回归系数估计量是无偏的且具有最小方差,即使在高度多重相关的情况下,最小二乘法的回归系数估计量依然是线性无偏的,且具有最小的方差,也就是说多重共线性并不影响最小二乘估计量的无偏性和最小方差性。,由最小二乘法求得的解释抛物面的最低点,由岭回归得到的是黄色的点,一般来说,拟合的误差值(偏差)越小,A的各个元素(权值)的方差越高,所以岭回归是找到一个方差不会太大,误差也不会太大的权衡的点,随着r增大,方差变大。是λ的函数,岭迹图的横坐标为λ,纵坐标为A(λ)。原创 2018-07-29 22:26:27 · 15386 阅读 · 2 评论 -
【机器学习】8、梯度下降法和拟牛顿法
比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步,然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。算法参数的初始值选择。一个很重要的地方值得注意的是,梯度是有方向的,对于一个向量θ,每一维分量θi都可以求出一个梯度的方向,我们就可以找到一个整体的方向,在变化的时候,我们就朝着下降最多的方向进行变化就可以达到一个最小点,不管它是局部的还是全局的。原创 2018-07-29 22:25:30 · 1628 阅读 · 0 评论 -
【机器学习】7、聚类算法与应用
是一种无监督学习,只有数据x,没有标签y试图通过数据间的关系发现一定的模式可以作为监督学习中稀疏特征的预处理比如有200个商品,不聚类的话就会很稀疏,聚类之后,可能会发现这些商品被分为几个大类,从而发现哪些人喜欢哪些类别的东西不过结果可能不是很可靠,工业界用的较多的还是kmeans1、聚类算法的过程:给定N个训练样本,同时给定聚类类别数K,把比较接近的样本放到一个类中,得到K个类2、如何聚类:利用样本之间的相似度,相似度大的分为同类3、聚类结果的评判(距离):高类间距,低类内距。原创 2018-07-27 12:39:34 · 15485 阅读 · 2 评论 -
【机器学习】6、推荐系统原理与应用
根据用户的等来推荐用户感兴趣的物品历史行为社交行为兴趣点所处的上下文环境(上下班时间/周末等)…原创 2018-07-27 12:39:28 · 8504 阅读 · 2 评论 -
【机器学习】5、模型融合与调优
不过如果只做一次分割,它对训练集、验证集和测试集的样本数比例,还有分割后的数据和原始数据集的分布是否相同等因素比较敏感,不同的划分会得到不同的最优模型,而且分成三个集合后,用于训练的数据更少了。通过不断的拟合预测和真实的残差来学习,也就是每次迭代尽量拟合损失函数在当前情况下的负梯度,构建的树是能使得损失函数降低最多的学习器,来解决回归问题,调整后也能解决分类问题。之所以会出现高方差是因为,模型太过复杂,学习太过,在训练集的准确率较好,但是在验证集上的泛化能力较差,验证集的准确率较低,两个准确率相差较大。原创 2018-07-27 12:39:23 · 8243 阅读 · 1 评论 -
【机器学习】4、特征工程
所谓语言模型,就是通过前n 个字预测下一个字的概率,就是一个多分类器而已,我们输入one hot,然后连接一个全连接层,然后再连接若干个层,最后接一个softmax分类器,就可以得到语言模型了,然后将大批量文本输入训练就行了,最后得到第一个全连接层的参数,就是字、词向量表,当然,Word2Vec还做了大量的简化,但是那都是在语言模型本身做的简化,它的第一层还是全连接层,全连接层的参数就是字、词向量表。一方面,城市编码是随机的,向量之间相互独立,看不出城市之间可能存在的关联关系。原创 2018-07-27 12:39:18 · 14468 阅读 · 3 评论 -
【机器学习】3、决策树
GBDT也是集成学习Boosting家族的成员,但是却和传统的Adaboost有很大的不同。回顾下Adaboost,我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重,这样一轮轮的迭代下去。GBDT也是迭代,使用了前向分布算法,但是弱学习器限定了只能使用CART回归树模型,同时迭代思路和Adaboost也有所不同。在GBDT的迭代中,假设我们前一轮迭代得到的强学习器是$ f_{t−1}(x)原创 2018-07-27 12:39:11 · 5183 阅读 · 2 评论 -
【机器学习】2、SVM
SVM是一种监督式的二分类模型,它通过寻找最大间隔分类平面wx+b=0wx+b=0wx+b=0将正负类样本进行区分,对于线性不可分情况,通过核技法将低维空间映射到高维空间,使其线性可分。原创 2018-07-27 12:38:52 · 7555 阅读 · 1 评论 -
【机器学习】1、线性回归和逻辑回归
利用大量的数据样本,使得计算机通过不断的学习获得一个模型,用来对新的未知数据做预测。有监督学习(分类、回归)同时将数据样本和标签输入给模型,模型学习到数据和标签的映射关系,从而对新数据进行预测。无监督学习(聚类)只有数据,没有标签,模型通过总结规律,从数据中挖掘出信息。强化学习强化学习会在没有任何标签的情况下,通过先尝试做出一些行为得到一个结果,通过这个结果是对还是错的反馈,调整之前的行为,就这样不断的调整,算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。原创 2018-07-27 12:38:45 · 69908 阅读 · 28 评论