
机器学习
GOD_WAR
喜欢钻研大数据、python、机器学习、人工智能...
展开
-
Spark ML 线性回归
线性回归的简介:线性回归是在平面中根据所给的点求出一条直线,并且使得所有的点到这条线的距离平方和最小。 一元线性回归设二维数据点集为: (x1, y1), (x2, y2),, (xn, yn). 绘制出该数据集的散点图,如果所有的点近似的在一条直线上,则可以用如下结构描述:y = ax + b...原创 2019-06-18 22:20:49 · 1076 阅读 · 0 评论 -
Spark ML 协同过滤算法
1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐, 而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。换句话说,就是借鉴和你相关人群的...原创 2019-06-18 22:04:30 · 4021 阅读 · 1 评论 -
Spark mlib KMeans聚类算法
1. 聚类1.1 什么是聚类?所谓聚类问题,就是给定一个元素集合D,其中每个元素具有n个可观察属性,使用算法将集合D划分成k个子集,要求每个子集内部的元素之间相异度尽可能低,而不同子集的元素相异度尽可能高,其中每个子集叫做一个簇。K-means算法简介k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划...原创 2019-06-18 21:47:37 · 1418 阅读 · 0 评论 -
机器学习初学者必须知道的十大算法
哈佛商业评论称数据科学家是21世纪最性感的工作。所以,对于那些ML刚刚开始的人来说,这篇博客机器学习算法工程师需要知道的十大算法是非常有用的。ML算法是可以从数据中学习并从中改进的算法,无需人工干预。学习任务可能包括将输入映射到输出,在未标记的数据中学习隐藏的结构,或者“基于实例的学习”,其中通过将新实例与来自存储在存储器中的训练数据的实例进行比较来为新实例生成类标签。ML算法的类型有...原创 2019-06-16 20:22:29 · 251 阅读 · 0 评论 -
新手入门的十种机器学习算法
在神经网络的成功的带动下,越来越多的研究人员和开发人员都开始重新审视机器学习,开始尝试用某些机器学习方法自动解决可以轻松采集数据的问题。然而,在众多的机器学习算法中,哪些是又上手快捷又功能强大、适合新手学习的呢?机器学习领域有一条“没有免费的午餐”定理。简单解释下的话,它是说没有任何一种算法能够适用于所有问题,特别是在监督学习中。例如,你不能说神经网络就一定比决策树好,反之亦然。要判断算法...原创 2019-06-16 20:18:07 · 268 阅读 · 0 评论