
Machine Learning
阿雅Yage
这个作者很懒,什么都没留下…
展开
-
k-means/k-means++算法的笔记及scala实现
写在前面一小谈聚类与分类二基本k-means算法1 概述2 代价函数3 算法主要步骤4 选择初始簇心5 聚类数的选择 6 代码实现三k-means算法1 概述 2 算法主要步骤3 代码实现写在前面 自己看博客也有很长一段时间了,突然想尝试着自己写一写,这段时间一直在入门机器学习的算法同时也参考了一些书籍,博客文章(无奈小白一枚,这些内容我会列在最后),现在做一个学习的原创 2017-11-15 16:45:37 · 4247 阅读 · 2 评论 -
朴素贝叶斯实战(Python屏蔽留言板的侮辱性言论)
项目概述构建一个快速过滤器来屏蔽留言板上的侮辱性言论。如果某条留言使用了负面或者侮辱性的语言,那么就将该留言标识为内容不当。对此问题建立两个类别: 侮辱类和非侮辱类,使用 1 和 0 分别表示。准备数据准备数据的方法比较简单,只是自己构造的训练数据集而已,嵌套列表里的每个列表表示已经分好词的句子样本。可以看到,为简单起见,每个句子里的词都不重复。def loadDataSet(): ...原创 2019-07-29 20:26:52 · 1291 阅读 · 0 评论 -
朴素贝叶斯笔记
贝叶斯公式贝叶斯公式就是采用贝叶斯准则来计算条件概率,它告诉我们计算时交换条件概率中的条件与结果:P(Y∣X)=P(X∣Y)P(Y)P(X)P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)P(Y)P(Y∣X)P(Y|X)P(Y∣X) 不能通过直接观测来得到结果,而P(X∣Y)P(X|Y)P(X∣Y) 却容易通过直接观测得到结果,就可以通过贝叶斯...原创 2019-07-29 15:47:55 · 322 阅读 · 0 评论 -
Spark惰性求值与持久化(缓存)
惰性求值意味着当我们对RDD调用转化操作(例如调用map()时),操作不会立即执行。相反,Spark会在内部记录下所要求执行的操作的相关信息。我们不应该把RDD看作存放着特定数据的数据集,而最好把每个RDD当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。把数据读取到RDD的操作也同样是惰性的。因此,当我们调用sc.textFile()时,数据并没有读取进来,而是在必要时才会读取。和转化...原创 2019-05-11 09:35:25 · 1956 阅读 · 1 评论 -
AUC的计算
AUC顾名思义就是ROC曲线下的面积,一种计算方法是直接计算面积;另一种方法是假设分类器的输出是样本属于正类的socre(置信度),则AUC的物理意义为,任取一对(正、负)样本(这里的正负样本是实际的正负样本,不是预测出的正负样本),正样本的score大于负样本的score的概率。关于AUC的博文如下:[1] https://mp.weixin.qq.com/s/zeOviV1rjcSSwk79...原创 2019-03-28 20:37:31 · 599 阅读 · 0 评论 -
推荐系统(基于CB,CF,LR)
用户画像数据user_profile.data:userid, 性别, 年龄段, 收入段, 地域物品元数据music_meta:itemid, 名称, 描述, 时长, 地域, 标签用户行为数据user_watch_pref.sml...原创 2019-03-25 17:58:17 · 1918 阅读 · 0 评论 -
朴素贝叶斯分类(Python)
一、贝叶斯公式及分类贝叶斯公式是在条件概率和全概率公式的基础上得来的,详细请参考:https://blog.youkuaiyun.com/Hearthougan/article/details/75174210贝叶斯公式p(yi|X) = p(X|yi) p(yi) / p(X) = p(yi) p(x1|yi) p(x2|yi) … p(xj|yi) / p(X)P(X):待分类对象自身的概率,可忽...原创 2019-03-12 16:58:47 · 24004 阅读 · 1 评论 -
推荐算法(基于内容CB和协同过滤CF)
引入Item属性的Content Based推荐引入Item属性的CB算法是利用item的特征找到与之相关的其他item列表,这个过程是由正排表 --> 倒排表完成,排序后取TopN推荐给用户。打个比方,例如用户浏览一个音乐网站,该网站具有以下音乐item:itemA,itemB,itemC,itemD,itemE。建立item属性索引表首先对各item的名称进行分词,形成item -...原创 2019-03-20 14:05:26 · 1754 阅读 · 0 评论 -
DBSCAN算法学习笔记及scala实现
一、算法概述 DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法,相比其他的聚类方法,基于密度的聚类方法可以在有噪音的数据中发现各种形状和各种大小的簇。基于密度的聚类是寻找被低密度区域分离的高密度区域,这些高密度区域就是一个一个的簇,这里的密度指的是一个样本原创 2017-11-28 20:41:28 · 6152 阅读 · 20 评论 -
逻辑回归实战(Python批量梯度下降,随机梯度下降,从疝气病症预测病马的死亡率)
打发原创 2019-07-25 17:36:12 · 2759 阅读 · 2 评论