
大数据算法实现
小木偶-嗯嗯
追求在“数据挖掘/自然语言处理”上的卓越,争取挤进小牛的行列,哈哈~~
展开
-
朴素贝叶斯分类算法
转载地址:http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html1、准备知识 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。这个定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下转载 2015-01-08 17:13:57 · 3315 阅读 · 1 评论 -
基于RHadoop的Logistic regression算法
library(rmr2)## @knitr logistic.regression-signaturelogistic.regression = function(input, iterations, dims, alpha){## @knitr logistic.regression-map lr.map = function(., M) {原创 2017-05-18 10:43:53 · 411 阅读 · 0 评论 -
RHadoop协同过滤算法
#####################################################################################################第一步,建立物品的共现矩阵:对用户分组,找到每个用户所选的物品,单独出现计数,及两两一组计数。##################################################原创 2017-05-17 16:03:10 · 508 阅读 · 0 评论 -
scikit-learn使用joblib持久化模型过程中的问题详解
在机器学习过程中,一般用来训练模型的过程比较长,所以我们一般会将训练的模型进行保存(持久化),然后进行评估,预测等等,这样便可以节省大量的时间。在模型持久化过程中,我们使用scikit-learn提供的joblib.dump()方法,但是在使用过程中会出现很多问题。如我们使用如下语句:[python] view plaincopy转载 2015-04-02 08:33:52 · 5919 阅读 · 0 评论 -
用数组模拟链表
1.什么是数组模拟链表: 数组模拟链表是一个什么呢?就是在某索引处存储下一个索引。下面举例说明: 不知道大家明白了没有。如果我上面的数组定义为a[4],那么我访问a[0]时,所获取的就是下一个位置所对应的索引。也就是我要向访问a[0]的下一个节点,那么我只需要访问a[a[0]],这样,就获取了下一个节点处的值。原创 2015-01-24 18:45:55 · 3714 阅读 · 0 评论 -
堆排序算法——Java实现
堆排序1、堆 如图6-1所示,(二叉)堆是一个数组,它可以被看成一个近似的完全二叉树。树上的每一个结点对应数组中的一个元素。除了最底层外,该树是完全充满的,而且是从左向右填充。表示堆的数组A包括两个属性:A.length(通常)给出数组元素的个数,A.heap-size表示有多少个堆元素存储在该数组中。也就是说,虽然A[1..A.length]可能都存有数据,但只有A[1..A.he原创 2015-01-03 13:09:36 · 824 阅读 · 0 评论 -
快速排序——Java实现
快速排序1、快速排序的描述 与归并排序一样,快速排序也使用分治思想。下面是对一个典型的子数组A[p..r]进行快速排序的三步分治过程:分解:数组A[p..r]被划分为两个(可能为空)子数组A[p..q-1]和A[q+1..r],使得A[p..q-1]中的每一个元素都小于等于A[q],而A[q]也小于等于A[q+1..r]中的每个元素/其中,计算下标q也是划分过程的一部分。解原创 2015-01-03 14:45:58 · 809 阅读 · 0 评论 -
分治法编程问题之最接近点对问题的算法分析
转载文章源地址:http://blog.youkuaiyun.com/junerfsoft/article/details/2975495问题描述 在应用中,常用诸如点、圆等简单的几何对象代表现实世界中的实体。在涉及这些几何对象的问题中,常需要了解其邻域中其他几何对象的信息。例如,在空中交通控制问题中,若将飞机作为空间中移动的一个点来看待,则具有最大碰撞危险的2架飞机,就是这个空间中转载 2014-12-24 13:51:19 · 899 阅读 · 0 评论 -
分治归并排序算法——Java实现
1、分治法许多有用的算法在结构上是递归的:为了解决一个给定的问题,算法一次或多次递归地调用其自身以解决紧密相关的若干子问题。这些算法典型地遵循分治法的思想:将原问题分解为几个规模较小但类似于原问题的子问题,递归地求解这些子问题,然后再合并这些子问题的解来建立原问题的解。分治模式在每层递归时都有三个步骤:(1)分解原问题为若干子问题,这些子问题是原问题的规模较小的实例。(2)解决这些原创 2014-12-07 16:45:34 · 5377 阅读 · 0 评论 -
插入排序算法——Java实现
1、原理 首先,介绍插入排序,对于少量元素的排序,它是一个有效的算法。插入排序的工作方式像许多人排序一手扑克牌。开始时,我们的左手为空并且桌子上的牌面向下。然后,我们每次从桌子上拿走一张牌并将它插入左手中正确的位置。为了找到一张牌的正确位置,我们从右到左将它与已在手中的每张牌进行比较。拿在左手上的牌总是排序好的,原来这些是桌子上牌堆中顶部的牌。 对于插入排序,我们将其伪码原创 2014-12-06 19:54:42 · 824 阅读 · 0 评论 -
Mahout 中 kmeans的参数
DistanceMeasure measure :数据点间的距离计算方法,参数可缺,默认是 SquaredEuclidean 算方法提供参数值: ChebyshevDistanceMeasure 切比雪夫距离CosineDistanceMeasure 余弦距离EuclideanDistanceMeasure 欧氏距离MahalanobisDistance转载 2018-01-05 14:19:07 · 380 阅读 · 0 评论