- 博客(73)
- 资源 (8)
- 收藏
- 关注
转载 隐马尔可夫模型(HMM)攻略
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的例子
2014-07-17 16:49:40
1424
原创 java连接mongodb
直接上代码 java.util.List mongoHostList = new ArrayList(); mongoHostList.add(new ServerAddress("192.168.1.102",27017)); Mongo mg = new Mongo(mongoHostList); DB db = mg.getDB("recommend"); if (!d
2014-07-01 14:39:11
742
转载 线性回归系列(4)-线性回归及梯度下降
本文会讲到:(1)线性回归的定义(2)单变量线性回归(3)cost function:评价线性回归是否拟合训练集的方法(4)梯度下降:解决线性回归的方法之一(5)feature scaling:加快梯度下降执行速度的方法(6)多变量线性回归Linear Regression 注意一句话:多变量线性回归之前必须要Feature Scaling
2014-06-18 15:47:59
1012
原创 线性回归系列(3)-多元线性回归
多元回归分析,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。
2014-06-18 15:39:46
2478
原创 mahout中的相似度
1.PearsonCorrelationSimilarity皮尔逊距离皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。
2014-06-10 15:28:27
1119
原创 SVD奇异值分解(2)-详解
在上一节中知道特征值分解使用条件有限,仅适用于方阵,且要求是实对称矩阵。试想:如果需要分析的矩阵不是方阵(事实经常如此),该怎样处理呢?这就是奇异值分解
2014-06-10 14:42:42
1142
原创 SVD奇异值分解(1)-数学基础
1.奇异值分解(SingularValue Decomposition)是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵酉对角化的推广。
2014-06-10 14:33:19
1438
原创 看example源码学spark系列(5)-ExceptionHandlingTest
运行程序:jpan@jpan-Beijing:~/Software/spark-0.9.1$ ./bin/run-example org.apache.spark.examples.ExceptionHandlingTest spark://jpan-Beijing:7077结果为:
2014-06-04 16:00:23
1550
原创 看example源码学spark系列(4)-DriverSubmissionTest
先运行jpan@jpan-Beijing:~/Software/spark-0.9.1$ ./bin/run-example org.apache.spark.examples.DriverSubmissionTest 3Environment variables containing SPARK_TEST:System properties containing spark.test:
2014-06-04 15:55:42
1066
转载 hadoop2.2+mahout0.9问题
版本:hadoop2.2.0,mahout0.9。使用mahout的org.apache.mahout.cf.taste.hadoop.item.RecommenderJob进行测试。首先说明下,如果使用官网提供的下载hadoop2.2.0以及mahout0.9进行调用mahout的相关算法会报错。一般报错如下:
2014-06-04 14:36:07
947
原创 HashMap , TreeMap , TreeMap 默认排序方式
先看代码package test;import java.util.HashMap;import java.util.LinkedHashMap;import java.util.Map;import java.util.TreeMap;public class Maps { public static void main(String[] args) { Map t
2014-06-04 14:11:40
3568
转载 Bloom Filter概念和原理
Bloom Filter概念和原理焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter
2014-06-04 11:10:44
551
原创 scala编程系列(7)-从文件里读取文本行
直接上代码import scala.io.Sourceif(args.length > 0){ for (line <- Source.fromFile(args(0).getLines) print(line.length + " "+line) } else Console.err.println("Please enter filena
2014-05-30 16:44:37
1076
转载 tomcat java.lang.OutOfMemoryError: GC overhead limit exceeded
Tomcat OutOfMemory问题: java.lang.OutOfMemoryError: GC overhead limit exceeded问题 :Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded问题产生原因:根据 sun 的说法: "if too much time is b
2014-05-30 14:49:25
6920
Apache Hadoop YARN Moving beyond MapReduce and Batch Processing
2014-07-15
Logistic Regression for Data Mining and High-Dimensional Classification
2014-06-20
Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory
2014-06-20
Discretized Streams: An Efficient and Fault-Tolerant Model for Stream Processing
2014-06-20
An Architecture for Fast and General Data Processing on Large Clusters
2014-06-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人