- 博客(40)
- 资源 (1)
- 收藏
- 关注
转载 java.lang.UnsatisfiedLinkError: org.jblas.NativeBlas.dposv(CII[DII[DII)I
Spark documentation clearly mentions that MLLib uses native libraries, which need to be present on the nodes.for debian/ubuntu use: sudo apt-get install jblas libgfortran3
2015-06-23 14:17:23
709
原创 eclipse 打包jar及提交spark执行步骤
1,export对应的源文件。默认finish即可。2,用解压工具包编辑manifest.mf文件。其中Main-Class: com.example.myapp.MyAppMain //执行main主类Class-Path: mail.jar activation.jar //依赖的jar包,集群中要能找到。编辑好之后
2015-06-19 17:45:23
2196
转载 spark对笛卡尔乘积的优化
import org.apache.spark.rdd._ def combs(rdd:RDD[String]):RDD[(String,String)] = { val count = rdd.count if (rdd.count 2) { sc.makeRDD[(String,String)](Seq.empty) } else if (rdd
2015-03-05 17:02:49
4206
转载 海量数据面试题举例
数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。
2014-12-18 15:02:03
388
原创 ubuntu12.04 安装sbt
ubuntu14 手动安装sbt 参见官网配置说明http://www.scala-sbt.org/release/tutorial/Manual-Installation.html 1、下载sbt通用平台压缩包:sbt-0.13.5.tgz http://www.scala-sbt.org/download.html 2、建立目录
2014-11-03 09:58:41
695
原创 数据挖掘面试题
1,请介绍一下SVM,Boosting,LR中任何一个最熟悉的算法的目标函数、优化过程、并行实现、算法收敛性、样本复杂度、适用场景、调参经验。
2014-08-27 14:29:28
654
转载 Spark性能相关参数配置
Spark性能相关参数配置http://spark-config.readthedocs.org/en/latest/随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://spark.apache.org/docs/latest/configuration.html 中提供了这些可配置参数中相当大一部分的说
2014-08-20 09:00:30
719
原创 emacs中集成Python
1. 安装YASnippetYASnippet是一个模板自动生成工具,支持C,C++,C#,perl,python等语言。使用非常简单。安装YASnippet在Emacs24版本以上变得非常容易,只需M-x list-package,之后选择YASnippet并且安装即可。之后在.emacs文件中写入===========================================
2014-08-12 13:26:56
762
转载 转载:机器学习中的相似性度量
在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5.标准化欧氏距离6
2014-08-11 14:37:24
369
转载 转载:微博推荐算法简述
本文来自于:http://www.wbrecom.com/:图就不贴了,有兴趣打开原在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法。有这样一些问题:推荐系统适用哪些场景?用来解决什么问题、具有怎样的价值?效果如何衡量?推荐系统诞生很早,但真正被大家所重视,缘起于以”facebook”为代表的社会化网络的兴起和以“淘宝“为代表的电商的繁荣,”选择“的时代已经来临,信息和物品的
2014-08-11 14:29:01
1556
转载 转载:一步一步教你怎样给Apache Spark贡献代码
到 Apache Spark 的github 页面内点击 fork 按钮你的github帐户中会出现 spark 这个项目本地电脑上, 使用git clone [你的 spark repository 的 github 地址]例如:git clone git@github.com:gchen/spark.git本地得到一个叫 spark 的文件夹4. 进入该文件夹,使用git
2014-08-11 14:06:05
521
原创 ESL-12-svm
之金额library(MASS)x.1 y.1 blue x.2 y.2 orange x.blue x.orange for(i in 1:100) { m x.blue.temp x.blue m.orange
2014-08-04 14:10:49
1017
原创 ESL-chapter6 Kernel Smoother
第一节,一维的核光滑x y #computing the mean value of y NNkernel { d a a return(mean(a[1:k,2]))}#computing every point of yy.NNkernel for(i in x) { temp
2014-07-19 17:23:51
968
原创 ESLchapter5-South African Heart Disease example
先来理解 the element of statistic learning 的公式 5.6
2014-07-17 14:32:06
811
原创 spark矩阵向量-矩阵矩阵相乘
val paramatrix1 = sc.parallelize(List(Vector(2, 2, 4), Vector(3, 2, 1), Vector(1, 3, 2)))
2014-07-17 08:57:30
11587
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人