
spark&sparkr
chenlongzhen_tech
[声明] 此账号不在更新,请关注 http://blog.youkuaiyun.com/tech_chenlongzhen
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
安装yarn下的spark过程记录以及sparkr安装记录
1, spark安装 http://www.bubuko.com/infodetail-650807.html 2.sql安装 http://www.cnblogs.com/liuchangchun/p/4099003.html 3. hive安装 http://www.cnblogs.com/zouzhongfan/p/4309432.html http://www.tuicool.c原创 2015-04-14 21:45:18 · 1113 阅读 · 0 评论 -
Zookeeper 安装和配置
http://coolxing.iteye.com/blog/1871009转载 2015-07-02 10:53:17 · 387 阅读 · 0 评论 -
RDD特性与操作
源码中的解释/** * A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, * partitioned collection of elements that can be operated on in parallel. This class contai原创 2015-06-15 21:01:49 · 691 阅读 · 0 评论 -
spark机制note
抄录自:data progressing with sparkspark主要模块调度与任务分配 spark按照应用,作业,stage,task几个层次分别进行调度,采用了经典的FIFO和FAIR等调度算法. IO 在IO中将数据以块为单位进行管理, 需要处理的块可以 本机内存, 磁盘或者集群的其他机器中.通信控制 通信对于命令和状态的传递极为重要, 通过AKKA进行通信.容错 听过l转载 2015-07-31 11:23:01 · 763 阅读 · 0 评论 -
神经网络笔记
神经网络分类的costFunction与逻辑回归类似, 只是将多分类k个误差加了上去。 要注意的是, 对于θj0\theta_{j0}不用进行正则化,这与逻辑回归的常数项不进行正则化也一样。backpropagation1.前向传播 2.反向传播 通过计算最后一层输出的值与真实的误差,可以逐层反向的推导出各个层的误差,其中激活函数的导数为a(1-a)原创 2015-08-03 11:37:49 · 1246 阅读 · 0 评论 -
RDDAPI详解rdd数据模型及rdd的sql实现
RDD API详解(部分)https://www.zybuluo.com/jewes/note/35032rdd数据模型http://edu.51cto.com/index.php?do=lesson&id=52325 5个元素 1. rdd返回的partition对象集合 2. 数据本地性 driver master 数据本地性 3. 返回依赖关系,只需要关注parents ,简化了模转载 2015-08-02 12:06:06 · 750 阅读 · 0 评论 -
spark1.4下的R
安装R3.1.x http://blog.sina.com.cn/s/blog_6caea8bf0100zfbu.html 运行spark/../R下的root@master R]# ./install-dev.sh安装package R CMD INSTALL --library=$LIB_DIR /usr/spark/R/pkg/启动R并测试library(SparkR)sc <-原创 2015-06-12 17:28:52 · 694 阅读 · 0 评论 -
ipythonnotebook + spark
参考:http://blog.jobbole.com/86232/测试sparkpython在sparkhome下run-tests测试在Spark中使用IPython Notebook当搜索有用的Spark小技巧时,我发现了一些文章提到在PySpark中配置IPython notebook。IPython notebook对数据科学家来说是个交互地呈现科学和理论工作的必备工具,它集成了文本和Pyt转载 2015-11-20 09:51:21 · 5201 阅读 · 0 评论 -
coursera scala week one
http://blog.youkuaiyun.com/unhappypeople/article/details/17199951杨辉三角 def pascal(c:Int,r:Int): Int ={ if (c == 0 || c == r|| r==0) 1 else pascal(c-1,r-1) + pascal(c,r-1) }括号平衡def balance(原创 2016-03-20 14:56:50 · 526 阅读 · 0 评论 -
Task not serializable
# Task not serializable 问题出现 查阅google返现是不能将rdd的map放在另外一个class中, 而这个class不能序列化 网址: http://stackoverflow.com/questions/29295838/org-apache-spark-sparkexception-task-not-serializable 我的办法是: 将此类中map原创 2016-03-08 21:28:37 · 754 阅读 · 0 评论 -
scala 删除hdfs文件demo
def delete(master:String,path:String): Unit ={ println("Begin delete!--" + master+path) val output = new org.apache.hadoop.fs.Path(master+path) val hdfs = org.apache.hadoop.fs.FileSys原创 2016-03-11 10:19:05 · 4746 阅读 · 0 评论 -
spark.driver.maxResultSize || java.lang.OutOfMemoryError
16/03/11 12:05:56 ERROR TaskSetManager: Total size of serialized results of 4 tasks (1800.7 MB) is bigger than spark.driver.maxResultSize (1024.0 MB) java.lang.OutOfMemoryError: Direct buffer memory.s原创 2016-03-11 16:46:05 · 3308 阅读 · 0 评论 -
scala中的递归和currying
以 f(a) a=1,2,3…n求和为例。 1. 线性递归def sumFactorials(f:Int=>Int,a:Int,b:Int):Int={ if (a >b) 0 else f(a) + sumFactorials(f,a+1,b) }2.尾递归 def sumFacorials(f:Int=>Int,a:Int,b:Int):Int={ def loo原创 2016-03-13 20:42:02 · 797 阅读 · 0 评论 -
单机安装kafka
http://www.cnblogs.com/davidwang456/p/4238536.html 1.先安装zookeeper,并启动[root@localhost zookeeper-3.3.6]# bin/zkServer.sh startJMX enabled by defaultUsing config: /usr/zookeeper-3.3.6/bin/../conf/zoo.c原创 2015-07-02 11:41:43 · 1965 阅读 · 0 评论 -
spark调优
http://rdc.taobao.org/?p=533本文主要分享一下我们之前在开发Softmax Regression算法中的一些性能调优的经验(主要是基于0.6.1版本)。调优经验应该说,Spark开发中,具体采用什么调优方法去优化性能,需要根据具体算法和实现而定,适合我们这个问题的方法不一定就适合其他问题,但希望我们的经验可以让其他人少踩点坑,更多的调优方法还可以参考官方文档中的 Co转载 2015-07-02 21:03:06 · 482 阅读 · 0 评论 -
scala练习2
//2.1 一个数字如果为正数,则它的signum为1;如果是负数,则signum为-1;如果为0,则signum为0.编写一个函数来计算这个值def signum(num:Int): Int ={ if (num > 0){ 1 }else if(num < 0){ -1 }else{ 0 }}val a = signum(-1)print(a)//a原创 2015-05-26 09:50:26 · 700 阅读 · 0 评论 -
安装hadoop2.6.0参考的资料以及问题解决
Hadoop2.6单机安装 Hadoop配置常见Log错误指导 例子运行错误解决办法 Problem: Storage directory not exist2010-02-09 21:37:49,890 INFO org.apache.hadoop.hdfs.server.namenode.NameNode: STARTUP_MSG: /************************原创 2015-04-13 23:23:27 · 616 阅读 · 0 评论 -
loadLibSVMFile 源码
/** * Loads labeled data in the LIBSVM format into an RDD[LabeledPoint]. * The LIBSVM format is a text-based format used by LIBSVM and LIBLINEAR. * Each line represents a labeled sparse featur原创 2015-06-17 17:15:06 · 2690 阅读 · 0 评论 -
mllib svm分类
1 doc代码http://spark.apache.org/docs/latest/mllib-linear-methods.htmlimport org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD}import org.apache.spark.mllib.evaluation.BinaryClassificationMetr原创 2015-06-17 15:14:30 · 1225 阅读 · 0 评论 -
sparkshell里的wordcount
val rdd =sc.textFile("hdfs://localhost.localdomain:9000/input/test")rdd.countval wordcount = rdd.flatMap(_.split(' ')).map((_,1)).reduceByKey(_+_) wordcount.collect #keypaixu wordcount.sortByKey(f原创 2015-06-01 10:51:48 · 576 阅读 · 0 评论 -
rdd
三大特性 1. 分区 partitioned split 2. 计算 compute 3. 依赖 窄依赖和宽依赖rdd可以缓存cache rdd可以自动容灾,可恢复A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable , partitioned collec原创 2015-06-01 13:34:28 · 638 阅读 · 1 评论 -
spark学习1
2.1知识点基础0 java se linux 1 hdfs 文件系统 2 YARN node sourcemanager 3 scala 高阶函数 类的对象hadoop2的生态系统Hdfs和yarn mapreduce是hadoop的核心. hbase很重要 nosql Spark内存计算 处理框架 yarn上运行 strom流计算 Hive用的广,#什么是spark原创 2015-06-02 22:48:15 · 848 阅读 · 0 评论 -
spark1
?sparkApache Saprk is anopen source cluster computing system that aims to make data analytics fast – both fast to run and fast to write.处理含量数据处理速度快通用 MLlib, sql,stream , graghxBDAShadoop spark对比回顾h原创 2015-05-19 20:13:18 · 725 阅读 · 0 评论 -
在集群运行spark代码记录程序
p150-156package com.spark.firstAppimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.SparkContext._/** * Created by root on 6/4/15. */object HelloSpark { def main(args: Ar原创 2015-06-04 23:56:53 · 797 阅读 · 0 评论 -
spark学习2 编译的
sbt方式编译Maven编译打包方式编译make-distribution用maven编译spark1.3.1官方编译文档装maventar -zxf apache-maven-3.0.5-bin.tar.gzmaven的默认工作目录为cd ~/.m2配置环境变量vim ~/.bashrcexport MAVEN_HOME=/usr/mavenexport PATH=$PATH:$MAV原创 2015-05-29 10:20:12 · 560 阅读 · 0 评论 -
搜狗日志处理程序
找到搜索结果和点击结果=1的记录条数 val rdd = sc.textFile("hdfs://localhost:9000/input/SogouQ.sample")rdd.map(_.split("\t")(3)).map(_.split(' ')).filter(_(0).toInt == 1).filter(_(1).toInt == 1).count#原创 2015-06-07 11:25:38 · 455 阅读 · 0 评论 -
spark学习3 standalone下的 env和default的配置
1:下载 https://www.kernel.org/pub/software/scm/git/git-2.4.2.tar.gz2:tar zxf git-1.9.4.tar.gz3:执行./configure4:make5:make install这个步骤需要root用户执行6:查看git[html] view plaincopy在CODE上查看代码片派生到我的代码片[jifeng@ji原创 2015-06-01 10:08:51 · 1766 阅读 · 0 评论 -
RJDBC读取HIVE
这不是sc <- TranswarpR.init("kmeans", "GreedyHeterogeneousMode", "1", "0.2")sql<- "select p1,p2,p3 from powerloaddata.powerdata limit 10"sqlrdd<-txSql2RDD(sc,query=sql,minnum=100,sep=" ")txKmeans(sqlr原创 2015-06-29 17:06:29 · 2637 阅读 · 1 评论 -
spark学习4 yarn运行
配置spark-envHADOOP_CONF_DIR=/usr/hadoop/etc/hadoop/yarn运行spark包yarn-cluster \ 集群模式 yarn-client \ 客户端 虚拟机 内存不要设置太大 要不会出错 还有队列没搞懂怎么设置./bin/spark-submit --class org.apache.spark.examples.SparkPi \原创 2015-06-09 21:41:43 · 431 阅读 · 0 评论 -
spark学习逻辑回归
wget http://www-stat.stanford.edu/~tibs/ElemStatLearn/datasets/spam.dataval inFile = sc.textFile("./spam.data")//将数据在每个机器上都有备份//import org.apache.spark.SparkFiles//val file = sc.addFile("spam.data")原创 2015-05-25 15:26:42 · 1761 阅读 · 0 评论 -
框架
目前个人的构思如下:(红色部分未实现,或有问题) 将ml框架分为: 1. getdata 2 featureEngineering 3. train and evaluation 4 push para 这几个模块. 其中,在进行实验时可能对feature进行不同的feature进行不同的个性化的处理验证效果好坏, 例如: 网址:www.baidu.com 要改为 分类型标签 如是百度设为1原创 2016-03-15 14:06:15 · 532 阅读 · 0 评论