- 博客(89)
- 收藏
- 关注
转载 Linux关机命令详解
在linux下一些常用的关机/重启命令有shutdown、halt、reboot、及init,它们都可以达到重启系统的目的,但每个命令的内部工作过程是不同的。 Linux centos重启命令: 1、reboot 2、shutdown -r now 立刻重启(root用户使用) 3、shutdown -r 10 过10分钟自动重启(root用户使用) 4、shutdow
2014-09-25 23:54:51
774
转载 centos 6 图形界面的关闭与开启
http://blog.youkuaiyun.com/tspangle/article/details/18255647用虚拟机来跑的 Centos 6,本本的硬件条件有限,决定关闭图形界面切到root用户下,su rootpassword1, 关闭图形界面:init 3 关闭图形界面(XServer服务也会关闭)2. 开启图
2014-09-25 22:07:10
1941
原创 找工作面试备忘录
Data StructureJava1.Java HashMap的工作原理2.Java应用程序中的内存泄漏及内存管理3.Java垃圾回收精粹Hadoop
2014-04-08 16:54:33
1539
原创 Maven pom.xml
4.0.0 code.jack.hadoop hadoopcode 2.2.0 hadoopcode org.apache.hadoop hadoop-client 2.2.0
2014-03-05 21:04:02
901
原创 GraphX中Pregel单源点最短路径
GraphX中的单源点最短路径例子,使用的是类Pregel的方式。核心部分是三个函数:1.节点处理消息的函数 vprog: (VertexId, VD, A) => VD (节点id,节点属性,消息) => 节点属性2.节点发送消息的函数 sendMsg: EdgeTriplet[VD, ED] => Iterator[(VertexId,A)] (边元组) => Iterato
2014-03-04 21:54:27
7201
1
原创 Spark with Hadoop InputFormat
基于Yarn的,使用新的API,SBT需要添加,默认是用的1.0.4的clientlibraryDependencies += "org.apache.hadoop" % "hadoop-client" % "2.2.0"代码如下package myclassimport org.apache.spark.SparkContextimport org.apache.hadoop.
2014-02-28 10:51:23
6999
原创 SparkTC :Transitive closure on a graph(图中节点的可达性)
思路:1.生成数据(from,to),为初试可达节点对数目(同时也是基本的节点跳转规则)2.对数据需要做一次链接操作,(类似于一次矩阵乘)3.将链接操作的结果提取成(from,to)形式,与当前的可达节点对做并集,得到最新的当前可达节点对数目3.比较当前可达节点对的数量与上一轮节点对数量4.若没有增加,则停止;否则,跳转至2继续执行可能还是比较晕乎乎,看实验数据
2014-02-27 20:50:47
3797
原创 Vmware Workstation 10.0.1 will not compile with kernel 3.13.2-200.fc
解决fedora内核更新后VMware编译不通过下载patch需要代理http://www.spinics.net/lists/fedora-testing/msg120166.html
2014-02-27 19:28:03
1083
原创 KMeans on Spark
思路:1.随机生成数据2.随机生成K个聚类中心3.计算每个点所属的类别4.计算新的聚类中心5.比较聚类中心的变化情况,大于阈值跳转至3;小于阈值停止。package myclassimport java.util.Randomimport org.apache.spark.SparkContextimport SparkContext._import org.ap
2014-02-27 11:33:53
5753
原创 Spark PageRank
如果不考虑出度为0的节点情况,方法很easy,参考官方的code。但是考虑出度为0的节点的时候,会出现各种问题先贴上代码,再说明package myclassimport org.apache.spark.SparkContextimport SparkContext._import scala.collection.mutable.ArrayBufferimport scala.c
2014-02-23 16:23:48
10131
原创 第一个Spark On Yarn程序
环境hadoop 2.2.0 + Scala 2.10.3 + Spark 0.9 + Idea 13单机伪分布式的YarnIdea SBT插件使用:建立SBT项目,然后在Setting中设置SBT autoimport 和 auto 创建目录结构build.sbtname := "WordCount"version := "1.0"scalaVersion :
2014-02-22 14:42:52
13111
转载 Centos Fedora 编译R
首先服务器系统版本为centos5.6,R版本为2.13.2。下面是安装步骤: 1、解压文件:tar –zvxf R-2.13.2.tar.gz 2、进入R源文件目录:cd R-2.13.2 3、执行./configure命令,提示错误信息为“configure: error: No F77 compiler found”,执行命令yum install
2014-02-15 19:30:11
2057
转载 并行逻辑回归
详解并行逻辑回归来源新浪博客| 作者冯扬摘要:Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。这里是:“可能性”而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。编者按:回归其实就是对已知公式的未知参数进行估计,Logistic regre
2014-02-15 11:13:48
2047
转载 Effective Scala
Effective ScalaMarius Eriksen, Twitter Inc.marius@twitter.com (@marius)[translated by hongjiang(@hongjiang)]Table of Contents序言格式化: 空格, 命名, Imports, 花括号, 模式匹配, 注释类型和泛型: 返回类型注解(annotati
2014-02-15 08:48:48
1284
原创 Scala School 笔记(四)--类型和多态基础
Scala有秩1多态性粗略地说,这意味着在Scala中,有一些你想表达的类型概念“过于泛化”以至于编译器无法理解。假设你有一个函数def toList[A](a: A) = List(a)你希望继续泛型地使用它:def foo[A, B](f: A => List[A], b: B) = f(b)这段代码不能编译,因为所有的类型变量只有在调用上下文中才被固定。即
2014-02-14 17:03:00
3653
原创 Scala School 笔记(三)--模式匹配与函数组合
函数组合让我们创建两个函数:scala> def f(s: String) = "f(" + s + ")"f: (String)java.lang.Stringscala> def g(s: String) = "g(" + s + ")"g: (String)java.lang.Stringcomposecompose 组合其他函数形成一个新的函数 f(g
2014-02-14 15:01:46
5823
原创 Scala School 笔记(一)--基础
只记录若干觉得有必要的内容部分应用(Partial application)你可以使用下划线“_”部分应用一个函数,结果将得到另一个函数。Scala使用下划线表示不同上下文中的不同事物,你通常可以把它看作是一个没有命名的神奇通配符。在{ _ + 2 }的上下文中,它代表一个匿名参数。你可以这样使用它:scala> def adder(m: Int, n: Int)
2014-02-14 11:02:58
2267
原创 pro git 学习<二>
Git分支何谓分支在 Git 中提交时,会保存一个提交(commit)对象,它包含一个指向暂存内容快照的指针,作者和相关附属信息,以及一定数量(也可能没有)指向该提交对象直接祖先的指针。Git 中的分支,其实本质上仅仅是个指向 commit 对象的可变指针。Git 会使用 master 作为分支的默认名字。在若干次提交后,你其实已经有了一个指向最后一次提交对象的 m
2014-01-07 21:34:22
797
原创 pro git 学习<一>
配置git config/etc/gitconfig文件:系统中对所有用户都普遍适用的配置。若使用 git config 时用 --system 选项,读写的就是这个文件。~/.gitconfig文件:用户目录下的配置文件只适用于该用户。若使用 git config 时用 --global 选项,读写的就是这个文件。当前项目的 git 目录中的配置文件(也就是工作目录中的 .git
2014-01-06 11:23:47
710
转载 Ubuntu 编译安装 hadoop 2.2.0
本文属于转载,打patch部分是自己遇到的问题转自:http://blog.changecong.com/2013/10/ubuntu-%E7%BC%96%E8%AF%91%E5%AE%89%E8%A3%85-hadoop-2-2-0/编译环境OS: Ubuntu 12.04 64-bithadoop version: 2.2.0Java: Jdk1.7.0
2013-12-11 20:49:33
2889
转载 centos 更改 hostname
1.临时修改主机名显示主机名:zhouhh@zzhh64:~$ hostnamezhh64修改主机名:zhouhh@zzhh64:~$ sudo hostname zzofszhouhh@zzhh64:~$ hostnamezzofs看一下$PS1zhouhh@zzhh64:~$ echo $PS1/[/e]0;/u@/h: /w/a
2013-12-10 09:19:23
776
转载 通过dsh批量管理Linux服务器
目前在企业网络中越来越多的出现Linux服务器,而如何方便高效的管理大量的Linux服务器是系统管理员非常关心的一个问题。现在有大量的开源管理工具,可以实现这样的管理工具,现在给大家介绍一个通过命令行有效地管理大量Linux的工具---dsh。dsh是专为在远程系统上运行Shell命令设计的,通过dsh可以简化对大量计算机的操作。dsh命令语法如下:dsh [-m machinenam
2013-11-29 21:54:08
3837
转载 Linux dsh工具安装
First and foremost, you need to install dsh. The downloads page for the project is a nightmare (http://www.netfort.gr.jp/~dancer/software/downloads/list.cgi), but you basically want the latest versi
2013-11-29 21:48:56
3315
转载 zookeeper 集群安装(单点与分布式成功安装)摘录
http://www.blogjava.net/hello-yun/archive/2012/05/03/377250.htmlZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenan
2013-11-27 22:25:23
889
转载 分布式服务框架 Zookeeper -- 管理分布式环境中的数据
http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/简介Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将从使用者角度详细介绍 Zookeeper
2013-11-27 21:48:19
730
转载 ZooKeeper学习
转自:http://agapple.iteye.com/blog/1111377背景 前段时间看了S4流计算引擎,里面使用到了zookeeper进行集群管理,所以也就花了点时间研究了下zookeeper,不求看懂所有源码,但求了解其实现机制和原理,清楚其基本使用。这也是为后续hadoop,gridgain的分布式计算的产品。学习首先就是收集一些前人的一些学习资料和总结内
2013-11-27 21:26:21
1124
原创 Apache Hama配置
hama-site.xml bsp.master.address 192.168.0.1:40000 The address of the bsp master server. Either the literal string "local" or a host[:port] (where host is a name or IP address
2013-11-27 11:08:29
1594
转载 Shell脚本学习-命令行参数处理
命令行参数处理转自http://blog.chinaunix.net/uid-21505614-id-2173248.html必须要要知道几个变量, * $0 :即命令本身,相当于C/C++中的argv[0] * $1 :第一个参数. * $2, $3, $4 ... :第2、3、4个参数,依次类推。 * $# 参数
2013-11-27 10:57:31
27547
原创 Java技巧
正则表达式 String input = "[1-(2,3)][4-(5,6)]"; Pattern pattern = Pattern.compile("\\[(\\d+)-\\((\\d+),(\\d+)\\)\\]"); Matcher matcher = pattern.matcher(input); while (matc
2013-11-24 19:49:34
798
原创 data-intensive text processing with mapreduce-EM Algorithms for Text Processing
EM Algorithms for Text Processing
2013-11-16 20:21:10
1033
原创 data-intensive text processing with mapreduce-Graph Algorithms
Graph Algorithms
2013-11-16 20:20:31
3142
原创 data-intensive text processing with mapreduce-Inverted Indexing for Text Retrieval
Inverted Indexing for Text Retrieval
2013-11-16 20:19:33
1199
原创 Haoop tricks(自用)
配置core-site.xml fs.default.name hdfs://192.168.0.1:9000 The name of the default file system. Either the literal string "local" or a host:port for NDFS.
2013-11-12 10:25:32
675
原创 data-intensive text processing with mapreduce-MapReduce Algorithm Design
MapReduce Algorithm Designin-mapper combiningMain idea:通过借用Map手动实现聚集,在Mapper中实现Combiner。Example:WordCountReason:1.Hadoop的Combiner机制不管key的分布,都会执行combine,如很多key都只有唯一的value与他对应,则Combi
2013-11-10 21:43:06
1362
转载 Hadoop 二次排序 Secondary Sort
转自:http://blog.youkuaiyun.com/heyutao007/article/details/5890103mr自带的例子中的源码SecondarySort,我重新写了一下,基本没变。这个例子中定义的map和reduce如下,关键是它对输入输出类型的定义:(java泛型编程) public static class Map extends Mapper publ
2013-10-10 00:04:47
5612
1
原创 深入理解java虚拟机
第二章:Java内存区域与内存溢出异常运行时数据区域程序计数器每个线程都需要一个独立的程序计数器,各条线程之间计数器互不影响,为“线程私有”的内存。如果线程正在执行一个Java方法,计数器是正在执行的虚拟机字节码指令的地址;如果是Natvie方法,计数值为空。Java虚拟机栈也是线程私有,生命周期与线程相同。每个方法被执行都会创建一个栈帧用于存储局部变量表、
2013-09-30 16:13:32
988
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人