
云计算
文章平均质量分 83
leebhing
这个作者很懒,什么都没留下…
展开
-
Flume-ng
Flume-ng的原理和使用原文 http://blog.javachen.com/2014/07/22/flume-ng.html主要是转载,但是leehbing也进行了一些整理,给网友献上1. 介绍Flume NG是Cloudera提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flum转载 2017-03-19 11:20:19 · 331 阅读 · 0 评论 -
Scala:fold,foldLeft和foldRight区别与联系
从本质上说,fold函数将一种格式的输入数据转化成另外一种格式返回。fold, foldLeft和foldRight这三个函数除了有一点点不同外,做的事情差不多。我将在下文解释它们的共同点并解释它们的不同点。 我将从一个简单的例子开始,用fold计算一系列整型的和。valnumbers =List(5,4,8,6,2)转载 2017-08-23 11:39:43 · 882 阅读 · 0 评论 -
Hbase中内置Filter详解
一、建表1、表名:“ORDER_TABLE”2、列簇:“user”,“order”,“item”3、表结构如下: 二、封装服务服务代码如下:[java] view plain copy@Override public String get(String tableName, Filter转载 2017-08-10 09:23:09 · 2239 阅读 · 0 评论 -
Failed deleting my ephemeral node
Failed deleting my ephemeral node2017-01-05 11:07:39,490 WARN zookeeper.RecoverableZooKeeper: Node /hyperbase1/rs/tw-node1217,60020,1483585655650 already deleted, retry=false2017-01-05 1原创 2017-08-09 09:25:04 · 1498 阅读 · 0 评论 -
ElasticSearch 5.0.0 安装部署常见错误或问题
http://www.dajiangtai.com/community/18136.do?origin=csdn-geek&dt=1214ElasticSearch 5.0.0 安装部署常见错误或问题问题一:[2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to instal转载 2017-07-07 10:09:31 · 1093 阅读 · 0 评论 -
在scala中利用org.json4s 操作json
https://github.com/json4s/json4s/tree/v.3.2.0_scala2.10SON4S At this moment there are at least 6 json libraries for scala, not counting the java json libraries. All these libraries转载 2017-07-05 11:16:18 · 17723 阅读 · 0 评论 -
提交spark streming报错
运行spark streaming报错:LeaseExpiredException): No lease on /user/razor/ssc-chkpoint/cd/temp (inode 105931)解决方法:ps -ef | grep Count #发现有好几个流计算进程(Count为提交的任务名称),全部杀掉,重新spark-submit,ok原创 2017-06-08 11:05:21 · 546 阅读 · 0 评论 -
Spark Master、Worker、Driver、Executor工作流程详解
http://blog.youkuaiyun.com/zhumr/article/details/525185061、Spark的部署图: 在基于standalone的Spark集群,Cluster Manger就是Master。 Master负责分配资源,在集群启动时,Driver向Master申请资源,Worker负责监控自己节点的内存和CPU等状况,并向Master汇报。转载 2017-06-08 10:04:59 · 9448 阅读 · 3 评论 -
spark读取kafka数据 createStream和createDirectStream的区别
1、KafkaUtils.createDstream构造函数为KafkaUtils.createDstream(ssc, [zk],[consumer group id], [per-topic,partitions] ) 使用了receivers来接收数据,利用的是Kafka高层次的消费者api,对于所有的receivers接收到的数据将会保存在Spark executors中,然后通过转载 2017-06-08 10:04:11 · 704 阅读 · 0 评论 -
Spark Yarn-cluster与Yarn-client
http://blog.youkuaiyun.com/BlockheadLS/article/details/533293230 首先注意的概念ResourceManager:是集群所有应用程序的资源管理器,能够管理集群的计算资源并为每个Application分配,它是一个纯粹的调度器。 NodeManager:是每一台slave机器的代理,执行应用程序,并监控应用程序的资源使用情况。转载 2017-05-19 19:41:40 · 371 阅读 · 0 评论 -
java端发送数据给fafka不成功的问题
从网上找了一些producer和consumer的java例子,在producer中发送数据的时候就是进不去kafka,但是控制台并不报错,另外在kafka上直接用kafka-console-producer和kafka-console-consumer命令是有数据的,试了好长时间,最后在maven中把kafka的依赖从版本0.8.0改为0.8.2.0,就可以了,到现在我也没搞懂为啥?知道原因原创 2017-04-14 10:41:21 · 628 阅读 · 1 评论 -
CDH集群报一个DataNode未连接上的错误
之前有一次,启动CDH集群突然报slave03这个DataNode未连接上的错误,直接导致HBase等服务组件出现问题经过排查,一开始,将原来的hosts文件:192.168.1.15 archive.cloudera.com192.168.1.7 slave01192.168.1.11 slave02192.168.1.12 cc.co.com192.168.原创 2017-04-13 16:05:47 · 2023 阅读 · 0 评论 -
sqoop常用命令整理
1、列出mysql数据库中的所有数据库 sqoop list-databases --connect jdbc:mysql://localhost:3306/ -username root -password 0000002、连接mysql并列出数据库中的表sqoop list-tables --connect jdbc:mysql://localhost:3306/test --us原创 2017-03-24 15:18:10 · 6215 阅读 · 0 评论 -
elasticsearch引用jar包与其他jar冲突解决办法
问题提出:官网blog:https://www.elastic.co/blog/to-shade-or-not-to-shade比如你的项目中引用的Joda 2.1,而elasticsearch 2.2.0引用的Joda 2.8,则在使用elasticsearch的时候以为会先找到Joda 2.1,导致elasticsearch用不起来,所以怎么解决呢1.新建一个maven项目进行原创 2017-04-10 16:42:16 · 3953 阅读 · 0 评论 -
jps命令
ps命令是用来显示当前系统的进程情况,有哪些进程,及其 id。jps(Java Virtual Machine Process Status Tool,JAVA_HOME/bin/jps)也是一样,它的作用是显示当前系统的java进程情况,及其id号。我们可以通过它来查看我们到底启动了几个java进程(因为每一个java程序都会独占一个java虚拟机实例),和他们的进程号(为下面几个程序做准备原创 2017-09-18 10:07:49 · 1076 阅读 · 0 评论