- 博客(64)
- 收藏
- 关注
原创 spark streaming 通过log4j 统一输出日志到kafka
1.log4j 自定义输出到kafka appenderpublic class KafkaLog4jAppender2 extends AppenderSkeleton {private Producer producer = null;private String topic = null;private String brokerList = null;priva
2017-12-24 23:10:49
3473
原创 spark streaming 远程debug
--conf "spark.driver.extraJavaOptions=-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=9999"
2017-12-01 20:27:16
472
原创 maven 脚本
E:\echo "msg..............................."cd E:\workspace_idea\prl\prl-seamsg\src\mainsvn updatecd E:\workspace_idea\prl\prl-seamsgcall E:\Maven\bin\mvn clean call E:\Maven\bin\mvn insta
2017-11-02 23:18:42
436
原创 Spark Streaming Accumulator 并发问题
同一个executor 中 多线使用Accumulator数据不准确,偏少,主要是Accumulator 不支持并发。
2017-11-02 23:13:55
652
原创 使用脚本发送命令到控制台
echo "start job --jid 2" | sqoop2echo "scan 'table_name', {STARTROW=>'aaaa',STOPROW=>'bbbb',COLUMNS => ['f:a','f:b']}" | hbase shell > 1.txt
2017-11-02 23:13:01
1338
原创 安装JDK
下载JDKhttp://www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html拷贝jdk-8u111-linux-x64.tar.gz ==> /optcd /opttar -zxvf jdk-8u111-linux-x64.tar.gz===配置JDK环境变量ec
2017-11-02 23:12:05
164
原创 linux新加一块盘
1.fdisk -l2.fdisk /dev/vdbm->p->n->p(primary partition)->1->enter->enter->w3.格式化mkfs.ext4 /dev/vdb4.mountmkdir /datamount /dev/vdb /data/5.下面的操作以便重启机器也能看到磁盘。blkid /dev/vdb/dev/vdb
2017-10-17 23:01:42
294
原创 CDH安装1(CM安装)
设置HOST======================================================================================================================所有节点centos 6.xecho NETWORKING=yes >> /etc/sysconfig/networkecho HOST
2017-10-17 23:00:32
377
原创 如何让CDH 使用指定JDK
1.自定义安装JDK,并配置环境变量。2.在安装Cloudera Manager时,必须有指定的JDK,一般版本是在http://archive.cloudera.com/cm5/redhat/7/x86_64/cm/5.10.1/RPMS/x86_64/目录下。3.在图形化界面安装CDH时,不选择安装JDK。4.安装成功之后,修改所有主机配置中的Java Home Directory
2017-10-17 22:59:18
7513
原创 sqoop1 脚本示例
start='sqoop import 'oracle_param='--connect jdbc:oracle:thin:@10.10.10.10:1521:ccd --username ccd --password 123456 'comm_param='--fields-terminated-by "\001" -m 1 'comm_cmd=$start$oracle_para
2017-10-17 22:38:51
372
原创 sqoop2 尝试
进入客户端 sqoop2show connectorshow linkshow jobupdate link -lid 5update job -jid 31.create link hdfs linkcreate link --cid 3 Name: hdfsHDFS URI: ->hdfs://CDH1:8020ora
2017-10-17 22:32:37
378
原创 kafka 创建topic
bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 3 --partitions 3 --topic test09527
2017-09-22 23:15:02
1137
原创 hbase 将查询结果写入文件
echo "scan 'tablename', {LIMIT=>1}" | hbase shell > hbaseout1.txt
2017-09-22 23:13:57
3749
1
原创 spark 算子回调函数实现类中使用集合作为实例变量
在spark 算子中分配的空间,回到driver中,不被认可,因为自己分配的空间不是分布式的。比如以下代码中,到Driver中 获取ForeachImpl的map 永远是空map.
2017-09-22 22:15:03
490
原创 INSERT OVERWRITE DIRECTORY,当map 或者reduce 数量不一样多时 不会删除之前的文件,MR执行架构有变化时,
INSERT OVERWRITE DIRECTORY,当map 或者reduce 数量不一样多时 不会删除之前的文件,MR执行架构有变化时,
2017-09-22 22:14:02
1607
原创 netstat -lnt
Active Internet connections (only servers)netstat -lantp|grep 5672|grep 127
2017-09-22 22:13:36
1167
原创 kafka 0.8 0.9 offset 问题
为啥flume1.7那边抽取kafka里面的数据,kafkamanage 里面看不到groupID消费者及groupID、以及offset 管理,都是由客户端API操作的? 我们那边虽然升级了kafka从0.8到0.9,但是客户端还是老的API,将OFFSET维护在ZK中FLUME将OFFSET维护在 _consumer_offsets 这个topic中,而老的kafkamanage
2017-09-22 22:11:15
942
原创 HIVE UDAF 中的map对象及reduce对象(GenericUDAFEvaluator)
同一个reducer在HIVE UDAF中的buffer始终是一个对象,调用顺序是new==>init==>reset==>merge==>merge==>merge==>terminate merge的个数,是有多少个mapper用了同一个key。一次循环处理一个key。reset==>merge==>merge==>merge==>terminatereset==>merge
2017-09-22 22:10:09
804
原创 hbase scan startrow endrow 是否包括
hbase scan scan 'vehicle_mt_data',{STARTROW =>'1006037879829287918765',ENDROW =>'1006037879829287919375'}结果包括STARTROW 本身,不包括ENDROW本身,使用JAVA API 也是一样逻辑。
2017-09-22 22:08:43
12401
原创 ArrayList 与 LinkedList remove方法
如果使用下标操作remove(index),ArrayList明显有优势,尤其下表是在LinkedList中间的时候,头尾效率还差不了太多。如果使用元素操作remove(Object),remove(index),两种List都要遍历后才可以删除,LinkedList优势就很明显了
2017-09-22 22:08:02
2955
原创 linux系统启动了多久
cat /proc/uptime| awk -F. '{run_days=$1 / 86400;run_hour=($1 % 86400)/3600;run_minute=($1 % 3600)/60;run_second=$1 % 60;printf("系统已运行:%d天%d时%d分%d秒",run_days,run_hour,run_minute,run_second)}'
2017-09-22 22:05:38
298
原创 hive 查询结果压缩
set hive.exec.compress.output=true;set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;SnappyCodec
2017-09-22 22:04:11
470
原创 avro 生成java bean
java -jar avro-tools-1.7.7.jar compile schema v0200.avsc .
2017-09-22 22:03:45
675
翻译 G1垃圾回收器
推荐使用 G1 的场景(Recommended Use Cases)G1的首要目标是为需要大量内存的系统提供一个保证GC低延迟的解决方案. 也就是说堆内存在6GB及以上,稳定和可预测的暂停时间小于0.5秒.如果应用程序具有如下的一个或多个特征,那么将垃圾收集器从CMS或ParallelOldGC切换到G1将会大大提升性能.Full GC 次数太频繁或者消耗时间太
2017-09-22 22:02:35
236
原创 spark streaming 从kafka拉数据限速
--conf spark.streaming.kafka.maxRatePerPartition=10000 \单位数据条数
2017-09-22 22:01:44
3916
原创 rdd 操作的回调函数中不允许有其他rdd的操作
RDD transformations and actions can only be invoked by the driver
2017-09-22 22:01:02
934
原创 parquet file compress问题
AvroParquetOutputFormat.setOutputCompressorClass(job, SnappyCodec.class);SnappyCodec.class = org.apache.parquet.hadoop.codec.SnappyCodec 有效,但是查询时一个snappy文件会被多个mapper处理SnappyCodec.class = org.ap
2017-09-22 22:00:13
476
原创 flume 配置插件
插件目录/var/lib/flume-ng/plugins.d plugins.d/plugins.d/k1/plugins.d/k1/lib/xxx.jarplugins.d/k1/libext/plugins.d/k1/native/其中k1 是指 中的sinksa1.sources = s1a1.channels = c1a1.sinks = k1
2017-09-21 22:19:57
508
原创 spark 进程
History Server 上有一个相关进程,启动用户是spark,父进程是cloudera-scm-agent。提交spark程序的机器有一个进程,启动用户是提交程序的用户,这里是hdfs,父进程是1,系统内核进程。线程可以直接看到SparkSubmit相关信息。Executor(Streaming任务) 进程的启动过程:(yarn-cluster模式的Driver 也是同样过程。)
2017-09-21 22:11:32
1632
原创 syntax error near unexpected token `
shell 脚本执行错误:syntax error near unexpected token `很有可能是因为windows 编辑的文件上传到linux的原因。
2017-09-21 22:09:35
749
原创 java程序远程debug
JAVA_OPTS="-Xmx20m -Xdebug -Xrunjdwp:transport=dt_socket,address=7474,server=y,suspend=y"
2017-09-21 22:08:49
381
原创 update 命令
显示系统已经运行了多长时间,它依次显示下列信息:当前时间、系统已经运行了多长时间、目前有多少登陆用户、系统在过去的1分钟、5分钟和15分钟内的平均负载。
2017-09-21 22:07:54
2202
原创 __consumer_offsets topic got
/usr/local/kafka_2.10-0.9.0.1/bin/kafka-run-class.sh kafka.tools.DumpLogSegments --print-data-log --files /root/00000000000000000001.log
2017-09-21 22:06:36
262
原创 hbase 简单的查询过程
hbase region server 的信息都存放在hbase:meta表中,查询时先根据rowkey到该表中找到数据所在的region server,然后到数据所在的region server 上捞出数据。之前版本的这些信息存在ZK、root 表中。scan 'hbase:meta', {COLUMN=>'info:server'} 取出所有regionserver,包括hbase:
2017-09-21 22:03:56
2176
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人