- 博客(45)
- 资源 (11)
- 收藏
- 关注
转载 上传非结构化数据到HBase
import java.util.List;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.nio.ByteBuffer;import java.util.ArrayList;imp
2017-07-27 15:24:53
812
原创 kylin和superset整合
版本信息kylin版本1.6,supersert版本0.18.5supersert不支持直接使用kylin的数据,有人写了pykylin来完成他们的连接,所以先要安装pykylin1、安装superset,kylin,这部分有其他的文章有信息讲2、安装pykylin, https://github.com/wxiang7/pykylin git下载源码
2017-07-21 12:05:54
3183
转载 mysql-maxwell binlog订阅
原文地址:http://maxwells-daemon.io/quickstart/测试经过和结果:1、mysql安装略过2、配置mysql,并开启bin_log# vi /etc/my.cnf[mysqld]server-id=1log-bin=masterbinlog_format=row**需要重
2017-03-24 10:27:20
3307
1
原创 kerberos安装
kerberos安装:http://www.cnblogs.com/xiaodf/p/5968178.html1.配置hosts2.选择一台机器安装kdcyum install krb5-server krb5-libs krb5-auth-dialog3.配置kdc.conf[kdcdefaults]kdc_ports = 88kd
2017-03-16 15:30:54
1548
原创 superset 安装部署
源码部署 http://airbnb.io/superset/installation.html安装Python环境依赖sudo yum upgrade python-setuptoolssudo yum install gcc libffi-devel python-devel python-pip python-wheel openssl-devel libsas
2017-01-20 09:39:04
5801
原创 hadoop复制因子 单独设置
1、 Hadoop 可以通过 dfs.replication来设置 复制因子数量2、可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1 -put 1.txt /tmp/3、可以通过命令来更改已经上传的文件的副本数: hadoop fs -setrep -R 1 /tmp ,把/tmp目录下的文件复制因子设置成1个4、关于
2016-12-09 10:12:55
2819
原创 hue sentry界面配置步骤
一、sentry CDH配置1、hive的配置绕过 Sentry 授权用户sentry.metastore.service.users 要修改元数据表的用户要配置到这个里面,如下面的biadmin2、impala配置二、 Sentry授权1、在l
2016-11-11 14:13:36
3753
原创 kafka low levle实例
package com.ymm.KafkaConsumLog;import kafka.api.FetchRequest;import kafka.api.FetchRequestBuilder;import kafka.api.PartitionOffsetRequestInfo;import kafka.common.ErrorMapping;import kafk
2016-09-30 17:29:29
470
原创 SVM实例
import org.apache.spark.SparkContextimport org.apache.spark.mllib.classification.SVMWithSGDimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.linalg.Vectorsval
2016-09-08 16:31:32
660
转载 hbase命令 写数据到hbase表
hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator=$(echo -e '\t') -Dimporttsv.columns=HBASE_ROW_KEY,sf:docket,sf:courtname,sf:personnamelist,sf:companyname LengJingSearchSF /use
2016-08-30 18:29:45
661
原创 CDH key value index lily安装配置
Key-Value Store Indexer这个组件非常关键,是Hbase到Solr生成索引的中间工具。Lily HBase Indexer是一款灵活的、可扩展的、高容错的、事务性的,并且近实时的处理HBase列索引数据的分布式服务软件。它是NGDATA公司开发的Lily系统的一部分,已开放源代码。Lily HBase Indexer使用SolrCloud来存储HBase
2016-08-05 16:00:52
2076
原创 Hadoop集群磁盘数据迁移
背景由于历史原因,CDH的hadoop的每个datanode节点有3个数据磁盘,每个磁盘的大小不一样data 500Gdata1 2Tdata2 2T由于阿里云的根目录很小,只有20G,所以MR的中间文件,日志等只能跟数据盘共用。然后,Hadoop在写入数据的时候,会先写满一个磁盘再写其他磁盘,这样某个磁盘满了,就不能在写入日志和中间文件,导致无法进行MR,
2016-07-14 17:06:20
3567
原创 yarn node manager启动失败
/data/lib/hadoop-yarnmv yarn-nm-recovery /tmp/20160225bak Application application_1456459092764_0002 failed 2 times due to AM Container for appattempt_1456459092764_0002_000002 e
2016-07-14 17:02:10
2050
原创 sqoop常见问题
sqoop导入mysql的tinyInt(1)字段,会自动转化成boolean。解决办法是在jdbc连接中加上tinyInt1isBit=falsesqoop导入parquet全量数据时,spark sql 无法识别
2016-07-14 17:01:31
590
原创 Spark SQL的常见问题
问题:spark sql执行生成的数据文件为大量的小文件。原因:spark sql目前版本不支持小文件的合并。临时解决方案:spark sq生成数据后,使用hive进行select 和 insert overwrite操作。
2016-07-14 16:58:54
1033
原创 HiveServer2的常见问题
在使用hiveserver2查询时(比如HUE,或者beeline连10000端口),会遇到这样的问题,where语句后如果使用了between,则between的两个值必须不一样,否则在hiveserver2中是查不出数据的,如果值一样的时候,直接用“=”。例如: where date between 20160425 and 20160425 (hiveserver2 not OK,
2016-07-14 16:56:01
2369
原创 CDH问题汇总
问题1:在主节点初始化 CM5的数据库报错:ld-linux.so.2 bad ELF interpreter解决:安装 glibc 和 glibc.i686 问题2:报错:ProtocolError: 解决:$> ps -ef | grep supervisord$> kill -9 /opt/cm-5.6.0/etc/init.d/cloudera-sc
2016-07-14 16:54:39
1683
原创 kafka常见问题
1、java消费者不能消费数据--------版本不匹配问题 工程代码引用的kafka jar包的版本,要与线上安装包的版本一致。否则会出现消费者消费不到数据的问题
2016-07-14 16:52:40
727
原创 Impala问题汇总
1、时区问题:默认impala配置不是中国的时区,所以在用from_unixtime的时候,有误差。解决方案:impala启动时加 -use_local_tz_for_unix_timestamp_conversions=true在cdh里面,impala->配置->mpala Daemo ->Impala Daemon 命令行参数高级配置代码段(安全阀) 加 -us
2016-07-14 16:51:52
4150
1
原创 sentry配置
官方文档:http://www.cloudera.com/documentation/enterprise/5-4-x/topics/sg_policy_cm_config.html#concept_nt1_c1z_zp_unique_11.开启testing.mode(否则需要先配好Kerberos )cm中hive的配置->sentry-site.xml添加 :sentry
2016-07-04 15:55:56
1886
原创 scala 执行 hive,hadoop,mysql等命令
import java.sql.{DriverManager, Connection, ResultSet}import scala.sys.process.Processobject Test2 { def main(args: Array[String]) { print(execute()) } def execute(): Int = { var seq=Seq("
2016-07-04 15:49:17
1644
原创 spark安装文档
1.安装JDK一定要安装1.7以上版本,在master,slave上都要安装2.安装scala 2.11.7 3.安装spark下载预编译版本spark-1.4.1-bin-hadoop2.6 4.配置文件 spark-env.sh文件:############export SCALA_HOME=/usr/lib/sc
2016-05-09 10:13:31
392
原创 CDH安装配置LDAP
安装OpenLDAP安装机器:slave-041 安装openldapyum install -y openldap openldap-servers openldap-clients2 修改配置文件 cp /usr/share/openldap-servers/slapd.conf.obsolete /etc/openldap/slapd.conf cp
2016-05-09 10:09:51
2975
原创 阿里调度系统zeus 安装使用
注意:原始代码只支持centos6操作系统, 如果是centos7操作系统,需修改MemUseRateJob类的 run() 方法1、安装jdk1.7 注意,zeus不支持jdk1.82、在部署服务器安装dos2unix 命令 yum install dos2unix3、安装tomcat,我用的是tomcat74、在worker机器上添加biadmin用户修...
2016-05-09 10:02:08
11044
1
转载 ganglia安装
一、监控节点需要安装的软件:GangliaGanglia-webPhpApache二 、被监控节点需要安装的软件:Ganglia三、下载软件ganglia-3.6.0.tar.gz http://jaist.dl.sourceforge.net/project/ganglia/ganglia%20monitoring%20core/3.6.0/gangl
2016-03-03 10:21:20
541
原创 kafka监控Kafka Offset Monitor
1、下载kafka-offset-console jar包 https://github.com/quantifind/KafkaOffsetMonitor2、建 vi mobile_start_en.sh#!/bin/bashjava -cp KafkaOffsetMonitor-assembly-0.2.0.jar com.quantifind.kafka.of
2016-03-03 10:20:28
1272
转载 CDH安装文档
参考文档:http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/topics/cm_ig_install_path_b.html#concept_qwc_xcc_yr_unique_11、卸载openjdk先查看 rpm -qa | grep java显示如下信息:java-1.4.2-g
2016-02-17 14:25:46
440
原创 kafka监控
一、linux手动安装sbt过程1、下载sbt通用平台压缩包http://www.scala-sbt.org/download.html2、解压文件tar zxvf sbt-0.13.5.tgz -C /opt/scala/3、建立启动sbt的脚本文件cd /opt/scala/sbt/vim sbt在sbt文本文件中添加 BT_OPTS="-Xms51
2016-02-16 15:08:30
575
原创 Storm搭建
1、前期准备# yum install libtool# yum install gcc# yum install gcc-c++# yum install makeyum install uuid-devel# yum install libuuid-devel2、安装zeromq 2.1.4http://download.zeromq.org/tar
2016-02-01 16:42:24
305
原创 mongdb java 实例
1、pox.xml org.mongodb mongo-java-driver 3.2.0 2、java代码public class TestMongo { public static void main(String[] args) { MongoClientURI uri = new MongoClie
2016-01-18 17:07:38
482
转载 canal部署与实例运行
1、安装包下载 https://github.com/alibaba/canal/releases2、部署canal-server(1)开启mysql的binlog功能,并配置binlog模式为row。在my.cnf 加入如下:log-bin=mysql-bin #添加这一行就ok binlog-format=ROW #选择row模式 server_id=1 #
2016-01-18 17:02:39
4309
原创 eclipse scala工程
eclipse版本4.4,scala版本2.11help->install new software 安装。add 输入网址:http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site
2015-09-29 10:46:50
450
转载 kafka+storm整合 java示例
一、flume和kafka整合请参照 http://blog.youkuaiyun.com/huguoping830623/article/details/48138319二、示例package com.hgp.kafka.kafka;import java.util.Arrays;import java.util.HashMap;import java.util.Iterator;
2015-09-18 11:56:56
10175
原创 flume读取日志数据写入kafka
一、flume配置flume要求1.6以上版本flume-conf.properties文件配置内容,sinks的输出作为kafka的producta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = execa1.sources.r
2015-08-31 19:13:38
11257
原创 hive远程debug
1、编译hive的源代码(mvn eclipse:eclipse),把编译后的工程导入eclipse2、启动hive,命令hive --debug 。[root@hadoop2 ~]# hive --debugListening for transport dt_socket at address: 80003、在eclipse里面,打开Debug Configurations
2015-08-19 18:10:58
1115
转载 相似度算法
1、欧几里得距离2、皮尔逊相关系数3、基于夹角余弦计算相似度4、基于Tanimoto系数计算相似度5、近邻相似度算法1)固定数量的邻居:K-neighborhoods2)基于相似度门槛的邻居:Threshold-based neighborhoods
2015-05-25 10:09:39
689
原创 hadoop源码远程debug
1、$HADOOP_HOME/etc/hadoop/hadoop-env.sh文件的最后添加你想debug的进程#远程调试namenodeexport HADOOP_NAMENODE_OPTS="-agentlib:jdwp=transport=dt_socket,address=8888,server=y,suspend=y"#远程调试datanodeexport
2015-05-04 18:15:59
765
转载 protobuf-2.5.0.tar.gz的下载与安装
1.下载 hadoop使用protocol buffer进行通信,需要下载和安装 protobuf-2.5.0.tar.gz。由于 现在 protobuf-2.5.0.tar.gz已经无法在官网 https://code.google.com/p/protobuf/downloads/list中 下载了,本人将 protobuf-2.5.0.tar.gz上传到百度云盘供大家下载,地址
2015-05-04 16:29:46
31178
1
原创 hive 自定义UDF,hive编译
要自定一个hive的函数,步骤如下1、写一个java类 要继承org.apache.hadoop.hive.ql.exec.UDF类实现evaluate 下面是一个替换字符串的函数,因为函数以后实在hadoop上运行,所以数据类型是hadoop的数据类型引入的jar包:hive的所有jar 和 hadoop的hadoop-common-2.5.2.jar package h
2015-04-30 11:43:43
881
百度地图MarkerClusterer卡顿问题
2018-08-06
自动登录开心网,并给好友发信息
2013-01-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人