- 博客(54)
- 资源 (22)
- 收藏
- 关注
原创 试用Hive on Spark
试用Hive on SparkHive-1.2.0发布已经有几天了,下载后发现hive.execution.engine新增了spark选项,于是配置spark环境,试用Hive on Spark
2015-06-03 23:09:10
3318
原创 在IntelliJ 启动Spark的Master和Work
为了阅读Spark阅读源码方便,可以直接在IntelliJ 启动Master和Work,方便debug,下面介绍方法:修改pom.xml 修改pom.xml中com.google.guava的scope,如下图: 启动master 右键Run ‘Master.main()’启动work 启动work需要传入mater URL,如下图 启动后master如下图:
2015-05-16 22:17:23
5807
原创 Java VisualVM 监控远程Java程序运行情况
VisualVM 是一款免费的性能分析工具。它通过 jvmstat、JMX、SA(Serviceability Agent)以及 Attach API 等多种方式从程序运行时获得实时数据,从而进行动态的性能分析。同时,它能自动选择更快更轻量级的技术尽量减少性能分析对应用程序造成的影响,提高性能分析的精读,下面是查看远程JVM运行情况在远程机器新建 jstatd.all.po
2015-05-15 20:08:55
897
原创 编译Spark源码
编译spark源码时可能会报下面这个错误,uncaught exception during compilation: java.lang.StackOverflowError需要设置maven参数export MAVEN_OPTS="-Xmx1024M -Xms1024M -Xss1M -XX:MaxPermSize=512m -XX:ReservedCodeCacheS
2015-05-14 23:46:47
1221
转载 Scala Multiple Installation Support
This page contains information to help you configure Eclipse and Scala IDE, to increase performances and ease-of-use.Scala Multiple Installation SupportScala IDE now supports projects set up
2015-04-12 19:12:11
1388
原创 Spark应用连接HBase报NullPointerException
Spark应用没有问题,但是提交以后一直报NullPointerException, 请仔细检查jar包,我的spark应用要连接HBase-0.98,但是classpath有HBase-0.94和protobuf-java-2.4.0a.jar的jar包报错信息如下:Exception in thread "main" java.lang.NullPointerException
2015-03-30 16:50:27
3639
原创 CentOS编译OpenJDK
在编译JDK7之前,安装一个JDK6版本,因为有一些JAVA文件需要编译;配置更新源,yum -y groupinstall 'base',yum -y install make;安装软件包,yum -y install alsa-lib-devel cups-devel libXi-devel gcc gcc-c++ freetype ld-linux.so.2 ant* libX*配置环境变量
2015-01-18 23:31:17
2061
原创 Kafka和Spark Streaming Java版本集成并将数据实时写入HBase
Kafka和Spark Streaming Java版本集成并将数据实时写入HBasemvn配置pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://mave
2015-01-17 00:52:45
13701
原创 GoldenGate 异常
Error occured in javawriter.c[269]: Error occurred (Java exception): UEDataSource.createOperation: com.goldengate.atg.datasource.InvalidTransactionState: A new operation was received without firs
2015-01-09 20:03:32
1655
原创 ./ggsci: error while loading shared libraries: libnnz11.so
启动ggsci是报./ggsci: error while loading shared libraries: libnnz11.so需要增加如下内容到~/.bashrcORACLE_BASE=/opt/oracle/ORACLE_HOME=$ORACLE_BASE/product/11.2.0/dbhome_1export LD_LIBRARY_PATH=$ORACLE_
2014-12-17 23:53:13
1919
转载 The Data Scientist Guide with Links
FrameworksApache Hadoopframework for distributed processing. Integrates MapReduce (parallel processing), YARN (job scheduling) and HDFS (distributed file system) Apache HadoopD
2014-12-13 16:37:47
4691
转载 Phoenix常见问题解答
I want to get started. Is there a Phoenix Hello World?Is there a way to bulk load in Phoenix?How I map Phoenix table to an existing HBase table?Are there any tips for optimizing Phoenix?How do
2014-12-12 23:15:39
3747
转载 Phoenix 4.x HBase 0.98.1安装
1. 下载phoenix-4.0.0-incubating.tar.gz1wget http://mirror.bit.edu.cn/apache/incubator/phoenix/phoenix-4.0.0-incubating/bin/phoenix-4.0.0-incubating.tar.gz2. 解压phoenix-4
2014-12-12 20:37:41
3005
原创 sqoop
import java.nio.CharBuffer;import java.util.ArrayList;import java.util.List;public class Test2 { // private enum ParseState { // FIELD_START, ENCLOSED_FIELD, UNENCLOSED_FIELD, ENCL
2014-11-28 16:02:42
929
原创 Hive数据导入HBase
在Hive创建数据保存在HBase的表方式,这种方法的特点是简单,但是数据量超过千万以后 ,数据偏移现象比较明显,效率不高在定义Hive的UDF,将数据写入HBase,如果提前将HBase表的regen分好,这种直接put的方法效率还行直接用MapReduce生成Hfile,然后导入HBase,这种方法的特点是程序步奏很多,但是效率高,每分钟轻松能到3000万数据
2014-11-22 10:20:17
10051
原创 Flume和HBase-0.98集成时报NoSuchMethodError
java.lang.NoSuchMethodError: org.apache.hadoop.hbase.client.Increment.setWriteToWAL(Z)Lorg/apache/hadoop/hbase/client/Increment; at org.apache.flume.sink.hbase.HBaseSink$4.run(HBaseSink.java:4
2014-11-22 10:12:30
1341
原创 sqoop推数
#! /bin/shparallel_count=16mapred_job_queue_name=queue02#sqlserver prddata_db_url="jdbc:sqlserver://CNSH020623:1433;DatabaseName=TCIMS"data_db_username=Tcimsdata_db_password=Paic4321
2014-10-24 08:48:02
863
原创 Oozie build failure Cannot lock storage build/test/data/dfs/name1. The directory is already locked
运行oozie是遇到的问题,如下
2014-10-23 07:25:25
1012
原创 java.lang.IllegalAccessError: com/google/protobuf/HBaseZeroCopyByteString
14/08/30 19:52:37 INFO zookeeper.ClientCnxn: Socket connection established to n3.example.com/192.168.137.103:2181, initiating session14/08/30 19:52:37 INFO zookeeper.ClientCnxn: Session establishmen
2014-08-30 21:35:01
3395
原创 替换工程shell
替换工程文件#!/bin/bashif [ $# -ne 2 ] ;then echo "please enter an old project name and a new project name!"else old_name=$1 new_name=$2 len=$(expr length "${new_name}") let "len =
2014-07-25 14:51:15
662
原创 hadoop2.x HA配置
1. 安装zookeeper 1. 解压缩tar -zxf zookeeper-3.4.5.tar.gz2. conf目录下修改文件名zoo_sample.cfg 改为 zoo.cfg # mv zoo_sample.cfgzoo.cfg3. 修改成如下内容即可(每个主机的这个配置文件一样)dataDir=/export/cra
2014-07-18 23:32:37
1126
原创 Hive 通过shell动态生成SQL
在Hive生成文件通过kettle往关系型数据库导数据时,Hive默认将null转为\n,kettle读取文件并导入数据库时会出现问题,本来在hive中是null,在数据库中变成\n,特别是数字类型,\n会提示类型不能转换,直接报错,想到hive的集群处理能力,所以在hive端先将数据处理好。如果每个表每个字段处理太麻烦,下面这个脚本传入表名,生成select语句直接供hive查询。
2014-07-16 17:07:10
3118
转载 CentOS: 让普通用户控制网络接口
普通用户一般不需要去开关网络接口, 特殊情况下,需要普通用户拥有这一权力,例如ppp/vpn之类的,例如我们需要用户能开启关闭一个网络接口eth0需要编辑/etc/sysconfig/network-scripts/ifcfg-eth0设置USERCTL为yes, 普通用户即可用 ifup eth0 / ifdown eth0 来开关网络接口原理:普
2014-06-29 20:43:45
1945
原创 hive udf debug
1) 以debug模式启动Cli,${HIVE_HOME}/bin/hive --debug。进程会监听在8000端口等待调试连接。如果想更改监听端口,可以修改配置文件:${HIVE_HOME}bin/ext/debug.sh 。2) 在Eclipse中, 选择Debug configurations->Remote Java Application,填好Host和Po
2014-05-04 16:08:09
2848
转载 hive优化之------控制hive任务中的map数和reduce数
转载自:http://www.dataguru.cn/article-3269-1.html一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.
2014-02-20 10:56:33
753
转载 MapReduce生成HFile入库到HBase
原文参考:http://shitouer.cn/2013/02/hbase-hfile-bulk-load/可能需要依赖一写jar包,在这里下载:http://download.youkuaiyun.com/detail/q79969786/6933683主要做了如下修改:package com.upa.hbase;import java.io.IOException;im
2014-02-18 16:31:36
2241
原创 谈一谈ORCFile
从hive-0.11.0开始,有了ORCFile,下面是我的测试结果,测试用的是hive-0.12.0压缩很明显,默认使用ZLIB压缩很慢,只有一个map,改用SNAPPY后速度不错,压缩的也不错,就是目前还有bug,比如https://issues.apache.org/jira/browse/HIVE-5568参考资源:http://hortonworks.co
2013-11-21 16:46:37
4204
原创 ubuntu12.04全局代理
gsettings set org.gnome.system.proxy.socks host '127.0.0.1'gsettings set org.gnome.system.proxy.socks port 8087gsettings set org.gnome.system.proxy mode 'manual'# gsettings set org.gnome.syste
2013-11-03 08:06:36
1231
转载 Hive优化
Hive优化hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数1. 本地模式
2013-11-01 13:42:33
746
原创 hadoop的stop-all无效解决
在hadoop-env.sh中找到export HADOOP_PID_DIR=/var/hadoop/pids,如果是默认的在/tmp目录分别在每台主机上通过jps找到PID,修改HADOOP_PID_DIR中的PID例如jps:5367 RunJar790 NameNode942 RunJar325 RunJar1190 JobTracker4208 RunJar32
2013-09-17 09:58:46
1694
原创 Missing artifact com.sun:tools:jar:1.5.0:system 解决方法
使用maven是有时候会有 Missing artifact com.sun:tools:jar:1.5.0:system错误提示需要在依赖中加入 com.sun tools 1.5.0 system ${JAVA_HOME}\lib\tools.jar
2013-09-05 22:43:04
945
原创 导入Hive数据导MySQL
导入Hive数据到MySQL1. UDF使用UDF比较方便,代码在http://svn.apache.org/repos/asf/hive/trunk/contrib/src/java/org/apache/hadoop/hive/contrib/genericudf/example/GenericUDFDBOutput.javaCREATE TEMPORARY FUNCTION db
2013-08-14 11:18:18
1453
Kafka集成Spark Streaming并写入数据到HBase
2015-01-17
YARN Moving beyond MapReduce and Batch Processing with Apache Hadoop
2014-10-05
windows shell 脚本
2014-07-31
hadoop-2.3.0 的64位 native库
2014-03-03
MapReduce生成HFile入库到HBase 可能需要的jar包
2014-02-18
hadoop pdf
2013-10-25
滚动截屏_FSCapture
2012-09-21
S2S3H网上书店
2011-10-13
CGLIB2 is not available&org.objectweb.asm.Type
2011-06-07
Spring 3.0 需要的aspectj文件
2011-06-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人