q79969786-优快云博客

转载 jstack分析cpu占用100%（转）

jstack分析cpu占用100%

2015-07-11 14:02:45 2111

原创试用Hive on Spark

试用Hive on SparkHive-1.2.0发布已经有几天了，下载后发现hive.execution.engine新增了spark选项，于是配置spark环境，试用Hive on Spark

2015-06-03 23:09:10 3360

原创搭建Hadoop2.6+Hbase0.98.6+Nutch2.3环境

编译Nutch并抓取网页

2015-05-20 23:35:59 2207

原创在IntelliJ 启动Spark的Master和Work

为了阅读Spark阅读源码方便，可以直接在IntelliJ 启动Master和Work，方便debug，下面介绍方法：修改pom.xml 修改pom.xml中com.google.guava的scope，如下图：启动master 右键Run ‘Master.main()’启动work 启动work需要传入mater URL，如下图启动后master如下图：

2015-05-16 22:17:23 5871

原创 Java VisualVM 监控远程Java程序运行情况

VisualVM 是一款免费的性能分析工具。它通过 jvmstat、JMX、SA（Serviceability Agent）以及 Attach API 等多种方式从程序运行时获得实时数据，从而进行动态的性能分析。同时，它能自动选择更快更轻量级的技术尽量减少性能分析对应用程序造成的影响，提高性能分析的精读，下面是查看远程JVM运行情况在远程机器新建 jstatd.all.po

2015-05-15 20:08:55 928

原创编译Spark源码

编译spark源码时可能会报下面这个错误，uncaught exception during compilation: java.lang.StackOverflowError需要设置maven参数export MAVEN_OPTS="-Xmx1024M -Xms1024M -Xss1M -XX:MaxPermSize=512m -XX:ReservedCodeCacheS

2015-05-14 23:46:47 1257

转载 Scala Multiple Installation Support

This page contains information to help you configure Eclipse and Scala IDE, to increase performances and ease-of-use.Scala Multiple Installation SupportScala IDE now supports projects set up

2015-04-12 19:12:11 1433

原创 Spark应用连接HBase报NullPointerException

Spark应用没有问题，但是提交以后一直报NullPointerException，请仔细检查jar包，我的spark应用要连接HBase-0.98，但是classpath有HBase-0.94和protobuf-java-2.4.0a.jar的jar包报错信息如下:Exception in thread "main" java.lang.NullPointerException

2015-03-30 16:50:27 3688

在编译JDK7之前，安装一个JDK6版本，因为有一些JAVA文件需要编译；配置更新源，yum -y groupinstall 'base'，yum -y install make；安装软件包，yum -y install alsa-lib-devel cups-devel libXi-devel gcc gcc-c++ freetype ld-linux.so.2 ant* libX*配置环境变量

2015-01-18 23:31:17 2105

原创 Kafka和Spark Streaming Java版本集成并将数据实时写入HBase

Kafka和Spark Streaming Java版本集成并将数据实时写入HBasemvn配置pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://mave

2015-01-17 00:52:45 13754

原创 GoldenGate 异常

Error occured in javawriter.c[269]: Error occurred (Java exception): UEDataSource.createOperation: com.goldengate.atg.datasource.InvalidTransactionState: A new operation was received without firs

2015-01-09 20:03:32 1692

原创 ./ggsci: error while loading shared libraries: libnnz11.so

启动ggsci是报./ggsci: error while loading shared libraries: libnnz11.so需要增加如下内容到~/.bashrcORACLE_BASE=/opt/oracle/ORACLE_HOME=$ORACLE_BASE/product/11.2.0/dbhome_1export LD_LIBRARY_PATH=$ORACLE_

2014-12-17 23:53:13 1944

转载 The Data Scientist Guide with Links

FrameworksApache Hadoopframework for distributed processing. Integrates MapReduce (parallel processing), YARN (job scheduling) and HDFS (distributed file system) Apache HadoopD

2014-12-13 16:37:47 4788

转载 Phoenix常见问题解答

I want to get started. Is there a Phoenix Hello World?Is there a way to bulk load in Phoenix?How I map Phoenix table to an existing HBase table?Are there any tips for optimizing Phoenix?How do

2014-12-12 23:15:39 3782

转载 Phoenix 4.x HBase 0.98.1安装

1. 下载phoenix-4.0.0-incubating.tar.gz1wget http://mirror.bit.edu.cn/apache/incubator/phoenix/phoenix-4.0.0-incubating/bin/phoenix-4.0.0-incubating.tar.gz2. 解压phoenix-4

2014-12-12 20:37:41 3077

原创 sqoop

import java.nio.CharBuffer;import java.util.ArrayList;import java.util.List;public class Test2 { // private enum ParseState { // FIELD_START, ENCLOSED_FIELD, UNENCLOSED_FIELD, ENCL

2014-11-28 16:02:42 956

原创 Hive数据导入HBase

在Hive创建数据保存在HBase的表方式，这种方法的特点是简单，但是数据量超过千万以后，数据偏移现象比较明显，效率不高在定义Hive的UDF，将数据写入HBase，如果提前将HBase表的regen分好，这种直接put的方法效率还行直接用MapReduce生成Hfile，然后导入HBase，这种方法的特点是程序步奏很多，但是效率高，每分钟轻松能到3000万数据

2014-11-22 10:20:17 10127

原创 Flume和HBase-0.98集成时报NoSuchMethodError

java.lang.NoSuchMethodError: org.apache.hadoop.hbase.client.Increment.setWriteToWAL(Z)Lorg/apache/hadoop/hbase/client/Increment; at org.apache.flume.sink.hbase.HBaseSink$4.run(HBaseSink.java:4

2014-11-22 10:12:30 1364

原创 sqoop推数

#! /bin/shparallel_count=16mapred_job_queue_name=queue02#sqlserver prddata_db_url="jdbc:sqlserver://CNSH020623:1433;DatabaseName=TCIMS"data_db_username=Tcimsdata_db_password=Paic4321

2014-10-24 08:48:02 897

原创 Oozie build failure Cannot lock storage build/test/data/dfs/name1. The directory is already locked

运行oozie是遇到的问题，如下

2014-10-23 07:25:25 1043

原创 SecureCRT乱码

SecureCRT乱码是选择编辑->重置，就可以了

2014-10-09 21:48:53 662

原创 Hive 数据入库到HBase

测试数据http://www.nber.org/patents/apat63_99.zip

2014-10-02 17:11:01 3827

原创 java.lang.IllegalAccessError: com/google/protobuf/HBaseZeroCopyByteString

14/08/30 19:52:37 INFO zookeeper.ClientCnxn: Socket connection established to n3.example.com/192.168.137.103:2181, initiating session14/08/30 19:52:37 INFO zookeeper.ClientCnxn: Session establishmen

2014-08-30 21:35:01 3424

原创替换工程shell

替换工程文件#!/bin/bashif [ $# -ne 2 ] ;then echo "please enter an old project name and a new project name!"else old_name=$1 new_name=$2 len=$(expr length "${new_name}") let "len =

2014-07-25 14:51:15 686

原创 hadoop2.x HA配置

1. 安装zookeeper 1. 解压缩tar -zxf zookeeper-3.4.5.tar.gz2. conf目录下修改文件名zoo_sample.cfg 改为 zoo.cfg # mv zoo_sample.cfgzoo.cfg3. 修改成如下内容即可(每个主机的这个配置文件一样)dataDir=/export/cra

2014-07-18 23:32:37 1171

原创 Hive 通过shell动态生成SQL

在Hive生成文件通过kettle往关系型数据库导数据时，Hive默认将null转为\n，kettle读取文件并导入数据库时会出现问题，本来在hive中是null，在数据库中变成\n，特别是数字类型，\n会提示类型不能转换，直接报错，想到hive的集群处理能力，所以在hive端先将数据处理好。如果每个表每个字段处理太麻烦，下面这个脚本传入表名，生成select语句直接供hive查询。

2014-07-16 17:07:10 3180

转载 CentOS: 让普通用户控制网络接口

普通用户一般不需要去开关网络接口, 特殊情况下,需要普通用户拥有这一权力,例如ppp/vpn之类的,例如我们需要用户能开启关闭一个网络接口eth0需要编辑/etc/sysconfig/network-scripts/ifcfg-eth0设置USERCTL为yes, 普通用户即可用 ifup eth0 / ifdown eth0 来开关网络接口原理:普

2014-06-29 20:43:45 2028

原创 oozie ErrorCode 含义

在执行oozie应用是，经常会遇到错误代码，danshi

2014-06-18 11:03:47 11739

原创 hive udf debug

1) 以debug模式启动Cli，${HIVE_HOME}/bin/hive --debug。进程会监听在8000端口等待调试连接。如果想更改监听端口，可以修改配置文件:${HIVE_HOME}bin/ext/debug.sh 。2) 在Eclipse中, 选择Debug configurations->Remote Java Application，填好Host和Po

2014-05-04 16:08:09 2909

原创修改，编译sqoop

搭建sqoop的eclipse调试环境

2014-05-02 10:36:49 2277

转载 hive优化之------控制hive任务中的map数和reduce数

转载自：http://www.dataguru.cn/article-3269-1.html一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.

2014-02-20 10:56:33 788

转载 MapReduce生成HFile入库到HBase

原文参考：http://shitouer.cn/2013/02/hbase-hfile-bulk-load/可能需要依赖一写jar包，在这里下载：http://download.youkuaiyun.com/detail/q79969786/6933683主要做了如下修改：package com.upa.hbase;import java.io.IOException;im

2014-02-18 16:31:36 2289

原创我的Hive，Hadoop优化

直接上图，其中hive.merge.mapredfiles打算在执行必要的job是设置

2013-11-21 16:51:21 968

原创谈一谈ORCFile

从hive-0.11.0开始，有了ORCFile,下面是我的测试结果，测试用的是hive-0.12.0压缩很明显,默认使用ZLIB压缩很慢，只有一个map，改用SNAPPY后速度不错，压缩的也不错，就是目前还有bug，比如https://issues.apache.org/jira/browse/HIVE-5568参考资源:http://hortonworks.co

2013-11-21 16:46:37 4244

原创 ubuntu12.04全局代理

gsettings set org.gnome.system.proxy.socks host '127.0.0.1'gsettings set org.gnome.system.proxy.socks port 8087gsettings set org.gnome.system.proxy mode 'manual'# gsettings set org.gnome.syste

2013-11-03 08:06:36 1272

转载 Hive优化

Hive优化hive.optimize.cp=true：列裁剪hive.optimize.prunner：分区裁剪hive.limit.optimize.enable=true：优化LIMIT n语句hive.limit.row.max.size=1000000：hive.limit.optimize.limit.file=10：最大文件数1. 本地模式

2013-11-01 13:42:33 769

原创 hadoop的stop-all无效解决

在hadoop-env.sh中找到export HADOOP_PID_DIR=/var/hadoop/pids，如果是默认的在/tmp目录分别在每台主机上通过jps找到PID，修改HADOOP_PID_DIR中的PID例如jps：5367 RunJar790 NameNode942 RunJar325 RunJar1190 JobTracker4208 RunJar32

2013-09-17 09:58:46 1738

原创 Missing artifact com.sun:tools:jar:1.5.0:system 解决方法

使用maven是有时候会有 Missing artifact com.sun:tools:jar:1.5.0:system错误提示需要在依赖中加入 com.sun tools 1.5.0 system ${JAVA_HOME}\lib\tools.jar

2013-09-05 22:43:04 989

原创导入Hive数据导MySQL

导入Hive数据到MySQL1. UDF使用UDF比较方便，代码在http://svn.apache.org/repos/asf/hive/trunk/contrib/src/java/org/apache/hadoop/hive/contrib/genericudf/example/GenericUDFDBOutput.javaCREATE TEMPORARY FUNCTION db

2013-08-14 11:18:18 1491

YARN Moving beyond MapReduce and Batch Processing with Apache Hadoop

Apache Hadoop™ YARN Moving beyond MapReduce and Batch Processing with Apache Hadoop

2014-10-05

CGLIB2 is not available&org.objectweb.asm.Type

关于Cannot proxy target class because CGLIB2 is not available. Add CGLIB to the class path or specify proxy interfaces.和 java.lang.ClassNotFoundException: org.objectweb.asm.Type错误的解决方法: 就是加入cglib-nodep-2.2.2.jar包,如果加入cglib-2.2.2.jar包,就会报第二种错误

2011-06-07

滚动截屏_FSCapture

比较实用的抓图工具，选项比较多，界面人性化，可以录制屏幕！最重要的是可以滚动截屏，可以完美的截超出一个屏幕的内容。解压 -> 双击FSCapture.exe，执行程序

2012-09-21

晓月小红伞综合工具箱

软件有说明，下载好了按照说明做就可以了

2011-12-27

MapReduce生成HFile入库到HBase 可能需要的jar包

MapReduce生成HFile入库到HBase 可能需要的jar包，一共有3个可以直接放在每台机器的${HADOOP_HOME}/lib下 hadoopHadoop 1.1.2 + hbase 0.94.6.1

2014-02-18

windows shell 脚本

可在windows上运行的几个shell脚本，使用方法: 1.将下载的bin目录复制到C:\Program Files\Bitvise SSH Server\ 2.执行runAutoRun

2014-07-31

hadoop-2.3.0 的64位 native库

从apache官网下载的hadoop-2.3.0.tar.gz的native库是32位的，但是我们的机器一般是64位的操作系统，所以需要重新编译为64位的，附件就是我编译好的64位的native

2014-03-03

C#简单音乐&视频播放器

C#做的播放器,实现简单的同步歌词,皮肤,两个窗体互相通信等功能,欢迎下载

2011-06-05

Kafka集成Spark Streaming并写入数据到HBase

使用方法：请使用eclipse的maven导入方式导入，代码在http://blog.youkuaiyun.com/q79969786/article/details/42793487有介绍

2015-01-17

Spring 3.0 需要的aspectj文件

如果没有这些包,@Aspect的时候没有反应.这是进行spring-framework的AOP开发时需要的jar包，解压缩其中lib文件夹，lib文件夹中有4个重要的jar包：aspectjrt.jar，aspectjtools.jar，aspectjweaver.jar，org.aspectj.matcher.jar，解压缩后把这4个jar包导入到AOP项目中.

2011-06-05