hadoop相关
文章平均质量分 58
q79969786
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hbase-site.xml配置文件
/*** Copyright 2010 The Apache Software Foundation** Licensed to the Apache Software Foundation (ASF) under one* or more contributor license agreements. See the NOTICE file* distributed with转载 2012-10-01 11:19:58 · 5088 阅读 · 0 评论 -
java.lang.IllegalAccessError: com/google/protobuf/HBaseZeroCopyByteString
14/08/30 19:52:37 INFO zookeeper.ClientCnxn: Socket connection established to n3.example.com/192.168.137.103:2181, initiating session14/08/30 19:52:37 INFO zookeeper.ClientCnxn: Session establishmen原创 2014-08-30 21:35:01 · 3424 阅读 · 0 评论 -
Oozie build failure Cannot lock storage build/test/data/dfs/name1. The directory is already locked
运行oozie是遇到的问题,如下原创 2014-10-23 07:25:25 · 1045 阅读 · 0 评论 -
Hive优化
Hive优化hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数1. 本地模式转载 2013-11-01 13:42:33 · 770 阅读 · 0 评论 -
Flume和HBase-0.98集成时报NoSuchMethodError
java.lang.NoSuchMethodError: org.apache.hadoop.hbase.client.Increment.setWriteToWAL(Z)Lorg/apache/hadoop/hbase/client/Increment; at org.apache.flume.sink.hbase.HBaseSink$4.run(HBaseSink.java:4原创 2014-11-22 10:12:30 · 1364 阅读 · 0 评论 -
Kafka和Spark Streaming Java版本集成并将数据实时写入HBase
Kafka和Spark Streaming Java版本集成并将数据实时写入HBasemvn配置pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://mave原创 2015-01-17 00:52:45 · 13755 阅读 · 2 评论 -
Phoenix常见问题解答
I want to get started. Is there a Phoenix Hello World?Is there a way to bulk load in Phoenix?How I map Phoenix table to an existing HBase table?Are there any tips for optimizing Phoenix?How do转载 2014-12-12 23:15:39 · 3782 阅读 · 0 评论 -
The Data Scientist Guide with Links
FrameworksApache Hadoopframework for distributed processing. Integrates MapReduce (parallel processing), YARN (job scheduling) and HDFS (distributed file system) Apache HadoopD转载 2014-12-13 16:37:47 · 4789 阅读 · 0 评论 -
Hive 数据入库到HBase
测试数据http://www.nber.org/patents/apat63_99.zip原创 2014-10-02 17:11:01 · 3828 阅读 · 0 评论 -
sqoop推数
#! /bin/shparallel_count=16mapred_job_queue_name=queue02#sqlserver prddata_db_url="jdbc:sqlserver://CNSH020623:1433;DatabaseName=TCIMS"data_db_username=Tcimsdata_db_password=Paic4321原创 2014-10-24 08:48:02 · 898 阅读 · 0 评论 -
Spark应用连接HBase报NullPointerException
Spark应用没有问题,但是提交以后一直报NullPointerException, 请仔细检查jar包,我的spark应用要连接HBase-0.98,但是classpath有HBase-0.94和protobuf-java-2.4.0a.jar的jar包报错信息如下:Exception in thread "main" java.lang.NullPointerException原创 2015-03-30 16:50:27 · 3689 阅读 · 0 评论 -
搭建Hadoop2.6+Hbase0.98.6+Nutch2.3环境
编译Nutch并抓取网页原创 2015-05-20 23:35:59 · 2209 阅读 · 0 评论 -
试用Hive on Spark
试用Hive on SparkHive-1.2.0发布已经有几天了,下载后发现hive.execution.engine新增了spark选项,于是配置spark环境,试用Hive on Spark原创 2015-06-03 23:09:10 · 3363 阅读 · 0 评论 -
Hive 通过shell动态生成SQL
在Hive生成文件通过kettle往关系型数据库导数据时,Hive默认将null转为\n,kettle读取文件并导入数据库时会出现问题,本来在hive中是null,在数据库中变成\n,特别是数字类型,\n会提示类型不能转换,直接报错,想到hive的集群处理能力,所以在hive端先将数据处理好。如果每个表每个字段处理太麻烦,下面这个脚本传入表名,生成select语句直接供hive查询。原创 2014-07-16 17:07:10 · 3185 阅读 · 0 评论 -
oozie ErrorCode 含义
在执行oozie应用是,经常会遇到错误代码,danshi原创 2014-06-18 11:03:47 · 11741 阅读 · 0 评论 -
编译hadoop源码时需要设置代理的问题
在built.xml中找到<target name="ivy-download"修改为:antant eclipse原创 2013-07-09 16:41:19 · 955 阅读 · 0 评论 -
Hive添加UDF方法
大致有3中方式:在hive CLI 中 add jar ..., CREATE TEMPORARY FUNCTION...编译源码启动的时候通过-i指定初始化SQL文件我的方法是在${HIVE_HOME}/建文件夹auxlib,然后在${HIVE_HOME}/bin下新建.hiverc(如果文件存在就不用新建了),然后将自己写的UDF打成jar包放在auxlib中,在.hiverc原创 2013-07-01 10:42:48 · 1500 阅读 · 0 评论 -
导入Hive数据导MySQL
导入Hive数据到MySQL1. UDF使用UDF比较方便,代码在http://svn.apache.org/repos/asf/hive/trunk/contrib/src/java/org/apache/hadoop/hive/contrib/genericudf/example/GenericUDFDBOutput.javaCREATE TEMPORARY FUNCTION db原创 2013-08-14 11:18:18 · 1491 阅读 · 0 评论 -
hadoop的stop-all无效解决
在hadoop-env.sh中找到export HADOOP_PID_DIR=/var/hadoop/pids,如果是默认的在/tmp目录分别在每台主机上通过jps找到PID,修改HADOOP_PID_DIR中的PID例如jps:5367 RunJar790 NameNode942 RunJar325 RunJar1190 JobTracker4208 RunJar32原创 2013-09-17 09:58:46 · 1740 阅读 · 0 评论 -
Hive查询问题
到目前为止最新的hive(hive-0.11.0),也不支持 in(select...)或者 not in (select),即:select t1.stransno from upa_test_01 t1 where t1.stransno not in(select t2.stransno from upa_test_02 t2); 可以通过累死这样的方式查询:sele原创 2013-07-16 13:53:19 · 735 阅读 · 0 评论 -
我的Hive,Hadoop优化
直接上图,其中hive.merge.mapredfiles打算在执行必要的job是设置原创 2013-11-21 16:51:21 · 971 阅读 · 0 评论 -
谈一谈ORCFile
从hive-0.11.0开始,有了ORCFile,下面是我的测试结果,测试用的是hive-0.12.0压缩很明显,默认使用ZLIB压缩很慢,只有一个map,改用SNAPPY后速度不错,压缩的也不错,就是目前还有bug,比如https://issues.apache.org/jira/browse/HIVE-5568参考资源:http://hortonworks.co原创 2013-11-21 16:46:37 · 4244 阅读 · 0 评论 -
hadoop集成hbase遇到的错误
1.org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 timeshadoop dfsadmin -safemode leave2.org.apache.hadoop.hbase.ipc.ServerNotRunningException: org.apache.hadoop.hbase.ipc.Server原创 2012-10-01 10:51:39 · 6675 阅读 · 2 评论 -
MapReduce生成HFile入库到HBase
原文参考:http://shitouer.cn/2013/02/hbase-hfile-bulk-load/可能需要依赖一写jar包,在这里下载:http://download.youkuaiyun.com/detail/q79969786/6933683主要做了如下修改:package com.upa.hbase;import java.io.IOException;im转载 2014-02-18 16:31:36 · 2289 阅读 · 0 评论 -
hive优化之------控制hive任务中的map数和reduce数
转载自:http://www.dataguru.cn/article-3269-1.html一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.转载 2014-02-20 10:56:33 · 789 阅读 · 0 评论 -
修改,编译sqoop
搭建sqoop的eclipse调试环境原创 2014-05-02 10:36:49 · 2280 阅读 · 0 评论 -
hadoop2.x HA配置
1. 安装zookeeper 1. 解压缩tar -zxf zookeeper-3.4.5.tar.gz2. conf目录下修改文件名zoo_sample.cfg 改为 zoo.cfg # mv zoo_sample.cfgzoo.cfg3. 修改成如下内容即可(每个主机的这个配置文件一样)dataDir=/export/cra原创 2014-07-18 23:32:37 · 1171 阅读 · 0 评论 -
Hive数据导入HBase
在Hive创建数据保存在HBase的表方式,这种方法的特点是简单,但是数据量超过千万以后 ,数据偏移现象比较明显,效率不高在定义Hive的UDF,将数据写入HBase,如果提前将HBase表的regen分好,这种直接put的方法效率还行直接用MapReduce生成Hfile,然后导入HBase,这种方法的特点是程序步奏很多,但是效率高,每分钟轻松能到3000万数据原创 2014-11-22 10:20:17 · 10132 阅读 · 0 评论
分享