
hadoop
文章平均质量分 64
sardtass
这个作者很懒,什么都没留下…
展开
-
hive 使用oracle数据库
hive使用oracle作为数据源,导入数据使用sqoop或kettle或自己写代码(淘宝的开源项目中有一个xdata就是淘宝自己写的)。感觉sqoop比kettle快多了,淘宝的xdata没用过。hive默认使用derby作为存储表信息的数据库,默认在哪启动就在哪建一个metadata_db文件放数据,可以在conf下的hive-site.xml中配置为一个固定的位置,这样不论在哪启动都可以原创 2014-01-03 11:41:07 · 2875 阅读 · 0 评论 -
cdh6.2 安装中出现hdfs/hdfs.sh ["mkdir","/tmp","hdfs","supergroup","1777"] 的问题 cdh
在第一次安装cdh6.2时,安装完成了,但是主机没有能加入到集群中,导致只有两个datanode节点,然后重装,结果就出现了这个问题hdfs/hdfs.sh ["mkdir","/tmp","hdfs","supergroup","1777"],一直用了3天时间,找各种问题,到网上查,主要说法是内存不够,还有说主动退出safemode就可以了。全试了都不行。最后测试出来是因为提前建了datan...原创 2019-06-26 11:31:32 · 1959 阅读 · 0 评论 -
在docker的centos7.6上安装cdh6.2
之前安装测试了hive3.1.1,后来想把hbase配上,发现使用了新版hadoop3.2以后,基本上没法配置上,找不到一个hive和hbase有hadoop的可用配套版本。最后想到用cdh吧,然后看了一下,cdh6.2的配套版本用的是hadoop3.0和hive2.1.1 和 hbase2.1.2。这个时候想的就是能配完整一套就行了。以下主要做个记录:docker run --name ...原创 2019-06-26 11:23:56 · 2067 阅读 · 0 评论 -
hadoop tez hive
终于把tez环境配置好了,所用版本为hadoop2.4,tez0.4.0,hive0.13.1,试了hive0原创 2014-06-27 16:02:51 · 2343 阅读 · 1 评论 -
hadoop2.4和tez的安装
因为是内网,要用代理出去,编译hadoop2.4原创 2014-06-27 09:59:15 · 1431 阅读 · 0 评论 -
linux ubuntu ant autoproxy 设置
使用maven编译hadoop2.3.0的时候到了一步需要下载tomcat6,一直下载不动,仔细看了一下报q原创 2014-06-23 16:11:26 · 1274 阅读 · 0 评论 -
hive jdbc连接时的乱码问题
之前写了个web端的程序用来控制从oracle向hadoop导数据,同时在页面上可以通过jdbc调用hive,发现中文显示为乱码,因为是装在windows2003上,之前也遇到过在开发环境中文正常而生产环境中文乱码的问题,主要是因为windows的编码不是utf8的在网上查了一下,通过修改hive的jdbc包可以解决这个问题,将jdbc包里的org.apache.hadoop.hive.jdb原创 2014-01-22 13:08:08 · 1661 阅读 · 0 评论 -
hive安装中的一些问题
两个数据量很少的表关联时报溢出错误:开启hive的本地运算,默认小于128m的文件只在本地计算,就不报错了。有关小数位的问题,例如2.12经过计算后会是2.1199999999这样的数,暂时没找到问题原因,使用round后再进行对比才能正常。中文显示问题,hadoop中的中文正常显示,但是使用hive看到的全是乱码,把系统的语言设置成utf8就好了。关联中不能使原创 2013-10-30 14:33:39 · 576 阅读 · 0 评论 -
spark和shark
配置了hadoop和hive进行测试,发现测试结果并不理想,听其他公司说使用spark可以提高计算速度。安装spark比较顺利,按网上查到的安装就可以了。shark的安装就麻烦多了,因为新出了0.9.0和0.9.1,网上查到的大部分都是0.7的安装方法,直接配置上就行了,0.9下下来一看只有1.5M,放上去报没有找到jar包,无法执行,查了半天,发现得自己编译,本地32位ubuntu,服务原创 2014-03-20 10:57:35 · 2463 阅读 · 2 评论 -
shark0.9.1发布了
之前在测试0.8.0时总是报tmp目录找不到的错,一直也没想出办法解决,原创 2014-04-18 15:02:46 · 884 阅读 · 0 评论 -
执行sqoop时报错 没有那个目录或文件
执行使用语句自动生成的sqoop脚本,总是不成功,在命令行试了一下,报错没有那个目录或文件,开始以为是语句里有冒号造成的,后来又试了一下其他有冒号的语句,正常。再仔细看脚本,感觉都没问题,忽然想到是不是太长了,一看,原表有100多个字段,生成的脚本很长(具体多长没数)。改了一下脚本,少取了几十个字段,就好了。因为取数时用的是--query,所以语句比较长,估计如果用sqoop自带的字段名方法估原创 2014-01-08 14:11:09 · 2318 阅读 · 0 评论 -
cognos通过odbc连接hive
cognos10.2支持了jdbc的连接,有hive的jdbc包就可以配置连接了。而cognos8.4不支持jdbc,所以需要通过系统的odbc才能连接,需要下载DataStaxHiveODBC_x86.exe或是64位的DataStaxHiveODBC_x64.exe,之前在windows2003上试了一下,都正常,这次在windows2008上装,提示找不到数据源或驱动不匹配,试了好长时间,终原创 2014-01-23 16:24:07 · 3625 阅读 · 0 评论 -
datax 从postgresql向greenplum导数据 编译 报错
使用kettle从postgresql导出表,并向greenplum写入的时候,速度很慢,只有1000行/秒左右,而且导入到570万行就报错了。所以上网查了一下有说可以用datax导数的,就下了个datax的免安装直接解压就可用的版本,结果不带向greenplum导入的功能,只有向postgresql导入的功能,估计是编译的比较早的版本。从git下下载了新的版本,编译时报错,说有jar包找不到,编...原创 2019-08-14 13:56:09 · 1786 阅读 · 0 评论