- 博客(98)
- 资源 (15)
- 收藏
- 关注
转载 如何恢复和释放Hadoop中被删除的文件
如何恢复和释放Hadoop中被删除的文件 hadoop的hdfs中被删除文件的恢复原理和回收站原理是一样的,就是在删除hdfs文件时,被删除的文件被移动到了hdfs的.Trash文件夹中,恢复时只需将该文件夹中文件拿出即可。具体操作如下: 1 设置.Trash文件夹 如果需要恢复hdfs中文件,就需要设置.Trash,hadoop的.Trash默认是关闭的。具体设置如下:
2017-11-23 21:10:28
2679
原创 java web中对中文乱码的支持
String responseEnd= resDataLines.substring(0,resDataLines.length()-1).toString(); response.reset(); response.setContentType("text/x-plain; charset=gbk"); // 设置页面编码格式 response
2017-05-17 16:00:03
600
原创 hive创建表时ascii编码与unicode编码的对应
CREATE TABLE page_view(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User') COMMENT 'This is the page view table' PARTITIONED
2017-02-20 14:49:41
9245
原创 java 远程debug JVM参数
For java 1.5 or greater:-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=9527For java 1.4:-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=9527For java 1.3
2017-02-09 15:40:45
3189
原创 sqoop远程debug讲解
由于sqoop运行依赖Hadoop等组件,且会设置很多环境变量。这就导致想要在本地测试其功能非常繁琐,幸好可以借助Java的远程调试机制来做。可以先在测试Linux机器上面安装好hadoop/Hbase/zookeeper等,然后本地windows环境用eclipse导入同样的sqoop代码。 搭建sqoop的eclipse调试环境下载sqoop的tar包解压,cd到sqoop根目录执
2016-12-17 19:09:52
1870
原创 linux 使用别名
需要输入的串太长,使用别名可以简化vim /etc/profilealias [name[=value] ... ] 注意‘=’和字符串之间不能包含空格如:alias hdphome=/home/citycloud/.....source /etc/profile
2016-01-12 22:44:22
490
原创 hadoop多次格式化后导致VERSION不一致,启动namenode和datanode时报错的解决方法
一般有4个地方的VERSION会出现不一致的问题:JN(journal node)的 VERSION 的/dfs/jndata/Dsjpt01/current namenode的VERSION hdfs-site.xml/dfs/name/current/VERSION /dfs/edits/current/VERSION以上这些并不是固定的,都是在
2016-01-12 22:37:32
4424
转载 删除了/lib64下的动态链接文件
转载url:http://devzc.com/post/440首先,不要退出当前终端,退出了就不能操作了。执行下面的命令LD_PRELOAD=/lib64/libc-2.12.so rm libc.so.6LD_PRELOAD=/lib64/libc-2.12.so ln -s /lib64/libc-2.12.so libc.so.6/lib64/libc-2.12
2015-09-07 14:13:41
3369
原创 linux修改java 虚拟机参数
在/ect/profile中加入export set JAVA_OPTS="-Xmx128m -Xms64m -Xmn32m -Xss16m"能不能生效没有验证
2015-09-02 10:45:24
6672
1
原创 hive创建表时加了中文备注comment报错
报错现象:要做的修改://修改字段注释字符集alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;//修改表注释字符集alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) charac
2015-08-14 18:33:47
13127
原创 python 非贪婪多匹配,注意使用findall
# coding: utf-8import jsonimport reimport osimport stringimport sysreload(sys)sys.setdefaultencoding('utf-8')s_txt = 'baidu\ngoogle're_str = '\(.*?)\'re_pat = re.compile(re_str)search_ret
2015-07-02 17:58:23
2667
原创 Kafka flume 整合
前提前提是要先把flume和kafka独立的部分先搭建好。下载插件包下载flume-kafka-plus:https://github.com/beyondj2ee/flumeng-kafka-plugin把lib目录下的和package下的 都放到flume的lib目录修改原有的flume-conf文件
2015-04-16 17:00:30
5921
原创 kafka的分布式部署
使用的kafka版本为:kafka_2.11-0.8.2.1.tgz把该包都发到4台机器上,然后解压部署规划:10.1.253.130 部署zookeeper10.1.253.131 部署broker(kafka server)10.1.253.132 producer10.1.253.133 consumer130部署好zookeeper并启动配置z
2015-04-15 21:55:26
786
原创 Flume配置
cp flume-env.sh.template flume-env.sh加入JAVA_HOME=/home/cdh/java 在conf/avro-flume.confagent3.channels = ch1agent3.sources = avro-source1agent3.
2015-04-15 11:21:22
28459
原创 Flume Avro 两台机器间进行数据传输的方式
flume 通过avro方式在两台机器之间进行数据传输比如要在192.168.17.18 上把数据传到 192.168.17.171 首先要再两台机器上都部署 flume2 在 17 flume下这样配置 avro-flume.confagent3.channels = ch1agent3.sources = avro-source1agent3.sinks = log
2015-03-31 18:19:40
13610
1
转载 linux对多个用户或多个组进行权限管理
转自:http://www.linuxidc.com/Linux/2013-07/88049.htmACL的使用 ACL即Access Control List 主要的目的是提供传统的owner,group,others的read,write,execute权限之外的具体权限设置,ACL可以针对单一用户、单一文件或目录来进行r,w,x的权限控制,对于需要特殊权限的使用状况有一
2015-03-18 13:37:13
3175
原创 hadoop访问hdfs 的两种方式
hadoop 提供了两种方式对hdfs 进行访问:1 配置客户端,后台连接到客户端进行工作客户端的配置比较简单,只要把配置好的hadoop的namenode节点的hadoop 打包,发到另一台机器(该机器不出现在 etc/hadoop/slaves里就可以)设置一下环境变量 JAVA_HOME HADOOP_HOME 还有一些在hadoop xml配置的临时文件目录等 也改一下(启
2015-03-18 13:06:20
24870
原创 hiveserver2 启动后jdbc 连接上的原因
1 首先修改 hive-site.xml hive.server2.thrift.port 10000 hive.server2.thrift.bind.host localhost 2 测试连接是否以连上不用写jdbc程序,运行 bin/beeline.sh然后输入 !connect jdbc:hive2://上面设置的ip地址:10000 hiv
2015-03-18 08:01:16
20256
3
原创 java 带有包名编译并运行,附带外部依赖jar包运行
今天写了个测试程序,带有包名,竟然忘记了怎么编译和运行,所以现在记下来1 带包程序的编译与运行package test;public class HiveJdbcClient { public static void main(String[] args) { System.out.println("-------------------"); }}程序中带有
2015-03-17 22:32:28
23694
原创 hive 配置注意事项及初始化hive 元数据
今天配置hive 犯了一个问题:下载的hive tar.gz 里的conf目录只有一个 hive-default.xml.template,于是我就cp 了一份命名为:hive-default.xml结果弄上去总是出现一个问题,就是我在 bin/ 运行hive 创建的database和在 任意其他目录运行hive 创建的database (已配置好环境变量)在两个地方出现的并不相同,这个
2015-03-16 21:46:04
27534
3
原创 Hadoop 配置及hadoop HA 的配置
注:本文中提到的ochadoop 不要感到奇怪,是亚信公司内部自己合成的一个包,把所有的组件都放在一个包内了,免去了组件的下载过程和解决兼容问题,其实也可以自己下载的,不要受到影响。另,转载请注明出处,谢谢修改静态IP和hostname在 /etc/sysconfig/network-scripts/ifcfg-eth0配置IPADDR地址运行以下命
2015-03-15 09:00:18
9948
转载 hadoop-HA Hadoop 2.2.0版本HDFS的HA配置
http://blog.youkuaiyun.com/dmcpxy/article/details/18256607注:以下配置描述的是HDFS的QJM方式的HA配置。1.1 zookeeper集群配置这里我使用了三台机器(在笔记本上使用vmware创建了三个虚拟机来实现)部署zookeeper集群,机器IP分别是:l 192.168.111.130(hostname:hd0)
2015-03-06 13:41:37
736
1
转载 hadoop-HA hadoop2.0 HDFS搭建和HA切换
http://blog.youkuaiyun.com/kirayuan/article/details/17379743说到了hadoop2.0的新特性。这里详解一下搭建步骤以及原理。 首先,需要在cdh官方下载对应的源码包:http://archive.cloudera.com/cdh4/cdh/4/ 以cdh4.3.1版本为例来进行说明。
2015-03-06 13:39:42
767
转载 Hadoop 的HA高可集群用性
原文地址: http://blog.youkuaiyun.com/caizhongda/article/details/7947480一、 Hadoop 的高可用性1. 概论本指南提供了一个HDFS 的高可用性(HA )功能的概述,以及如何配置和管理HDFS 高可用性(HA) 集群。本文档假定读者具有对HDFS 集群的组件和节点类型具有一定理解。有关详情,请参阅Apache 的HDFS
2015-03-06 13:38:09
436
转载 HubbleDotNet+Mongodb 构建高性能搜索引擎--概述
转自:http://www.cnblogs.com/eaglet/archive/2012/05/10/2494073.htmlHubbleDotNet 从 1.2.3 版本以后开始在官方代码中支持和 Mongodb 对接,Mongodb 是10gen 公司开发的 no-sql 数据库,其读写性能比传统关系数据库要快很多,而且可以非常方便的分布式部署。HubbleDotNet
2015-01-30 14:39:07
1669
原创 mysql insertOrUpdate 用法
insert into deal_settlement values (#{dealId}, #{dealName}, #{status}, #{amount}, NOW()) ON DUPLICATE KEY UPDATE time = NOW()如果您指定了ON DUPLICATE KEY UPDATE,并且插入行后会导致在一个
2015-01-29 11:06:20
19758
转载 Flume环境部署和配置详解及案例大全
转自:http://www.jb51.net/article/53542.htmflume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 一、什么是Flume? flume 作为 cl
2015-01-15 17:48:39
2588
转载 hadoop 使用LZO (1)
转自:http://share.blog.51cto.com/278008/549393最近我们部门在测试云计算平台hadoop,我被lzo折腾了三四天,累了个够呛。在此总结一下,也给大家做个参考。 操作系统:CentOS 5.5,Hadoop版本:hadoop-0.20.2-CDH3B4 安装lzo所需要软件包:gcc、ant、lzo、lzo编码/解
2015-01-10 18:18:17
651
转载 hadoop使用LZO (2)
转自:http://www.tech126.com/hadoop-lzo/自从Hadoop集群搭建以来,我们一直使用的是Gzip进行压缩当时,我对gzip压缩过的文件和原始的log文件分别跑MapReduce测试,最终执行速度基本差不多而且Hadoop原生支持Gzip解压,所以,当时就直接采用了Gzip压缩的方式关于Lzo压缩,twitter有一篇文章,
2015-01-10 18:17:02
645
转载 hadoop的压缩格式
转自:http://www.cnblogs.com/ggjucheng/archive/2012/04/22/2465580.htmlhadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们 将压缩的文件解压,而不用我们去关心。 如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip2等),hadoop就会根据扩
2015-01-10 17:06:19
784
转载 Java 执行系统命令
转自:http://wuhongyu.iteye.com/blog/461477/通过 java.lang.Runtime 类可以方便的调用操作系统命令,或者一个可执行程序,下面的小例子我在windows和linux分别测试过,都通过。基本原理是,首先通过 Runtime.getRuntime() 返回与当前 Java 应用程序相关的运行时对象,然后调用run.exec(cmd) 另启一
2015-01-09 17:42:38
967
转载 利用udf函数将Hive统计结果直接插入到MySQL
转自: http://www.linuxidc.com/Linux/2013-04/82878.htm大部分利用hive做数据分析的步骤是先用hive将统计结果导出到本地文件或者Hive的其他表中,再将本地文件导入到mysql或者利用sqoop将Hive表导入到mysql中。 今天同事给推荐了一个利用udf函数直接将统计结果导入mysql的方法。 步骤为
2015-01-09 16:56:14
1028
转载 利用sqoop将hive数据导入导出数据到mysql
转自:http://blog.youkuaiyun.com/jiedushi/article/details/6663177运行环境 centos 5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具在使用过程中可能遇到的问题:sqoop依赖zookeep
2015-01-09 16:55:05
836
转载 java中的消息队列
转自:http://hi.baidu.com/caicono/item/6beb99d51e8e8a1ad78ed098消息队列是线程间通讯的手段:import java.util.*public class MsgQueue{ private Vector queue = null; public MsgQueue(){ qu
2014-12-31 16:12:21
2067
原创 mysql 存储及查询亿级数据
第一阶段:1,一定要正确设计索引2,一定要避免SQL语句全表扫描,所以SQL一定要走索引(如:一切的 > < != 等等之类的写法都会导致全表扫描)3,一定要避免 limit 10000000,20 这样的查询4,一定要避免 LEFT JOIN 之类的查询,不把这样的逻辑处理交给数据库5,每个表索引不要建太多,大数据时会增加数据库的写入压力第二阶段:1,采用分表技术(大表分小表)
2014-12-31 13:54:36
21988
1
转载 利用 squid 反向代理提高网站性能
转自:http://www.ibm.com/developerworks/cn/linux/l-cn-squid/本文在介绍 squid 反向代理的工作原理的基础上,指出反向代理技术在提高网站访问速度,增强网站可用性、安全性方面有很好的用途。作者在具体的实验环境下,利用 DNS 轮询和 Squid 反向代理技术,实现了网站的负载均衡,从而提高了网站的可用性和可靠性。现在
2014-12-30 17:52:13
629
转载 java wait,notify,sleep的使用
在JAVA中,是没有类似于PV操作、进程互斥等相关的方法的。JAVA的进程同步是通过synchronized()来实现的,需要说明的是,JAVA的synchronized()方法类似于操作系统概念中的互斥内存块,在JAVA中的Object类型中,都是带有一个内存锁的,在有线程获取该内存锁后,其它线程无法访问该内存,从而实现JAVA中简单的同步、互斥操作。明白这个原理,就能理解为什么synchron
2014-12-28 21:17:03
506
原创 Java基本功16课
1 数组数据初始化可以使用:int[] ary = new int[]{1,2....};或int[] ary = new int[10];但不能同时指定长度并初始数据,如int[] ary = int[2]{0,1};变量值和对象都存放在堆内存中,栈中存放的是他们的引用,方法是存放在栈中的,垃圾回收机制回收的只是堆中的东西,其他的东西不回收。2 类变量
2014-12-27 22:58:16
549
转载 线程7种状态的相互转换
先从图片开始小小的作下解释:1、线程的实现有两种方式,一是继承Thread类,二是实现Runnable接口,但不管怎样,当我们new了这个对象后,线程就进入了初始状态;2、当该对象调用了start()方法,就进入可运行状态;3、进入可运行状态后,当该对象被操作系统选中,获得CPU时间片就会进入运行状态;4、进入运行状态后情况就比较复杂了 4.1、run()方法
2014-12-18 12:31:17
613
JDOM API 帮助文档
2009-10-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人