年华似水-优快云博客

转载如何恢复和释放Hadoop中被删除的文件

如何恢复和释放Hadoop中被删除的文件　　hadoop的hdfs中被删除文件的恢复原理和回收站原理是一样的，就是在删除hdfs文件时，被删除的文件被移动到了hdfs的.Trash文件夹中，恢复时只需将该文件夹中文件拿出即可。具体操作如下：　　1 设置.Trash文件夹　　如果需要恢复hdfs中文件，就需要设置.Trash，hadoop的.Trash默认是关闭的。具体设置如下：

2017-11-23 21:10:28 2679

原创 java web中对中文乱码的支持

String responseEnd= resDataLines.substring(0,resDataLines.length()-1).toString(); response.reset(); response.setContentType("text/x-plain; charset=gbk"); // 设置页面编码格式 response

2017-05-17 16:00:03 600

原创 hive创建表时ascii编码与unicode编码的对应

CREATE TABLE page_view(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User') COMMENT 'This is the page view table' PARTITIONED

2017-02-20 14:49:41 9245

原创 java 远程debug JVM参数

For java 1.5 or greater:-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=9527For java 1.4:-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=9527For java 1.3

2017-02-09 15:40:45 3189

原创 sqoop远程debug讲解

由于sqoop运行依赖Hadoop等组件，且会设置很多环境变量。这就导致想要在本地测试其功能非常繁琐，幸好可以借助Java的远程调试机制来做。可以先在测试Linux机器上面安装好hadoop/Hbase/zookeeper等，然后本地windows环境用eclipse导入同样的sqoop代码。搭建sqoop的eclipse调试环境下载sqoop的tar包解压，cd到sqoop根目录执

2016-12-17 19:09:52 1870

原创 linux 使用别名

需要输入的串太长，使用别名可以简化vim /etc/profilealias [name[=value] ... ] 注意‘=’和字符串之间不能包含空格如：alias hdphome=/home/citycloud/.....source /etc/profile

2016-01-12 22:44:22 490

原创 hadoop多次格式化后导致VERSION不一致，启动namenode和datanode时报错的解决方法

一般有4个地方的VERSION会出现不一致的问题：JN（journal node）的 VERSION 的/dfs/jndata/Dsjpt01/current namenode的VERSION hdfs-site.xml/dfs/name/current/VERSION /dfs/edits/current/VERSION以上这些并不是固定的，都是在

2016-01-12 22:37:32 4424

转载删除了/lib64下的动态链接文件

转载url:http://devzc.com/post/440首先，不要退出当前终端，退出了就不能操作了。执行下面的命令LD_PRELOAD=/lib64/libc-2.12.so rm libc.so.6LD_PRELOAD=/lib64/libc-2.12.so ln -s /lib64/libc-2.12.so libc.so.6/lib64/libc-2.12

2015-09-07 14:13:41 3369

原创 linux修改java 虚拟机参数

在/ect/profile中加入export set JAVA_OPTS="-Xmx128m -Xms64m -Xmn32m -Xss16m"能不能生效没有验证

2015-09-02 10:45:24 6672 1

原创 hive创建表时加了中文备注comment报错

报错现象：要做的修改：//修改字段注释字符集alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;//修改表注释字符集alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) charac

2015-08-14 18:33:47 13127

原创查看linux安装系统时所使用的readhat还是centos

more /etc/issue

2015-07-02 20:14:23 1085

原创 python 非贪婪多匹配，注意使用findall

# coding: utf-8import jsonimport reimport osimport stringimport sysreload(sys)sys.setdefaultencoding('utf-8')s_txt = 'baidu\ngoogle're_str = '\(.*?)\'re_pat = re.compile(re_str)search_ret

2015-07-02 17:58:23 2667

原创 Kafka flume 整合

前提前提是要先把flume和kafka独立的部分先搭建好。下载插件包下载flume-kafka-plus:https://github.com/beyondj2ee/flumeng-kafka-plugin把lib目录下的和package下的都放到flume的lib目录修改原有的flume-conf文件

2015-04-16 17:00:30 5921

原创 kafka的分布式部署

使用的kafka版本为：kafka_2.11-0.8.2.1.tgz把该包都发到4台机器上，然后解压部署规划：10.1.253.130 部署zookeeper10.1.253.131 部署broker(kafka server)10.1.253.132 producer10.1.253.133 consumer130部署好zookeeper并启动配置z

2015-04-15 21:55:26 786

原创 Flume配置

cp flume-env.sh.template flume-env.sh加入JAVA_HOME=/home/cdh/java 在conf/avro-flume.confagent3.channels = ch1agent3.sources = avro-source1agent3.

2015-04-15 11:21:22 28459

原创 Flume Avro 两台机器间进行数据传输的方式

flume 通过avro方式在两台机器之间进行数据传输比如要在192.168.17.18 上把数据传到 192.168.17.171 首先要再两台机器上都部署 flume2 在 17 flume下这样配置 avro-flume.confagent3.channels = ch1agent3.sources = avro-source1agent3.sinks = log

2015-03-31 18:19:40 13610 1

转载 linux对多个用户或多个组进行权限管理

转自：http://www.linuxidc.com/Linux/2013-07/88049.htmACL的使用 ACL即Access Control List 主要的目的是提供传统的owner,group,others的read,write,execute权限之外的具体权限设置，ACL可以针对单一用户、单一文件或目录来进行r,w,x的权限控制，对于需要特殊权限的使用状况有一

2015-03-18 13:37:13 3175

原创 hadoop访问hdfs 的两种方式

hadoop 提供了两种方式对hdfs 进行访问：1 配置客户端，后台连接到客户端进行工作客户端的配置比较简单，只要把配置好的hadoop的namenode节点的hadoop 打包，发到另一台机器（该机器不出现在 etc/hadoop/slaves里就可以）设置一下环境变量 JAVA_HOME HADOOP_HOME 还有一些在hadoop xml配置的临时文件目录等也改一下（启

2015-03-18 13:06:20 24870

原创 hiveserver2 启动后jdbc 连接上的原因

1 首先修改 hive-site.xml hive.server2.thrift.port 10000 hive.server2.thrift.bind.host localhost 2 测试连接是否以连上不用写jdbc程序,运行 bin/beeline.sh然后输入 !connect jdbc:hive2://上面设置的ip地址:10000 hiv

2015-03-18 08:01:16 20256 3

原创 java 带有包名编译并运行，附带外部依赖jar包运行

今天写了个测试程序，带有包名，竟然忘记了怎么编译和运行，所以现在记下来1 带包程序的编译与运行package test;public class HiveJdbcClient { public static void main(String[] args) { System.out.println("-------------------"); }}程序中带有

2015-03-17 22:32:28 23694

原创 hive 配置注意事项及初始化hive 元数据

今天配置hive 犯了一个问题：下载的hive tar.gz 里的conf目录只有一个 hive-default.xml.template，于是我就cp 了一份命名为：hive-default.xml结果弄上去总是出现一个问题，就是我在 bin/ 运行hive 创建的database和在任意其他目录运行hive 创建的database （已配置好环境变量）在两个地方出现的并不相同，这个

2015-03-16 21:46:04 27534 3

原创 Hadoop 配置及hadoop HA 的配置

注：本文中提到的ochadoop 不要感到奇怪，是亚信公司内部自己合成的一个包，把所有的组件都放在一个包内了，免去了组件的下载过程和解决兼容问题，其实也可以自己下载的，不要受到影响。另，转载请注明出处，谢谢修改静态IP和hostname在 /etc/sysconfig/network-scripts/ifcfg-eth0配置IPADDR地址运行以下命

2015-03-15 09:00:18 9948

转载 hadoop-HA Hadoop 2.2.0版本HDFS的HA配置

http://blog.youkuaiyun.com/dmcpxy/article/details/18256607注：以下配置描述的是HDFS的QJM方式的HA配置。1.1 zookeeper集群配置这里我使用了三台机器(在笔记本上使用vmware创建了三个虚拟机来实现)部署zookeeper集群，机器IP分别是：l 192.168.111.130(hostname：hd0)

2015-03-06 13:41:37 736 1

转载 hadoop-HA hadoop2.0 HDFS搭建和HA切换

http://blog.youkuaiyun.com/kirayuan/article/details/17379743说到了hadoop2.0的新特性。这里详解一下搭建步骤以及原理。首先，需要在cdh官方下载对应的源码包：http://archive.cloudera.com/cdh4/cdh/4/ 以cdh4.3.1版本为例来进行说明。

2015-03-06 13:39:42 767

转载 Hadoop 的HA高可集群用性

原文地址： http://blog.youkuaiyun.com/caizhongda/article/details/7947480一、 Hadoop 的高可用性1. 概论本指南提供了一个HDFS 的高可用性（HA ）功能的概述，以及如何配置和管理HDFS 高可用性(HA) 集群。本文档假定读者具有对HDFS 集群的组件和节点类型具有一定理解。有关详情，请参阅Apache 的HDFS

2015-03-06 13:38:09 436

转载 HubbleDotNet+Mongodb 构建高性能搜索引擎--概述

转自：http://www.cnblogs.com/eaglet/archive/2012/05/10/2494073.htmlHubbleDotNet 从 1.2.3 版本以后开始在官方代码中支持和 Mongodb 对接，Mongodb 是10gen 公司开发的 no-sql 数据库，其读写性能比传统关系数据库要快很多，而且可以非常方便的分布式部署。HubbleDotNet

2015-01-30 14:39:07 1669

原创 mysql insertOrUpdate 用法

insert into deal_settlement values (#{dealId}, #{dealName}, #{status}, #{amount}, NOW()) ON DUPLICATE KEY UPDATE time = NOW()如果您指定了ON DUPLICATE KEY UPDATE，并且插入行后会导致在一个

2015-01-29 11:06:20 19758

转载 Flume环境部署和配置详解及案例大全

转自：http://www.jb51.net/article/53542.htmflume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。　　一、什么是Flume?　　flume 作为 cl

2015-01-15 17:48:39 2588

转载 hadoop 使用LZO （1）

转自：http://share.blog.51cto.com/278008/549393最近我们部门在测试云计算平台hadoop，我被lzo折腾了三四天，累了个够呛。在此总结一下，也给大家做个参考。操作系统：CentOS 5.5，Hadoop版本：hadoop-0.20.2-CDH3B4 安装lzo所需要软件包：gcc、ant、lzo、lzo编码/解

2015-01-10 18:18:17 651

转载 hadoop使用LZO （2）

转自：http://www.tech126.com/hadoop-lzo/自从Hadoop集群搭建以来，我们一直使用的是Gzip进行压缩当时，我对gzip压缩过的文件和原始的log文件分别跑MapReduce测试，最终执行速度基本差不多而且Hadoop原生支持Gzip解压，所以，当时就直接采用了Gzip压缩的方式关于Lzo压缩，twitter有一篇文章，

2015-01-10 18:17:02 645

转载 hadoop的压缩格式

转自：http://www.cnblogs.com/ggjucheng/archive/2012/04/22/2465580.htmlhadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的，hadoop能够自动为我们将压缩的文件解压，而不用我们去关心。如果我们压缩的文件有相应压缩格式的扩展名（比如lzo，gz，bzip2等），hadoop就会根据扩

2015-01-10 17:06:19 784

转载 Java 执行系统命令

转自：http://wuhongyu.iteye.com/blog/461477/通过 java.lang.Runtime 类可以方便的调用操作系统命令，或者一个可执行程序，下面的小例子我在windows和linux分别测试过，都通过。基本原理是，首先通过 Runtime.getRuntime() 返回与当前 Java 应用程序相关的运行时对象，然后调用run.exec(cmd) 另启一

2015-01-09 17:42:38 967

转载利用udf函数将Hive统计结果直接插入到MySQL

转自： http://www.linuxidc.com/Linux/2013-04/82878.htm大部分利用hive做数据分析的步骤是先用hive将统计结果导出到本地文件或者Hive的其他表中，再将本地文件导入到mysql或者利用sqoop将Hive表导入到mysql中。今天同事给推荐了一个利用udf函数直接将统计结果导入mysql的方法。步骤为

2015-01-09 16:56:14 1028

转载利用sqoop将hive数据导入导出数据到mysql

转自：http://blog.youkuaiyun.com/jiedushi/article/details/6663177运行环境 centos 5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具在使用过程中可能遇到的问题：sqoop依赖zookeep

2015-01-09 16:55:05 836

转载 java中的消息队列

转自：http://hi.baidu.com/caicono/item/6beb99d51e8e8a1ad78ed098消息队列是线程间通讯的手段：import java.util.*public class MsgQueue{ private Vector queue = null; public MsgQueue(){ qu

2014-12-31 16:12:21 2067

原创 mysql 存储及查询亿级数据

第一阶段：1，一定要正确设计索引2，一定要避免SQL语句全表扫描，所以SQL一定要走索引（如：一切的 > < != 等等之类的写法都会导致全表扫描）3，一定要避免 limit 10000000,20 这样的查询4，一定要避免 LEFT JOIN 之类的查询，不把这样的逻辑处理交给数据库5，每个表索引不要建太多，大数据时会增加数据库的写入压力第二阶段：1，采用分表技术（大表分小表）

2014-12-31 13:54:36 21988 1

转载利用 squid 反向代理提高网站性能

转自：http://www.ibm.com/developerworks/cn/linux/l-cn-squid/本文在介绍 squid 反向代理的工作原理的基础上，指出反向代理技术在提高网站访问速度，增强网站可用性、安全性方面有很好的用途。作者在具体的实验环境下，利用 DNS 轮询和 Squid 反向代理技术，实现了网站的负载均衡，从而提高了网站的可用性和可靠性。现在

2014-12-30 17:52:13 629

在JAVA中，是没有类似于PV操作、进程互斥等相关的方法的。JAVA的进程同步是通过synchronized()来实现的，需要说明的是，JAVA的synchronized()方法类似于操作系统概念中的互斥内存块，在JAVA中的Object类型中，都是带有一个内存锁的，在有线程获取该内存锁后，其它线程无法访问该内存，从而实现JAVA中简单的同步、互斥操作。明白这个原理，就能理解为什么synchron

2014-12-28 21:17:03 506

原创 Java基本功16课

1 数组数据初始化可以使用：int[] ary = new int[]{1,2....};或int[] ary = new int[10];但不能同时指定长度并初始数据，如int[] ary = int[2]{0,1};变量值和对象都存放在堆内存中，栈中存放的是他们的引用，方法是存放在栈中的，垃圾回收机制回收的只是堆中的东西，其他的东西不回收。2 类变量

2014-12-27 22:58:16 549

转载线程7种状态的相互转换

先从图片开始小小的作下解释：1、线程的实现有两种方式，一是继承Thread类，二是实现Runnable接口，但不管怎样，当我们new了这个对象后，线程就进入了初始状态；2、当该对象调用了start()方法，就进入可运行状态；3、进入可运行状态后，当该对象被操作系统选中，获得CPU时间片就会进入运行状态；4、进入运行状态后情况就比较复杂了 4.1、run()方法

2014-12-18 12:31:17 613