自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(106)
  • 收藏
  • 关注

原创 Cloudera Hadoop CDH上安装R及RHadoop(rhdfs/rmr2/rhbase/RHive)

转自:http://www.geedoo.info/installed-on-the-cloudera-hadoop-cdh-r-and-rhadoop-rhdfs-rmr2-rhbase-rhive.html前言:RHadoop是由Revolution Analytics发起的一个开源项目,它可以将统计语言R与Hadoop结合起来。目前该项目包括三个R packages,分别为支持用R来编...

2013-10-12 10:24:08 279

原创 eclipse Exception Java heap space

一直都知道可以设置jvm heap大小,一直用eclipse写/调试java程序。一直用命令行or console加参数跑程序。现象:在eclipse的配置文件eclipse.ini中设置-vmargs -Xms500m -Xmx1024m,在eclipse中直接run 或者debug某些耗内存的程序时依然出现java.lang.OutOfMemoryError: Java Heap Space...

2013-02-20 15:49:08 255

原创 MRUnit测试教程

https://cwiki.apache.org/confluence/display/MRUNIT/MRUnit+Tutorial

2013-02-19 19:31:28 241

原创 MRUnit使用

MRUnit是一个用于测试mapreduce程序的java框架,它可以很方便地测试Mapper和rudecer程序 使用方法:在maven中加入下面配置:<dependency> <groupId>org.apache.mrunit</groupId> <artifactId>mrunit</art...

2013-02-19 19:15:41 233

原创 LINUX下单机安装HADOOP+HIVE手册

HADOOP篇HADOOP安装1.tar -zvxf hadoop-0.19.2.tar.gz2.HADOOP的安装路径添加到环境文件/etc/profile中:export HADOOP_HOME=/home/hadoop/setup/hadoop-0.19.2export PATH=$HADOOP_HOME/bin:$PATHHADOOP配置1.在$HADOOP/...

2013-02-17 14:07:37 380

原创 【整理】MySQL引擎

【整理】MySQL引擎    MySQL数 据库引擎取决于MySQL在安装的时候是如何被编译的。要添加一个新的引擎,就必须重新编译MYSQL。在缺省情况下,MYSQL支持三个引擎:ISAM、MYISAM和HEAP。另外两种类型INNODB和BERKLEY(BDB),也常常可以使用。如果技术高超,还可以使用MySQL++ API自己做一个引擎。下面介绍几种数据库引擎:    ISAM:...

2013-01-14 10:32:51 125

原创 hadoop的mapreduce作业中经常出现Java heap space解决方案

我在进行两个大表的join时,任务显示成功,但Hadoop出现以下异常:报出错误如下: java.lang.RuntimeException:java.lang.reflect.InvocationTargetException      at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.j...

2012-12-18 16:31:41 691

原创 Hive 优化-限制用户误交大作业查询

最近有些同事些sql进行查询时,sql语句里不指定partition字段,这样直接造成hive生成Hadoop的MapReduce任务时查询的数据量巨大,从而影响整个集群的性能。经研究可以通过配置Hive参数来预防此类错误,从而达到优化的目的。在hive-site.xml中添加以下配置:<property><name>hive.mapred.mode</n...

2012-12-16 12:18:14 144

原创 Hive 查询优化【引文】

一、join优化Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个map...

2012-12-16 11:18:11 214

原创 linux zip 命令详解

linux zip 命令详解 功能说明:压缩文件。 语 法:zip [-AcdDfFghjJKlLmoqrSTuvVwXyz$][-b <工作目录>][-ll][-n <字尾字符串>][-t <日期时间>][-<压缩效率>][压缩文件][文件...][-i <范本样式>][-x <范本样式>] 补充说明:zip是个使用广...

2012-12-05 10:52:16 138

原创 Zookeeper集群安装部署

 准备1.        下载zookeeper,下载地址http://www.apache.org/dyn/closer.cgi/zookeeper,此处为zookeeper-3.3.22.        分别解压至zookeepr集群机器(一般为基数台机器)相应目录(此处为$ZOOKEEPER_HOME),集群为mem1,mem2,mem3(hosts对应)。配置1....

2012-10-09 11:57:28 133

原创 Hadoop的shell脚本分析

Hadoop的shell脚本分析        这些天一直学习hadoop,学习中也遇到了许多的问题,主要是对hadoop的shell脚本和hadoop的源码概念不够清楚,所以我就对hadoop的bin目录下的shell脚本进行了研究,有一些成果想记录下来。 脚本分析: bin=`dirname "$0"`bin=`cd "$bin"; pwd`if [ -e "$...

2012-09-17 17:57:22 135

原创 单机版搭建hadoop环境图文解析

单机版搭建hadoop环境图文解析  安装过程: 一、安装Linux操作系统二、在Ubuntu下创建hadoop用户组和用户三、在Ubuntu下安装JDK四、修改机器名五、安装ssh服务六、建立ssh无密码登录本机七、安装hadoop八、在单机上运行hadoop一、安装Linux操作系统 略二、在Ubuntu下创建hadoop用户组和用户 这里考虑的是以后涉及到hadoo...

2012-09-17 17:31:20 300

原创 MongoDB主从复制认证要点

1、主服务器和从服务器必须开启安全认证:--auth2、主服务器和从服务器的admin数据库中必须有全局用户。   在MongoDB2.0.2版本测试时,从服务器的admin数据库中没有全局用户时也能进行复制,尽管admin中无用户,客户端连接此服务器不进行验证(即--auth参数失效),但从服务器的--auth必须指定。既然启用了--auth,就应该在从服务器的admin中增加一个用户。3、...

2012-07-31 20:06:15 185

原创 Nginx启动出错 error while loading shared libraries:

root@localhost conf]# /usr/local/nginx/sbin/nginx/usr/local/nginx/sbin/nginx: error while loading shared libraries: libpcre.so.1: cannot open shared object file: No such file or directory 从错误看出是缺少li...

2012-07-12 17:19:28 205

原创 Nginx完整配置说明

#用户 用户组 user www www; #工作进程,根据硬件调整,有人说几核cpu,就配几个,我觉得可以多一点 worker_processes 5; #错误日志 error_log logs/error.log; #pid文件位置 pid logs/nginx.pid; worker_rlimit_...

2012-07-12 17:18:23 109

原创 大数据行业现6大潜力公司 Splunk上市受瞩目

 比特网(ChinaByte)4月22日消息 据外电消息报道,美国软件公司Splunk周四在纳斯达克的首日交易令人印象深刻,该公司股价当日报收于35.48美元,与17美元的IPO(首次公开募股)发行价相比翻了一番。这引发了投资者对一直相对不起眼的大数据公司板块的关注。  该外电称,“大数据”基本上是一个包罗万象的术语,指的是收集和分析大量信息的能力,而这些信息涉及到人类生活的方方面面。过去数据...

2012-04-25 21:44:40 335

原创 Linux Ubuntu 10.10安装Macbuntu 10.10主题

Macbuntu 是一个用于 Ubuntu 的Mac主题包,通过其提供的 install.sh 脚本就可以把 Ubuntu 用一个命令打造成漂亮的苹果 Mac 风格,并且Macbuntu 提供多样的风格调整。当运行安装脚本时,Macbuntu 会自动安装 Compiz Extras 、Global Menu 、Docky 及 Ubuntu-Tweak 等软件,同时会自动配置好登录界面、Me...

2012-03-31 18:28:50 166

原创 文件传输命令PSCP的使用

详解使用pscp命令Linux文件上传与下载PSCP是一个文件上传下载的命令,他是PUTTY的一个命令。有Window版本的也有Linux版本的。Windows下直接使用pscp.exe。Linux下安装putty就可以了。  pscp是putty安装包所带的远程文件传输工具,使用和Linux下scp命令相似,具体的使用方法如下:  PSCP和SCP功能相同,在windows下使用...

2012-03-30 15:41:08 581

原创 Linux 下Mysql备份与恢复

公司项目用到了Mysql的备份与恢复操作 现把脚本程序做下笔记 Mysql备份与恢复#!/bin/shdir=/home/atj/data/tmpecho -------DB_Publish-------`if [ ! -e $dir ]; then mkdir -p $dirfibackup() { aip=$1...

2012-03-29 16:30:41 130

原创 ((ParameterizedType) getClass().getGenericSuperclass()).getActualTypeArguments()

getClass().getGenericSuperclass()返回表示此 Class 所表示的实体(类、接口、基本类型或 void)的直接超类的 Type然后将其转换ParameterizedType。。getActualTypeArguments()返回表示此类型实际类型参数的 Type 对象的数组。[0]就是这个数组中第一个了。。简而言之就是获得超类的泛型参...

2012-02-29 10:54:27 299

原创 Lucene学习三:Lucene索引文件格式(1)

Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙。当我们真正进入到Lucene源代码之中的时候,我们会发现:Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。 Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程。 本文详细解读了...

2011-12-07 22:53:39 100

原创 Lucene学习二:Lucene总体框架

Lucene总的来说是: 一个高效的,可扩展的,全文检索库。 全部用Java实现,无须配置。 仅支持纯文本文件的索引(Indexing)和搜索(Search)。 不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。在Lucene in action中,Lucene 的构架和过程如下图,  说明Lucene是有索引和搜索的两个过程,包含索引创建,索引,搜索...

2011-12-07 22:31:03 105

原创 Lucene学习一:全文检索基本原理

一、总论根据http://lucene.apache.org/java/docs/index.html定义:Lucene是一个高效的,基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据和非结构化数据。结构化数据:指具有固定格式或有限长度的数据,如数据...

2011-12-07 22:22:34 124

原创 Nmap参数使用详解

Linux下的Nmap是自带的,只需要在【添加/删除应用程序】中安装即可。官方参考资料:http://nmap.org/man/zh/man-os-detection.html 扫描类型 -sT TCP connect()扫描:这是最基本的TCP扫描方式。connect()是一种系统调用,由操作系统提供,用来打开一个连接。如果目标端口有程序监听, connect...

2011-11-19 11:11:23 894

SuperScan扫描端口

端口扫描工具:SuperScan的使用总结在[主机/ip ]中我填入了本地ip(192.168.0.2)和我使用动态域名访问我本地的服务器的网址(http://zenoh.gnway.net/) 如下图: 然后点play发现:TCP和UDP的端口扫描结果都为0,(这我也没有找打原因,希望知道的不吝赐教) 修改【Host and Service  discover...

2011-11-17 23:00:17 4431 4

原创 常见的端口扫描类型及原理

常见的扫描类型有以下几种:     秘密扫描秘密扫描是一种不被审计工具所检测的扫描技术。它通常用于在通过普通的防火墙或路由器的筛选(filtering)时隐藏自己。秘密扫描能躲避IDS、防火墙、包过滤器和日志审计,从而获取目标端口的开放或关闭的信息。由于没有包含TCP 3次握手协议的任何部分,所以无法被记录下来,比半连接扫描更为隐蔽。但是这种扫描的缺点是扫描结果的不可靠性会增加,而且扫...

2011-11-17 22:34:36 2842

原创 NetStat -r 查询分析路由表

  使用netstat -r查看当前系统路由表  这个表提供的信息为:1,局域网是192。168。203的IP段,你的IP地址是128,网关设置为2,如果你访问的网络是任意网络(0.0.0.0),你将从网关192.168.203.2这个出口出去。2,内部循环网络是规定为127.0.0.0的网段,你的内部地址是127.0.0.1,如果你ping localhost,讲返回12...

2011-11-15 22:30:25 5298

原创 Java的内存泄露的原因与防止

http://www.lybbs.net/news_read.do?newsPath=2007/9/25/1190684628458.html  1 引言     Java的一个重要优点就是通过垃圾收集器GC (Garbage Collection)自动管理内存的回收,程序员不需要通过调用函数来释放内存。因此,很多程序员认为Java 不存在内存泄漏问题,或者认为即使有内存泄漏也不是程序...

2011-11-04 16:02:50 143

原创 Java内存泄露的理解与解决【转】

Java内存管理机制在C++语言中,如果需要动态分配一块内存,程序员需要负责这块内存的整个生命周期。从申请分配、到使用、再到最后的释放。这样的过程非常灵活,但是却十分繁琐,程序员很容易由于疏忽而忘记释放内存,从而导致内存的泄露。Java语言对内存管理做了自己的优化,这就是垃圾回收机制。Java的几乎所有内存对象都是在堆内存上分配(基本数据类型除外),然后由GC(garbage collecti...

2011-11-04 15:33:15 115

原创 浅谈Java的volatile,transient

Java 语言中的 volatile 变量可以被看作是一种 “程度较轻的 synchronized”;与 synchronized 块相比,volatile 变量所需的编码较少,并且运行时开销也较少,但是它所能实现的功能也仅是 synchronized 的一部分。我们知道,在Java中设置变量值的操作,除了long和double类型的变量外都是原子操作,也就是说,对于变量值的简单读写操作没有必...

2011-11-04 09:18:20 139

原创 “+”操作符在Java内部是如何实现字符串连接的?

字符串是Java程序中最常用的一种数据结构之一。在Java中的String类已经重载的"+"。也就是说,字符串可以直接使用"+"进行连接,如下面代码所示:String s = "abc" + "ddd";但这样做真的好吗?当然,这个问题不能简单地回答yes or no。要根据具体情况来定。在Java中提供了一个StringBuilder类(这个类只在J2SE5及以上版本提供,以前的版本使用...

2011-11-04 08:38:18 310

原创 深入探讨 Java 类加载器【转】

深入探讨 Java 类加载器 原文:http://www.ibm.com/developerworks/cn/java/j-lo-classloader/

2011-11-03 21:54:20 218

原创 Ajax原理

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml" ><head> &am

2011-11-02 23:23:25 104

原创 深入Java核心 Java内存分配原理精讲

Java内存分配与管理是Java的核心技术之一,之前我们曾介绍过Java的内存管理与内存泄露以及Java垃圾回收方面的知识,今天我们再次深入Java核心,详细介绍一下Java在内存分配方面的知识。一般Java在内存分配时会涉及到以下区域:◆寄存器:我们在程序中无法控制◆栈:存放基本类型的数据和对象的引用,但对象本身不存放在栈中,而是存放在堆中◆堆:存放用new产生的数据◆静态域:存...

2011-11-02 22:17:06 84

原创 Java程序查错

Java代码查错题:1.abstract class Name { private String name; public abstract boolean isStupidName(String name) {} }答案: 错。abstract method必须以分号结尾,且不带花括号。2. public class So...

2011-10-31 20:22:48 147

原创 forward和redirect的区别

forward和redirect的区别 1.从地址栏显示来说forward是服务器请求资源,服务器直接访问目标地址的URL,把那个URL的响应内容读取过来,然后把这些内容再发给浏览器.浏览器根本不知道服务器发送的内容从哪里来的,所以它的地址栏还是原来的地址.redirect是服务端根据逻辑,发送一个状态码,告诉浏览器重新去请求那个地址.所以地址栏显示的是新的URL.2.从数据...

2011-10-31 15:35:19 102

原创 inner join left join right join on where

理解 inner join 和 outer join inner join :从两个或多个表中,仅返回满足关联条件的行。 left (outer) join :tableA left join tableB 返回表A中所有的记录,对表B中没有符合关联条件的记录返回NULL full (outer) join:tableA full join tableB 返回表A和B中所有的记录,没有符合关联条件...

2011-10-17 15:31:30 111

原创 Hibernate 继承关系的映射

Hibernate 继承关系的映射 在Java或.Net类与类之间存在关联、聚集和继承关系。一般来说:关联关系:采用“一对多或一对一”的映射即可;聚集关系:采用“集合映射”,即映射Set,Bag,List,Map继承关系:因为关系数据库的表之间不存在继承关系,所以Hibernate提供了以下三种对继承关系映射的方法,即在继承关系树中:(1)、每个具体类(非抽象类)对应一...

2011-10-06 20:35:37 99

原创 discriminator-value

可能经常遇到这样的情况:       在数据库表中会有这样的一个字段用来区别记录的属性,如:在客户表中有一个字段表示客户级别,当这个记录为A时是一级客户,为B时是二级客户。在用hiberante做OR表示时类可能是这样的:       public class Customer{          private String flag;   //表示客户的级别          ...     ...

2011-10-06 19:54:47 227

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除