- 博客(106)
- 收藏
- 关注
原创 Cloudera Hadoop CDH上安装R及RHadoop(rhdfs/rmr2/rhbase/RHive)
转自:http://www.geedoo.info/installed-on-the-cloudera-hadoop-cdh-r-and-rhadoop-rhdfs-rmr2-rhbase-rhive.html前言:RHadoop是由Revolution Analytics发起的一个开源项目,它可以将统计语言R与Hadoop结合起来。目前该项目包括三个R packages,分别为支持用R来编...
2013-10-12 10:24:08
279
原创 eclipse Exception Java heap space
一直都知道可以设置jvm heap大小,一直用eclipse写/调试java程序。一直用命令行or console加参数跑程序。现象:在eclipse的配置文件eclipse.ini中设置-vmargs -Xms500m -Xmx1024m,在eclipse中直接run 或者debug某些耗内存的程序时依然出现java.lang.OutOfMemoryError: Java Heap Space...
2013-02-20 15:49:08
255
原创 MRUnit测试教程
https://cwiki.apache.org/confluence/display/MRUNIT/MRUnit+Tutorial
2013-02-19 19:31:28
241
原创 MRUnit使用
MRUnit是一个用于测试mapreduce程序的java框架,它可以很方便地测试Mapper和rudecer程序 使用方法:在maven中加入下面配置:<dependency> <groupId>org.apache.mrunit</groupId> <artifactId>mrunit</art...
2013-02-19 19:15:41
233
原创 LINUX下单机安装HADOOP+HIVE手册
HADOOP篇HADOOP安装1.tar -zvxf hadoop-0.19.2.tar.gz2.HADOOP的安装路径添加到环境文件/etc/profile中:export HADOOP_HOME=/home/hadoop/setup/hadoop-0.19.2export PATH=$HADOOP_HOME/bin:$PATHHADOOP配置1.在$HADOOP/...
2013-02-17 14:07:37
380
原创 【整理】MySQL引擎
【整理】MySQL引擎 MySQL数 据库引擎取决于MySQL在安装的时候是如何被编译的。要添加一个新的引擎,就必须重新编译MYSQL。在缺省情况下,MYSQL支持三个引擎:ISAM、MYISAM和HEAP。另外两种类型INNODB和BERKLEY(BDB),也常常可以使用。如果技术高超,还可以使用MySQL++ API自己做一个引擎。下面介绍几种数据库引擎: ISAM:...
2013-01-14 10:32:51
125
原创 hadoop的mapreduce作业中经常出现Java heap space解决方案
我在进行两个大表的join时,任务显示成功,但Hadoop出现以下异常:报出错误如下: java.lang.RuntimeException:java.lang.reflect.InvocationTargetException at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.j...
2012-12-18 16:31:41
691
原创 Hive 优化-限制用户误交大作业查询
最近有些同事些sql进行查询时,sql语句里不指定partition字段,这样直接造成hive生成Hadoop的MapReduce任务时查询的数据量巨大,从而影响整个集群的性能。经研究可以通过配置Hive参数来预防此类错误,从而达到优化的目的。在hive-site.xml中添加以下配置:<property><name>hive.mapred.mode</n...
2012-12-16 12:18:14
144
原创 Hive 查询优化【引文】
一、join优化Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个map...
2012-12-16 11:18:11
214
原创 linux zip 命令详解
linux zip 命令详解 功能说明:压缩文件。 语 法:zip [-AcdDfFghjJKlLmoqrSTuvVwXyz$][-b <工作目录>][-ll][-n <字尾字符串>][-t <日期时间>][-<压缩效率>][压缩文件][文件...][-i <范本样式>][-x <范本样式>] 补充说明:zip是个使用广...
2012-12-05 10:52:16
138
原创 Zookeeper集群安装部署
准备1. 下载zookeeper,下载地址http://www.apache.org/dyn/closer.cgi/zookeeper,此处为zookeeper-3.3.22. 分别解压至zookeepr集群机器(一般为基数台机器)相应目录(此处为$ZOOKEEPER_HOME),集群为mem1,mem2,mem3(hosts对应)。配置1....
2012-10-09 11:57:28
133
原创 Hadoop的shell脚本分析
Hadoop的shell脚本分析 这些天一直学习hadoop,学习中也遇到了许多的问题,主要是对hadoop的shell脚本和hadoop的源码概念不够清楚,所以我就对hadoop的bin目录下的shell脚本进行了研究,有一些成果想记录下来。 脚本分析: bin=`dirname "$0"`bin=`cd "$bin"; pwd`if [ -e "$...
2012-09-17 17:57:22
135
原创 单机版搭建hadoop环境图文解析
单机版搭建hadoop环境图文解析 安装过程: 一、安装Linux操作系统二、在Ubuntu下创建hadoop用户组和用户三、在Ubuntu下安装JDK四、修改机器名五、安装ssh服务六、建立ssh无密码登录本机七、安装hadoop八、在单机上运行hadoop一、安装Linux操作系统 略二、在Ubuntu下创建hadoop用户组和用户 这里考虑的是以后涉及到hadoo...
2012-09-17 17:31:20
300
原创 MongoDB主从复制认证要点
1、主服务器和从服务器必须开启安全认证:--auth2、主服务器和从服务器的admin数据库中必须有全局用户。 在MongoDB2.0.2版本测试时,从服务器的admin数据库中没有全局用户时也能进行复制,尽管admin中无用户,客户端连接此服务器不进行验证(即--auth参数失效),但从服务器的--auth必须指定。既然启用了--auth,就应该在从服务器的admin中增加一个用户。3、...
2012-07-31 20:06:15
185
原创 Nginx启动出错 error while loading shared libraries:
root@localhost conf]# /usr/local/nginx/sbin/nginx/usr/local/nginx/sbin/nginx: error while loading shared libraries: libpcre.so.1: cannot open shared object file: No such file or directory 从错误看出是缺少li...
2012-07-12 17:19:28
205
原创 Nginx完整配置说明
#用户 用户组 user www www; #工作进程,根据硬件调整,有人说几核cpu,就配几个,我觉得可以多一点 worker_processes 5; #错误日志 error_log logs/error.log; #pid文件位置 pid logs/nginx.pid; worker_rlimit_...
2012-07-12 17:18:23
109
原创 大数据行业现6大潜力公司 Splunk上市受瞩目
比特网(ChinaByte)4月22日消息 据外电消息报道,美国软件公司Splunk周四在纳斯达克的首日交易令人印象深刻,该公司股价当日报收于35.48美元,与17美元的IPO(首次公开募股)发行价相比翻了一番。这引发了投资者对一直相对不起眼的大数据公司板块的关注。 该外电称,“大数据”基本上是一个包罗万象的术语,指的是收集和分析大量信息的能力,而这些信息涉及到人类生活的方方面面。过去数据...
2012-04-25 21:44:40
335
原创 Linux Ubuntu 10.10安装Macbuntu 10.10主题
Macbuntu 是一个用于 Ubuntu 的Mac主题包,通过其提供的 install.sh 脚本就可以把 Ubuntu 用一个命令打造成漂亮的苹果 Mac 风格,并且Macbuntu 提供多样的风格调整。当运行安装脚本时,Macbuntu 会自动安装 Compiz Extras 、Global Menu 、Docky 及 Ubuntu-Tweak 等软件,同时会自动配置好登录界面、Me...
2012-03-31 18:28:50
166
原创 文件传输命令PSCP的使用
详解使用pscp命令Linux文件上传与下载PSCP是一个文件上传下载的命令,他是PUTTY的一个命令。有Window版本的也有Linux版本的。Windows下直接使用pscp.exe。Linux下安装putty就可以了。 pscp是putty安装包所带的远程文件传输工具,使用和Linux下scp命令相似,具体的使用方法如下: PSCP和SCP功能相同,在windows下使用...
2012-03-30 15:41:08
581
原创 Linux 下Mysql备份与恢复
公司项目用到了Mysql的备份与恢复操作 现把脚本程序做下笔记 Mysql备份与恢复#!/bin/shdir=/home/atj/data/tmpecho -------DB_Publish-------`if [ ! -e $dir ]; then mkdir -p $dirfibackup() { aip=$1...
2012-03-29 16:30:41
130
原创 ((ParameterizedType) getClass().getGenericSuperclass()).getActualTypeArguments()
getClass().getGenericSuperclass()返回表示此 Class 所表示的实体(类、接口、基本类型或 void)的直接超类的 Type然后将其转换ParameterizedType。。getActualTypeArguments()返回表示此类型实际类型参数的 Type 对象的数组。[0]就是这个数组中第一个了。。简而言之就是获得超类的泛型参...
2012-02-29 10:54:27
299
原创 Lucene学习三:Lucene索引文件格式(1)
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙。当我们真正进入到Lucene源代码之中的时候,我们会发现:Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。 Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程。 本文详细解读了...
2011-12-07 22:53:39
100
原创 Lucene学习二:Lucene总体框架
Lucene总的来说是: 一个高效的,可扩展的,全文检索库。 全部用Java实现,无须配置。 仅支持纯文本文件的索引(Indexing)和搜索(Search)。 不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。在Lucene in action中,Lucene 的构架和过程如下图, 说明Lucene是有索引和搜索的两个过程,包含索引创建,索引,搜索...
2011-12-07 22:31:03
105
原创 Lucene学习一:全文检索基本原理
一、总论根据http://lucene.apache.org/java/docs/index.html定义:Lucene是一个高效的,基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据和非结构化数据。结构化数据:指具有固定格式或有限长度的数据,如数据...
2011-12-07 22:22:34
124
原创 Nmap参数使用详解
Linux下的Nmap是自带的,只需要在【添加/删除应用程序】中安装即可。官方参考资料:http://nmap.org/man/zh/man-os-detection.html 扫描类型 -sT TCP connect()扫描:这是最基本的TCP扫描方式。connect()是一种系统调用,由操作系统提供,用来打开一个连接。如果目标端口有程序监听, connect...
2011-11-19 11:11:23
894
SuperScan扫描端口
端口扫描工具:SuperScan的使用总结在[主机/ip ]中我填入了本地ip(192.168.0.2)和我使用动态域名访问我本地的服务器的网址(http://zenoh.gnway.net/) 如下图: 然后点play发现:TCP和UDP的端口扫描结果都为0,(这我也没有找打原因,希望知道的不吝赐教) 修改【Host and Service discover...
2011-11-17 23:00:17
4431
4
原创 常见的端口扫描类型及原理
常见的扫描类型有以下几种: 秘密扫描秘密扫描是一种不被审计工具所检测的扫描技术。它通常用于在通过普通的防火墙或路由器的筛选(filtering)时隐藏自己。秘密扫描能躲避IDS、防火墙、包过滤器和日志审计,从而获取目标端口的开放或关闭的信息。由于没有包含TCP 3次握手协议的任何部分,所以无法被记录下来,比半连接扫描更为隐蔽。但是这种扫描的缺点是扫描结果的不可靠性会增加,而且扫...
2011-11-17 22:34:36
2842
原创 NetStat -r 查询分析路由表
使用netstat -r查看当前系统路由表 这个表提供的信息为:1,局域网是192。168。203的IP段,你的IP地址是128,网关设置为2,如果你访问的网络是任意网络(0.0.0.0),你将从网关192.168.203.2这个出口出去。2,内部循环网络是规定为127.0.0.0的网段,你的内部地址是127.0.0.1,如果你ping localhost,讲返回12...
2011-11-15 22:30:25
5298
原创 Java的内存泄露的原因与防止
http://www.lybbs.net/news_read.do?newsPath=2007/9/25/1190684628458.html 1 引言 Java的一个重要优点就是通过垃圾收集器GC (Garbage Collection)自动管理内存的回收,程序员不需要通过调用函数来释放内存。因此,很多程序员认为Java 不存在内存泄漏问题,或者认为即使有内存泄漏也不是程序...
2011-11-04 16:02:50
143
原创 Java内存泄露的理解与解决【转】
Java内存管理机制在C++语言中,如果需要动态分配一块内存,程序员需要负责这块内存的整个生命周期。从申请分配、到使用、再到最后的释放。这样的过程非常灵活,但是却十分繁琐,程序员很容易由于疏忽而忘记释放内存,从而导致内存的泄露。Java语言对内存管理做了自己的优化,这就是垃圾回收机制。Java的几乎所有内存对象都是在堆内存上分配(基本数据类型除外),然后由GC(garbage collecti...
2011-11-04 15:33:15
115
原创 浅谈Java的volatile,transient
Java 语言中的 volatile 变量可以被看作是一种 “程度较轻的 synchronized”;与 synchronized 块相比,volatile 变量所需的编码较少,并且运行时开销也较少,但是它所能实现的功能也仅是 synchronized 的一部分。我们知道,在Java中设置变量值的操作,除了long和double类型的变量外都是原子操作,也就是说,对于变量值的简单读写操作没有必...
2011-11-04 09:18:20
139
原创 “+”操作符在Java内部是如何实现字符串连接的?
字符串是Java程序中最常用的一种数据结构之一。在Java中的String类已经重载的"+"。也就是说,字符串可以直接使用"+"进行连接,如下面代码所示:String s = "abc" + "ddd";但这样做真的好吗?当然,这个问题不能简单地回答yes or no。要根据具体情况来定。在Java中提供了一个StringBuilder类(这个类只在J2SE5及以上版本提供,以前的版本使用...
2011-11-04 08:38:18
310
原创 深入探讨 Java 类加载器【转】
深入探讨 Java 类加载器 原文:http://www.ibm.com/developerworks/cn/java/j-lo-classloader/
2011-11-03 21:54:20
218
原创 Ajax原理
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml" ><head> &am
2011-11-02 23:23:25
104
原创 深入Java核心 Java内存分配原理精讲
Java内存分配与管理是Java的核心技术之一,之前我们曾介绍过Java的内存管理与内存泄露以及Java垃圾回收方面的知识,今天我们再次深入Java核心,详细介绍一下Java在内存分配方面的知识。一般Java在内存分配时会涉及到以下区域:◆寄存器:我们在程序中无法控制◆栈:存放基本类型的数据和对象的引用,但对象本身不存放在栈中,而是存放在堆中◆堆:存放用new产生的数据◆静态域:存...
2011-11-02 22:17:06
84
原创 Java程序查错
Java代码查错题:1.abstract class Name { private String name; public abstract boolean isStupidName(String name) {} }答案: 错。abstract method必须以分号结尾,且不带花括号。2. public class So...
2011-10-31 20:22:48
147
原创 forward和redirect的区别
forward和redirect的区别 1.从地址栏显示来说forward是服务器请求资源,服务器直接访问目标地址的URL,把那个URL的响应内容读取过来,然后把这些内容再发给浏览器.浏览器根本不知道服务器发送的内容从哪里来的,所以它的地址栏还是原来的地址.redirect是服务端根据逻辑,发送一个状态码,告诉浏览器重新去请求那个地址.所以地址栏显示的是新的URL.2.从数据...
2011-10-31 15:35:19
102
原创 inner join left join right join on where
理解 inner join 和 outer join inner join :从两个或多个表中,仅返回满足关联条件的行。 left (outer) join :tableA left join tableB 返回表A中所有的记录,对表B中没有符合关联条件的记录返回NULL full (outer) join:tableA full join tableB 返回表A和B中所有的记录,没有符合关联条件...
2011-10-17 15:31:30
111
原创 Hibernate 继承关系的映射
Hibernate 继承关系的映射 在Java或.Net类与类之间存在关联、聚集和继承关系。一般来说:关联关系:采用“一对多或一对一”的映射即可;聚集关系:采用“集合映射”,即映射Set,Bag,List,Map继承关系:因为关系数据库的表之间不存在继承关系,所以Hibernate提供了以下三种对继承关系映射的方法,即在继承关系树中:(1)、每个具体类(非抽象类)对应一...
2011-10-06 20:35:37
99
原创 discriminator-value
可能经常遇到这样的情况: 在数据库表中会有这样的一个字段用来区别记录的属性,如:在客户表中有一个字段表示客户级别,当这个记录为A时是一级客户,为B时是二级客户。在用hiberante做OR表示时类可能是这样的: public class Customer{ private String flag; //表示客户的级别 ... ...
2011-10-06 19:54:47
227
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人