- 博客(48)
- 资源 (15)
- 收藏
- 关注
转载 MapReduce实现基本SQL操作的原理-join和group by,以及Dinstinct
http://m.blog.youkuaiyun.com/blog/a11123939/43446027详细讲解SQL编译为MapReduce之前,我们先来看看MapReduce框架实现SQL基本操作的原理Join的实现原理select u.name, o.orderid from order o join user u on o.uid = u.uid;在map的输出
2015-08-06 15:55:12
1352
转载 Win7 Eclipse调试Centos Hadoop2.2-Mapreduce
一.自己搭建开发环境 今天自己搭建了一套Centos5.3 + Hadoop2.2 + Hbase0.96.1.1的开发环境,Win7 Eclipse调试MapReduce成功。可能是版本比较高的原因,出了问题,网上找不到完整解决方案,只能靠自己。 二.Hadoop安装 这个就不啰嗦了,网上大把文章。我下载的是hadoop-2.2.0.tar.gz。
2015-04-28 16:30:30
964
转载 org.apache.hadoop.io.nativeio.NativeIO$Windows.access0
1.path环境变量2.Hadoop bin目录下hadoop.dll和winutils.exe3.c:\windows\system32 下的hadoop.dll4.64为jdk条件都满足了还是报错通过修改源码解决。修改org.apache.hadoop.io.nativeio大概 在 572行 修改如下。
2015-04-28 16:26:57
2891
转载 mapreduce中控制mapper的数量
很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper等于文件的数量(即每个文件都占据了一个block),那么很可能造成启动的Mapper数量超出限制而导
2015-04-07 21:36:15
1107
转载 MapReduce任务参数调优
本文主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Yarn的调优。Hadoop的默认配置文件(以cdh5.0.1为例):core-default.xmlhdfs-default.xmlmapred-default.xml说明:在hadoop2中有些参数名称过时了,例如原来的mapred.reduce.tasks改名为mapreduce.job.redu
2015-04-07 21:34:41
857
转载 HBase Coprocessor 之 endpiont(hbase 0.96.0)
好文章。收藏下本文是基于hbase 0.96.0 测试的,理论上支持hbase 0.94 以上版本!!HBase有两种协处理器(Coprocessor)1、RegionObserver :类似于关系型数据库的触发器2、Endpoint:类似于关系型数据库的存储过程,本文将介绍此种Coprocessor.Endpoint 允许您定义自己的动态R
2015-04-02 18:28:13
673
原创 hadoop hbase hive 常见问题解决
Hadoop常见问题,hbase常见问题,hive常见问题。结合网络资料 和自己遇到的整理。
2015-03-24 10:29:59
122791
转载 Hadoop集群内lzo的安装与配置
为了配合部门hadoop平台测试,作者详细的介绍了如何在Hadoop平台下安装lzo所需要软件包:gcc、ant、lzo、lzo编码/解码器并配置lzo的文件:core-site.xml、mapred-site.xml。希望对大家有所帮助。以下是正文:最近我们部门在测试云计算平台hadoop,我被lzo折腾了三四天,累了个够呛。在此总结一下,也给大家做个参考。操作系统:CentOS 5.5
2015-02-15 18:13:07
765
转载 搭建sqoop的eclipse调试环境
CDH源码地址http://archive.cloudera.com/cdh5/cdh/5/a、导入到sqoop到eclipse中:下载sqoop 1.3的tar包解压,我们打开build.xml,发现的target,我们只需要执行,ant eclipse,就可以ant脚本就可以给我们生成eclipse的工程文件,我们只需要在eclipse中导入即可。b、调试sqoop:由
2014-12-25 16:57:44
1060
转载 Tomcat内存设置详解
Java内存溢出详解 一、常见的Java内存溢出有以下三种: 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap(堆)溢出JVM在启动的时候会自动设置JVM Heap的值,其初始空间(即-Xms)是物理内存的1/64,最大空间(-Xmx)不可超过物理内存。可以利用JVM提供的-Xmn -Xms -Xmx
2014-12-09 18:08:37
471
转载 Tomcat 7.0.3x 启动慢并且遇到StackOverflowError的异常的解决办法
之前使用tomcat7时遇到启动报错问题,日志如下:Dec 09, 2014 5:25:04 PM org.apache.catalina.core.ContainerBase startInternalSEVERE: A child container failed during startjava.util.concurrent.ExecutionException: ja
2014-12-09 17:47:18
1558
转载 高低位字节序
什么是Big Endian和Little Endian?来源:http://blog.ednchina.com/qinyonglyz/194674/message.aspx1.故事的起源“endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开,由此曾发生过六次叛乱,其中一个皇帝送
2014-12-07 17:08:08
1292
转载 shell编程——if语句
if 条件then Commandelse Commandfi 别忘了这个结尾If语句忘了结尾fitest.sh: line 14: syntax error: unexpectedend of fi if的三种条件表达式ifcommand
2014-12-06 15:13:20
871
转载 Java编程中“为了性能”尽量要做到的一些地方
1. 尽量在合适的场合使用单例使用单例可以减轻加载的负担,缩短加载的时间,提高加载的效率,但并不是所有地方都适用于单例,简单来说,单例主要适用于以下三个方面:第一,控制资源的使用,通过线程同步来控制资源的并发访问;第二,控制实例的产生,以达到节约资源的目的;第三,控制数据共享,在不建立直接关联的条件下,让多个不相关的进程或线程之间实现通信。2. 尽量避免随意使用静态
2014-12-04 20:07:18
503
转载 Hive SQL优化之 Count Distinct
Hive是Hadoop的子项目,它提供了对数据的结构化管理和类SQL语言的查询功能。SQL的交互方式极大程度地降低了Hadoop生态环境中数据处理的门槛,用户不需要编写程序,通过SQL语句就可以对数据进行分析和处理。目前很多计算需求都可以由Hive来完成,极大程度地降低了开发成本。目前,Hive底层使用MapReduce作为实际计算框架,SQL的交互方式隐藏了大部分MapReduce的细节。这
2014-11-24 22:58:23
626
转载 hive优化之 控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有
2014-11-24 22:56:53
477
转载 hbase-indexer
This page explains how to start doing basic indexing in HBase. Before following this tutorial, make sure that the HBase Indexer and other required software is installed and running as explained in the
2014-11-23 23:07:00
1094
转载 Java Garbage Collection Monitoring and Analysis
In this Java garbage collection tutorial series let us look about the tools available for garbage collection monitoring and analysis. Then use a tool and monitor an example Java application for garbag
2014-11-23 22:32:48
898
转载 Apache Solr real-time live index updates at scale with Apache Hadoop
We talked about the new work that has gone into Apache Solr (upstream) that allows it to work on Apache Hadoop. Solr has support for writing and reading its index and transaction log files to the HDFS
2014-11-23 22:26:52
985
转载 ganglia收集hbase的metrics
Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式,才使得 Ganglia 可以实现良好的扩展。gmond 带来的
2014-11-23 22:23:11
763
转载 实时系统HBase读写优化--大量写入无障碍
在使用hbase过程中发现在写入hbase的数据量很大时,经常发生写不进去的情况。而我们基于hbase的应用是对实时性要求很高的,一旦hbase不能读写则会大大影响系统的使用。下面将记录hbase写优化的过程。1.禁止Major Compaction在hbase进行Major Compaction时,该region将合并所有的storefile,因此整个region都不可读,所有对
2014-11-17 19:45:48
865
原创 linux机器进行双网卡绑定
在网卡绑定的时候,4个网卡做2个绑定。绑定的效果受网段的影响。最好2个网段分开。一个绑定实例i: 绑定 0DEVICE=bond0ONBOOT=yesBOOTPROTO=noneIPADDR=192.168.5.9NETMASK=255.255.240.0GATEWAY=192.168.1.254USERCTL=noBONDING_OPTS="miimo
2014-11-16 21:19:16
788
原创 hbase入库速度测试
15827000000 scan 't1', ['c1', 'c2'], {LIMIT => 10, STARTROW => 'xyz'} scan 'test_201408280000_201408282359', {LIMIT => 10, STARTROW => '1000007285120140828115555019504'} scan 'test_201408280
2014-11-13 23:22:11
4108
原创 ext gridpanel单元格复制
gridpanel单元格复制。在网上搜的,挺好用 .x-selectable, .x-selectable * { -moz-user-select: text! important ; -khtml-user-select: text! important ; } if (
2013-07-26 09:00:49
1107
原创 org.xml.sax.SAXParseException
org.xml.sax.SAXParseException 报错,发现不能在“”放&。使用&代替&
2013-04-10 18:56:59
840
原创 window.local.href编码
ie中window.local.href 传的编码格式在java得到的为null 。如果是中文, 通过此方法new String(request.getParameter("conFig").getBytes("ISO-8859-1"),"gb2312")可以得到。传递中文也可以用encodeURIComponent ('中文') 对应 utf-8 ,java段取值用 U
2013-04-10 18:55:01
4010
原创 struts方法被执行多次。
调试程序时,发现同一个Action类中以get开头的方法一次请求都被执行。想了几天。最后在网上查了下,原来也有朋友和我遇到的问题一样。仔细想了下。原来是因为get开头的原因。action类方法不要用get或者set开头。换个名称就行了。
2013-03-17 18:18:55
612
原创 ganglia安装
终于搞出来了,留个记录http://ganglia.info/http://www.ibm.com/developerworks/cn/linux/l-ganglia-nagios-1/http://sourceforge.net/apps/trac/ganglia/wiki/Ganglia%203.1.x%20Installation%20and%20Configuratio
2013-01-12 18:26:23
987
原创 yum安装
首先 rpm -qa|grep yum 查看 yum 服务相关的包 # rpm -qa|grep yumyum-security-1.1.16-13.el5_4.1 yum-3.2.22-33.el5 yum-updatesd-0.9-2.el5 yum-metadata-parser-1.1.2-3.el5 # rpm -qa|grep yum|x
2013-01-12 18:23:13
651
原创 扩展Ext的DateFIeld,实现月、周、天的输入
扩展Ext的DateFIeld。根据搜索到的资料。自己加了写内容。可以实现月、周、天的输入。当为月时,只能选择月和年,天默认为每月的第一天。当选择周粒度时,只能选择周一。当选择天时,和Ext的DateFIeld相同。返回的字符串格式都是‘Y-m-d H:i:s’格式。/** var startDateField = new Ext.form.DateField({form
2012-12-23 19:01:46
761
转载 大数据
自古至今,从未有一个时代出现过如此大规模的数据爆炸。如今的商业世界,已经变成了飘浮在数据海洋上的巨轮,而那些通过大数据能力驶入蓝海的企业,将会赢得丰厚的回报。数据的竞争力会越来越显现。数据的价值在于发现规律,预测未来,规避风险。天气预报能预测台风的到来,数据能预测一个企业的未来,也能预测一个国家的未来。现在的数据量在往PB,往EB方向。这些数据量大,信息密度低。现在我们的企业和政府部门存储了大量数
2012-12-18 22:46:05
1149
转载 数据挖掘技术在移动通信中的应用
1 引言 数据挖掘汇集了统计学、人工智能、数据库等学科的内容,是一门新兴的交叉学科。这门学科旨在帮助人们从海量数据中发现有价值的信息,目前在商业中的应用刚刚起步。国内日趋激烈的移动通信市场竞争促使各移动通信运营商去降低运营成本、提供差异化的客户服务,而数据挖掘技术的应
2011-08-08 22:20:20
1851
转载 java程序员面试交流项目经验
1:请你介绍一下你自己这是面试官常问的问题。一般人回答这个问题过于平常,只说姓名、爱好、工作经验,这些简历上都有。其实,面试官最希望知道的是求职者能否胜任工作,包括:最强的技能、最深入研究的知识领域、个性中最积极的部分等。2:说说你的家庭面试时询问家庭问题不是非要知道
2011-08-07 19:59:45
4873
3
原创 org.xml.sax.SAXParseException: Document root element "beans", must match DOCTYPE root "null".
<br />严重: Exception sending contextinitialized event to listener instance of class org.springframework.web.context.ContextLoaderListener org.springframework.beans.factory.BeanDefinitionStoreException: Line 12 in XML document from ServletContext resource [
2011-04-20 23:30:00
6553
原创 从事BI的一些心得
<br /> 从事了三年的j2ee开发,本来一直想从事j2ee开发,谁知公司一个项目需要,就从10年6月做BI开发 了。还好自己的oracle数据库水平不错,工作还能胜任。<br /> 商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用<br /> 公司主要是通过INFO把数据从不同的数据库集中起来,经过抽取、清洗、转换,形成标准数据。这步应该算etl。然后分析数据、做一些数据挖掘。最后从数据仓库出一
2011-02-27 23:27:00
1345
转载 Oracle的model用法简介
<br /> Model语句是Oracle 10g的新功能之一。 本文通过一些简单的例子帮助理解Model语句的用法,复杂使用场景请参考其他文章。<br /> 环境:当然需要Oracle 10g以上,本人是在11g上测试的。<br /> 1. 什么是model语句<br /> model语句是Oracle10g的新功能,可以在select语句里面像其他编程语言操作数组一样,对SQL的结果集进行处理。执行顺序是位于Having之后。<br /> select的解析执行顺序1. from语句 2. wh
2011-02-26 08:20:00
1034
原创 jxl做的导出EXCEL
<br />package com.ibatis.instan;<br />/**<br /> * Created by IntelliJ IDEA.<br /> * User: lihongya<br /> * Date: 2010-1-25<br /> * Time: 13:39:50<br /> * Desc: ibatis鐨勬搷浣滄暟鎹簱鐨� SqlMapClient<br /> */<br />import java.io.Reader;<br />import com.ibatis.sql
2011-02-23 22:11:00
1335
原创 解决 遇到的 ibatis连接oracle 乱码问题
<br />遇到中文乱码问题比较麻烦,但是仔细检查检查,还是能解决的。<br />问题的解决应关注:<br />1、oracle的字符集。<br />2、java工程的字符集。<br />3、有xml文件的,还要关注xml的保存时的字符集。一般情况下xml中,头部有一个<?xml version="1.0" encoding="GBK"?>。<br />4、是WEB的,也要关注jsp页面的字符集。web工程一般都在web.xml中加一个过滤器。<br /> <br />遇到这类问题 要从数据库往前端一步一步
2011-02-19 18:14:00
2976
转载 HTTP请求模型和头信息
一、连接至Web服务器一个客户端应用(如Web浏览器)打开到Web服务器的HTTP端口的一个套接字(缺省为80)。二、发送HTTP请求通过连接,客户端写一个ASCII文本请求行,后跟0或多个HTTP头标,一个空行和实现请求的任意数据。一个请求由四个部分组成:请求行、请求头标、空行和请求数据1.请求行:请求行由三个标记组成:请求方法、请求URI和HTTP版本,它们用空格分隔。例如
2010-03-26 19:16:00
767
原创 使用Google Weather API查询天气预报
Google Weather API 只支持美国地区使用邮政编码进行查询,例如: http://www.google.com/ig/api?hl=zh-cn&weather=94043 (94043 为 山景城, 美国加州 的邮政编码) 而除了美国以外的地区需要使用经纬度坐标作为参数才能执行 Google Weather API, 例如: http://www.google.com/ig/api?
2010-03-01 18:20:00
773
jxl结合IBATIS导出EXCEL
2011-02-23
mina网络编程框架
2009-02-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人