- 博客(24)
- 收藏
- 关注
原创 浅析 Hadoop 中的数据倾斜
在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记录消耗的成本不太一样,这里只讨论关于关系型运算的(一般能用SQL表述的) 数据切分...
2015-06-26 16:31:13
147
原创 HDFS原理分析
HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。一、HDFS的主要设计理念1、存储超大文件 这里的“超大文件”是指几百MB、GB甚至TB级别的文件。2、最高效的访问模式是 一次写入、多次读取(流式数据访问) HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析。...
2015-06-26 15:39:50
160
原创 Python如何进行中文注释
很简单在python脚本中添加:#coding:utf-8 #hello.py#coding:utf-8#支持中文注释print 'hello world'
2015-06-24 10:31:04
344
原创 MapReduce初级案例详细
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下所示: 1)file1: 2012-3-...
2015-06-15 16:56:23
226
原创 (读书笔记)Hive一点一滴系列之数据类型和文件格式
一、基本数据类型类型 长度tinyint 1bsmalint 2bint 4bbigint 8bBoolean 布尔float 单精度浮点数double 双精度浮点数string 字符序列timestamp 整数,...
2015-06-04 19:00:07
150
原创 Hive一点一滴系列之Eclipse调用hive执行操作
1、在hive 中启动hive服务,端口为10002. hive --service hiveserver -p 10002 2、调用代码package com.hrj.jdbc;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import...
2015-06-04 09:50:02
336
原创 linux在shell中获取时间
获得当天的日期date +%Y-%m-%d输出: 2011-07-28 将当前日期赋值给DATE变量DATE=$(date +%Y%m%d)有时候我们需要使用今天之前或者往后的日期,这时可以使用date的 -d参数 获取明天的日期date -d next-day +%Y%m%d获取昨天的日期date -d last-day +%Y%m%d获取上个月的...
2015-06-04 09:28:28
226
原创 Flume NG 简介及配置实战
(转)http://my.oschina.net/leejun2005/blog/288136 Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合...
2015-05-29 17:07:35
108
原创 shell调用awk(转)
1.命令行方式awk [-F field-separator] 'commands' input-file(s)其中,commands 是真正awk命令,[-F域分隔符]是可选的。 input-file(s) 是待处理的文件。在awk中,文件的每一行中,由域分隔符分开的每一项称为一个域。通常,在不指名-F域分隔符的情况下,默认的域分隔符是空格。2.shell脚本方式...
2015-05-29 15:59:11
245
原创 linux shell if 参数的使用
shell 编程中使用到得if语句内判断参数 –b 当file存在并且是块文件时返回真 -c 当file存在并且是字符文件时返回真 -d 当pathname存在并且是一个目录时返回真 -e 当pathname指定的文件或目录存在时返回真 -f 当file存在并且是正规文件时返回真 -g 当由pathname指定的文件或目录存在并且设置了SGID位时返回为真...
2015-05-29 14:57:30
108
原创 sqoop一点一滴之数据导出命令
sqoop export –connect jdbc:mysql://192.168.102.103/test –username root –password root–table test –export-dir /user/hive/warehouse/actmp –input-fields-terminated-by '\001' –input-null-string '...
2015-05-28 17:36:53
156
原创 sqoop一点一滴之导数据从mysql2hive
1、使用sqoop在hive中创建table test sqoop create-hive-table --connect jdbc:mysql://192.168.100.65:3301/crm --table d_accounttype --username crm --password crm --hive-table d_accounttype 2、编写mysql...
2015-05-27 17:22:18
273
birt一点一滴系列之数据导出excel单sheet页设置
在URL中添加参数“__ExcelEmitter.SingleSheet” if(format == "xls"){action = action + " &__emitterid=uk.co.spudsoft.birt.emitters.excel.XlsEmitter&__ExcelEmitter.DisplayRowColHeadings=true&...
2015-05-26 15:46:42
712
原创 birt一点一滴系列文章
birt一点一滴系列文章 本人从认识birt到使用birt开发统计报表遇到了很多问题。为了让以后的使用birt开发的小伙伴少走弯路。特意收集汇总一下:嘎嘎。有时间会继续不断添加的。 birt一点一滴系列之用jndi方式配置t数据源 birt一点一滴系列之根据选择的指标实现不同统计图表切换birt一点一滴系列之图表以URL方式交互birt一点一滴系列之级联参数创建...
2015-05-25 17:49:53
160
原创 birt一点一滴系列之用jndi方式配置t数据源
1、在tomcat目录\conf\context.xml文件中加入配置 <?xml version="1.0" encoding="UTF-8"?><Context> <Resource auth="Container" name="jdbc/testDB" type="javax.sql
2015-05-25 09:11:20
206
原创 birt一点一滴系列之根据选择的指标实现不同统计图表切换
1、在grid中得合适位置添加 切换指标元素控件。如:html中得列表列表控件<script type="text/javascript">function funSelectIndex() { var tar = new String(document.getElementById("selectIndex").value); var temp = new Str...
2015-05-25 09:09:20
230
原创 birt一点一滴系列之图表以URL方式交互
url在上一篇已经提到是项目相对路径。不知道的童鞋可以看一下。 1、点击图表控件,选择图表格式选项卡。在图表中系列中选择值系列。如图: 2、编辑交互url 3、添加要交互的报表路径(包含参数)。 url+"?__navigationbar=false&__toolbar=false&__showtitle=fals...
2015-05-25 09:08:47
256
birt一点一滴系列之级联参数创建
1、一级产品信息 select id , productgroup.groupnamefrom productgroupunion (select -1 as id, '所有的' as groupname from dual) 2、二级产品信息 select oldid,productname from products where groupid =...
2015-05-22 11:44:27
321
原创 birt一点一滴系列之给选择参数添加全选项
birt 选择参数中 “全部” 数据项的添加,以及解决办法。 1、创建数据集在查询sql中添加红色部分 select id,name from consultcodeUNION (SELECT -1 AS id, '所有的' as name FROM DUAL) 2、创建下拉列表参数。如 paraCode。设置默认值 “-1”,排序依据“id”,排序...
2015-05-22 11:15:21
353
原创 birt一点一滴系列之birt调试方法
birt 中间过程数据调试方法,可以通过引用java类。在本地创建文件把要查看的内容进行打印。 importPackage( Packages.java.io );var selWhe ;var selGroup;this.queryText = this.queryText + selWhe +selGroup;out = new PrintWrite...
2015-05-22 10:57:46
404
原创 birt一点一滴系列之birt中获取项目相对路径
动态获取项目中得相对路径 在outline中点击设计文件,选择脚本,在initialize事件中填写代码 importPackage( Packages.java.io );var request = reportContext.getHttpServletRequest();path = "";url = request.getScheme()+"://"+req...
2015-05-22 10:51:13
206
birt一点一滴系列之读取数据库配置文件
importPackage( Packages.java.io,Packages.java.util ); dbConfigPath = reportContext.getClass().getResource("/dbConifg.properties").getPath();fin = new java.io.FileInputStream(dbConfigPath);pro...
2015-05-22 10:40:36
220
原创 birt一点一滴系列之表格根据层级关系展开隐藏
<script type="text/javascript"> var o = document.getElementById("div"); while(o!=null){ if(o.tagName=="TBODY") break; o = o.parentNode; } var gi=0; var ii=0; var arr=n...
2015-05-21 11:58:04
208
原创 kettle一点一滴之数据库连接加密与解密
import java.math.BigInteger; public class KettleDecrypt { private static int RADIX = 16; private static String SEED = "0933910847463829827159347601486730416058"; ...
2015-05-19 15:28:37
970
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人