- 博客(166)
- 资源 (1)
- 收藏
- 关注
转载 构建spring+dbcp连接池+sqlite
构建spring+dbcp连接池+sqlite2012-03-12 10:30:58分类: Java我这两周在开发公司自己的搜索引擎,主要是用lucene,配置数据我设计是用sqlite,所有的配置通过spring进行串联1.准备jar包http://files.zentus.com/sqlitejdbc/sqlitejdbc-v056.jarspring.ja
2015-11-23 16:32:20
512
转载 expect学习笔记及实例详解
引用自:http://wenku.baidu.com/view/b65e103610661ed9ad51f374.html1. expect 是基于tcl 演变而来的,所以很多语法和tcl 类似,基本的语法如下所示:1.1 首行加上/usr/bin/expect1.2 spawn: 后面加上需要执行的shell 命令,比如说spawn sudo touc
2015-04-03 15:23:02
409
转载 rsync配置和使用
转自:http://blog.sina.com.cn/s/blog_5eda2dda01015fcs.html参考:http://blog.youkuaiyun.com/wssxy/article/details/5602832Redhat中安装rsync1、 首先在服务端和客户端都安装rsync,我的RHEL5默认已经安装好了。在安装RedHat5的时候,可以在软件定制中的“基
2015-03-13 11:56:37
840
转载 Hive 库、表、字段、交互式查询的基本操作
转自:http://my.oschina.net/leejun2005/blog/271631目录[-]1、命令行操作2、表操作3、列操作4、查看变量5、一个完整的建库、表例子6、常用语句示例7、Refer:1、命令行操作(1)打印查询头,需要显示设置:set hive.cli.print.header=t
2015-03-10 15:22:22
668
转载 深入浅出数据仓库中SQL性能优化之Hive篇
转自:http://www.youkuaiyun.com/article/2015-01-13/2823530一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR Jo
2015-03-06 11:38:53
289
转载 MapReduce: 提高MapReduce性能的七点建议
转自:http://langyu.iteye.com/blog/916304Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”
2015-03-04 23:52:18
306
转载 hive优化数据倾斜的解决方法
转自:http://blog.youkuaiyun.com/lpxuan151009/article/details/7980509发生数据倾斜时,通常的现象是:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由
2015-03-03 11:33:50
443
转载 map和reduce 个数的设定 (Hive优化)经典
http://blog.sina.com.cn/s/blog_9f48885501017dua.html一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.
2015-03-01 23:06:35
341
转载 MapReduce:默认Counter的含义
http://langyu.iteye.com/blog/1171091 MapReduce Counter为提供我们一个窗口:观察MapReduce job运行期的各种细节数据。今年三月份期间,我曾经专注于MapReduce性能调优工作,是否优化的绝大多评估都是基于这些Counter的数值表现。MapReduce自带了许多默认Counter,可能有些朋友对它们有些疑问,现在我分析
2015-03-01 22:40:27
277
转载 Hadoop权限管理
原文链接:http://dongxicheng.org/mapreduce/hadoop-permission-management/1. 介绍本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管
2015-01-06 11:06:51
339
转载 Hadoop 性能调优 重要参数设置技巧
源地址:http://www.linuxidc.com/Linux/2012-12/76533.htm这里主要针对Mapreduce的性能调优。这一两个月在做mapreduce的性能调优,有些心得,还是要记下来的,以郷后人~这里主要涉及的参数包括:HDFS:dfs.block.sizeMapredure:io.sort.mbio.sort.spill.perce
2014-09-26 16:24:44
378
转载 Hadoop中map数的计算
原地址:http://blog.youkuaiyun.com/xiaolang85/article/details/9064909Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是:goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size,minSp
2014-09-26 10:53:38
388
转载 Hadoop计算中的Shuffle过程
源地址:http://www.wnt.com.cn/html/news/tophome/top_xytd/top_xytd_jswz/bbs_service/20130711/111140562.htmlShuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大
2014-09-26 10:16:28
340
hive中自定义函数(UDAF)实现多行字符串拼接为一行
原文di函数如何使用:hive> desc concat_test;OKa intb stringhive> select * from concat_test;OK1 good2 other1 nice1 hellohive> select a,co
2014-09-19 15:52:12
411
转载 Hive内置row_number
原文地址:http://blog.youkuaiyun.com/yangjun2/article/details/9339641Hive-0.11.0中内置row_number函数org.apache.hadoop.hive.ql.exe.FunctionRegistry registerHiveUDAFsAsWindowFunctions();registerWindowFu
2014-09-11 10:39:10
441
转载 Hive中的条件函数:If、Coalesce、Case
Hive中的条件函数:If、Coalesce、Case (2013-01-08 14:41:41转载▼Conditional Functions in HiveHive supports three types of conditional functions. These functions are listed below:IF( Test Co
2014-09-03 19:06:15
637
转载 Hive UDAF和UDTF实现group by后获取top值
源地址:http://www.linuxidc.com/Linux/2012-07/66503.htm先自定义一个UDAF,由于udaf是多输入一条输出的聚合,所以结果拼成字符串输出,代码如下:public class Top4GroupBy extends UDAF { //定义一个对象用于存储数据 public static class State
2014-08-27 14:45:09
426
转载 Jackson 框架,轻易转换JSON
源地址:http://www.cnblogs.com/hoojo/archive/2011/04/22/2024628.html
2014-08-26 17:47:09
325
转载 hive原生和复合类型的数据加载和使用
源地址:http://www.cnblogs.com/ggjucheng/archive/2013/01/31/2868941.html
2014-08-26 16:17:26
371
转载 Hive 随谈(六)– Hive 的扩展特性
源地址:http://www.chinacloud.cn/show.aspx?id=3276&cid=12
2014-08-26 10:49:45
278
转载 Hive 随谈(五)– Hive 优化
源地址:http://www.chinacloud.cn/show.aspx?id=3277&cid=12Hive 针对不同的查询进行了优化,优化可以通过配置进行控制,本文将介绍部分优化的策略以及优化控制选项。列裁剪(Column Pruning)在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询:SELECT a,b FROM T WHERE
2014-08-26 10:48:36
334
转载 Hive 随谈(四)– Hive QL
源地址:http://www.chinacloud.cn/show.aspx?id=3278&cid=12
2014-08-26 10:47:58
366
转载 Hive 随谈(三)– Hive 和数据库的异同
源地址:http://www.chinacloud.cn/show.aspx?id=3279&cid=12
2014-08-26 10:45:25
468
转载 Hive 随谈(一)– Hive 入门
源地址:http://www.chinacloud.cn/show.aspx?id=3276&cid=12
2014-08-26 10:45:17
362
转载 Hive 随谈(二)– Hive 结构
源地址:http://www.chinacloud.cn/show.aspx?id=3280&cid=12
2014-08-26 10:44:38
329
转载 Hive 数据倾斜总结
转载:http://www.tbdata.org/archives/2109几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的
2014-08-25 23:13:25
302
转载 hive 处理小文件
原文地址:http://blog.youkuaiyun.com/yfkiss/article/details/8590486当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,
2014-08-25 22:37:51
389
转载 hive 优化
源地址:Hive优化总结---by 食人花 优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率
2014-08-25 22:33:17
340
转载 How-to: Use a SerDe in Apache Hive
Apache Hive is a fantastic tool for performing SQL-style queries across data that is often not appropriate for a relational database. For example, semistructured and unstructured data can be queried
2014-08-25 19:52:47
487
转载 Hive中的InputFormat、OutputFormat与SerDe
原文地址:http://www.coder4.com/archives/4031前言Hive中,默认使用的是TextInputFormat,一行表示一条记录。在每条记录(一行中),默认使用^A分割各个字段。在有些时候,我们往往面对多行,结构化的文档,并需要将其导入Hive处理,此时,就需要自定义InputFormat、OutputFormat,以及SerDe了。首先
2014-08-25 17:46:38
752
转载 Hive-0.5中SerDe概述
源地址:http://blog.youkuaiyun.com/dajuezhao/article/details/5753791
2014-08-25 17:27:01
281
转载 hive 行列转换总结
原文地址:http://www.07net01.com/linux/hivexingliezhuanhuanzongjie_654296_1381813421.html
2014-08-25 12:07:52
335
转载 hive自定义分隔符和处理Apache日志
源地址:http://liubingwwww.blog.163.com/blog/static/304851072011112262557997/
2014-08-25 11:52:10
570
转载 hive UDTF 解析json格式数据
原文地址:http://cache.baiducontent.com/c?m=9d78d513d9991aeb0ffa940f55578a3a0e55f0744ca1c7627fc3e23f84105f550026bdb47d645646c4c40f7a1cee1400bfb26b65377573f1c1df883c9be8cf787cd53034064ddb1e05d36ef48d116e963
2014-08-25 11:46:42
1414
转载 Hive 中的复合数据结构简介以及一些函数的用法说明
原文地址:http://my.oschina.net/leejun2005/blog/120463
2014-08-25 10:59:55
517
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人