qinzl_1-优快云博客

转载构建spring+dbcp连接池+sqlite

构建spring+dbcp连接池+sqlite2012-03-12 10:30:58分类： Java我这两周在开发公司自己的搜索引擎，主要是用lucene，配置数据我设计是用sqlite，所有的配置通过spring进行串联1.准备jar包http://files.zentus.com/sqlitejdbc/sqlitejdbc-v056.jarspring.ja

2015-11-23 16:32:20 512

转载 expect学习笔记及实例详解

引用自：http://wenku.baidu.com/view/b65e103610661ed9ad51f374.html1. expect 是基于tcl 演变而来的，所以很多语法和tcl 类似，基本的语法如下所示：1.1 首行加上/usr/bin/expect1.2 spawn: 后面加上需要执行的shell 命令，比如说spawn sudo touc

2015-04-03 15:23:02 409

转载 rsync配置和使用

转自：http://blog.sina.com.cn/s/blog_5eda2dda01015fcs.html参考：http://blog.youkuaiyun.com/wssxy/article/details/5602832Redhat中安装rsync1、首先在服务端和客户端都安装rsync，我的RHEL5默认已经安装好了。在安装RedHat5的时候，可以在软件定制中的“基

2015-03-13 11:56:37 840

转载 Hive 库、表、字段、交互式查询的基本操作

转自：http://my.oschina.net/leejun2005/blog/271631目录[-]1、命令行操作2、表操作3、列操作4、查看变量5、一个完整的建库、表例子6、常用语句示例7、Refer：1、命令行操作（1）打印查询头，需要显示设置：set hive.cli.print.header=t

2015-03-10 15:22:22 668

转自：http://www.youkuaiyun.com/article/2015-01-13/2823530一个Hive查询生成多个Map Reduce Job，一个Map Reduce Job又有Map，Reduce，Spill，Shuffle，Sort等多个阶段，所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化（其中又会有细分），针对MR全局的优化，和针对整个查询（多MR Jo

2015-03-06 11:38:53 289

转载 MapReduce: 提高MapReduce性能的七点建议

转自：http://langyu.iteye.com/blog/916304Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统，并且它们运行着各式各样用户的代码，这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来，调整cluster或job的运行更像一个医生对待病人一样，找出关键的“症状”

2015-03-04 23:52:18 306

转载 hive优化数据倾斜的解决方法

转自：http://blog.youkuaiyun.com/lpxuan151009/article/details/7980509发生数据倾斜时，通常的现象是：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由

2015-03-03 11:33:50 443

转载 map和reduce 个数的设定（Hive优化）经典

http://blog.sina.com.cn/s/blog_9f48885501017dua.html一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.

2015-03-01 23:06:35 341

转载 MapReduce:默认Counter的含义

http://langyu.iteye.com/blog/1171091 MapReduce Counter为提供我们一个窗口：观察MapReduce job运行期的各种细节数据。今年三月份期间，我曾经专注于MapReduce性能调优工作，是否优化的绝大多评估都是基于这些Counter的数值表现。MapReduce自带了许多默认Counter，可能有些朋友对它们有些疑问，现在我分析

2015-03-01 22:40:27 277

转载 Hadoop权限管理

原文链接：http://dongxicheng.org/mapreduce/hadoop-permission-management/1. 介绍本文介绍的Hadoop权限管理包括以下几个模块：（1）用户分组管理。用于按组为单位组织管理，某个用户只能向固定分组中提交作业，只能使用固定分组中配置的资源；同时可以限制每个用户提交的作业数，使用的资源量等（2）作业管

2015-01-06 11:06:51 339

转载 Hadoop 性能调优重要参数设置技巧

源地址:http://www.linuxidc.com/Linux/2012-12/76533.htm这里主要针对Mapreduce的性能调优。这一两个月在做mapreduce的性能调优，有些心得，还是要记下来的，以郷后人~这里主要涉及的参数包括：HDFS：dfs.block.sizeMapredure：io.sort.mbio.sort.spill.perce

2014-09-26 16:24:44 378

转载 Hadoop中map数的计算

原地址:http://blog.youkuaiyun.com/xiaolang85/article/details/9064909Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是：goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size,minSp

2014-09-26 10:53:38 388

转载 Hadoop计算中的Shuffle过程

源地址：http://www.wnt.com.cn/html/news/tophome/top_xytd/top_xytd_jswz/bbs_service/20130711/111140562.htmlShuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce，Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大

2014-09-26 10:16:28 340

hive中自定义函数(UDAF)实现多行字符串拼接为一行

原文di函数如何使用：hive> desc concat_test;OKa intb stringhive> select * from concat_test;OK1 good2 other1 nice1 hellohive> select a,co

2014-09-19 15:52:12 411

转载 Hive内置row_number

原文地址：http://blog.youkuaiyun.com/yangjun2/article/details/9339641Hive-0.11.0中内置row_number函数org.apache.hadoop.hive.ql.exe.FunctionRegistry registerHiveUDAFsAsWindowFunctions();registerWindowFu

2014-09-11 10:39:10 441

转载 Hive中的条件函数：If、Coalesce、Case

Hive中的条件函数：If、Coalesce、Case (2013-01-08 14:41:41转载▼Conditional Functions in HiveHive supports three types of conditional functions. These functions are listed below:IF( Test Co

2014-09-03 19:06:15 637

转载 Hive自定义函数（generic）

原文地址：http://www.haogongju.net/art/1959415

2014-08-30 17:47:09 623

转载 Hive UDAF和UDTF实现group by后获取top值

源地址：http://www.linuxidc.com/Linux/2012-07/66503.htm先自定义一个UDAF,由于udaf是多输入一条输出的聚合，所以结果拼成字符串输出，代码如下：public class Top4GroupBy extends UDAF { //定义一个对象用于存储数据 public static class State

2014-08-27 14:45:09 426

转载 Jackson 框架，轻易转换JSON

源地址：http://www.cnblogs.com/hoojo/archive/2011/04/22/2024628.html

2014-08-26 17:47:09 325

转载 hive原生和复合类型的数据加载和使用

源地址：http://www.cnblogs.com/ggjucheng/archive/2013/01/31/2868941.html

2014-08-26 16:17:26 371

原创 Hive 自定义SerDe时生成ObjectInspector三种方式

目前看不懂源码，从不同的途径看到的ObjectInspectorshe

2014-08-26 15:05:01 1308

转载 Hive 随谈（六）– Hive 的扩展特性

源地址：http://www.chinacloud.cn/show.aspx?id=3276&cid=12

2014-08-26 10:49:45 278

转载写好Hive 程序的五个提示

源地址：http://www.chinacloud.cn/show.aspx?id=3275&cid=12

2014-08-26 10:49:20 302

转载 Hive 随谈（五）– Hive 优化

源地址：http://www.chinacloud.cn/show.aspx?id=3277&cid=12Hive 针对不同的查询进行了优化，优化可以通过配置进行控制，本文将介绍部分优化的策略以及优化控制选项。列裁剪（Column Pruning）在读数据的时候，只读取查询中需要用到的列，而忽略其他列。例如，对于查询：SELECT a,b FROM T WHERE

2014-08-26 10:48:36 334

转载 Hive 随谈（四）– Hive QL

源地址：http://www.chinacloud.cn/show.aspx?id=3278&cid=12

2014-08-26 10:47:58 366

转载 Hive 随谈（三）– Hive 和数据库的异同

源地址：http://www.chinacloud.cn/show.aspx?id=3279&cid=12

2014-08-26 10:45:25 468

转载 Hive 随谈（一）– Hive 入门

源地址：http://www.chinacloud.cn/show.aspx?id=3276&cid=12

2014-08-26 10:45:17 362

转载 Hive 随谈（二）– Hive 结构

源地址：http://www.chinacloud.cn/show.aspx?id=3280&cid=12

2014-08-26 10:44:38 329

转载 Hadoop配置项整理

源地址：http://slaytanic.blog.51cto.com/2057708/1100974

2014-08-26 09:58:48 457

转载 Hive 数据倾斜总结

转载：http://www.tbdata.org/archives/2109几个比较特殊的点都提到了，大家可以作为参考。在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的

2014-08-25 23:13:25 302

转载 hive 数据倾斜

hadoop job解决大数据量关联时数据倾斜的一种办法

2014-08-25 23:09:01 371

转载 hive 处理小文件

原文地址：http://blog.youkuaiyun.com/yfkiss/article/details/8590486当Hive输入由很多个小文件组成，由于每个小文件都会启动一个map任务，如果文件过小，以至于map任务启动和初始化的时间大于逻辑处理的时间，会造成资源浪费，甚至OOM。为此，当我们启动一个任务，发现输入数据量小但任务数量多时，需要注意在Map前端进行输入合并当然，

2014-08-25 22:37:51 389

转载 hive 优化

源地址：Hive优化总结---by 食人花优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。2．对jobs数比较多的作业运行效率

2014-08-25 22:33:17 340

转载 How-to: Use a SerDe in Apache Hive

Apache Hive is a fantastic tool for performing SQL-style queries across data that is often not appropriate for a relational database. For example, semistructured and unstructured data can be queried

2014-08-25 19:52:47 487

转载 Hive中的InputFormat、OutputFormat与SerDe

原文地址：http://www.coder4.com/archives/4031前言Hive中，默认使用的是TextInputFormat，一行表示一条记录。在每条记录(一行中)，默认使用^A分割各个字段。在有些时候，我们往往面对多行，结构化的文档，并需要将其导入Hive处理，此时，就需要自定义InputFormat、OutputFormat，以及SerDe了。首先

2014-08-25 17:46:38 752

转载 Hive-0.5中SerDe概述

源地址:http://blog.youkuaiyun.com/dajuezhao/article/details/5753791

2014-08-25 17:27:01 281

转载 hive 行列转换总结

原文地址：http://www.07net01.com/linux/hivexingliezhuanhuanzongjie_654296_1381813421.html

2014-08-25 12:07:52 335

转载 hive自定义分隔符和处理Apache日志

源地址：http://liubingwwww.blog.163.com/blog/static/304851072011112262557997/

2014-08-25 11:52:10 570

转载 hive UDTF 解析json格式数据

原文地址：http://cache.baiducontent.com/c?m=9d78d513d9991aeb0ffa940f55578a3a0e55f0744ca1c7627fc3e23f84105f550026bdb47d645646c4c40f7a1cee1400bfb26b65377573f1c1df883c9be8cf787cd53034064ddb1e05d36ef48d116e963

2014-08-25 11:46:42 1414

转载 Hive 中的复合数据结构简介以及一些函数的用法说明

原文地址：http://my.oschina.net/leejun2005/blog/120463

2014-08-25 10:59:55 517

SQL_SERVER数据库开发之存储过程应用

空空如也