
BigData
文章平均质量分 69
ych0108
-----cat------
展开
-
验证数字的正则表达式集
[size=medium]验证数字的正则表达式集 验证数字:^[0-9]*$ 验证n位的数字:^\d{n}$ 验证至少n位数字:^\d{n,}$ 验证m-n位的数字:^\d{m,n}$ 验证零和非零开头的数字:^(0|[1-9][0-9]*)$ 验证有两位小数的正实数:^[0-9]+(.[0-9]{2})?$ 验证有1-3位小数的正实数:^[0-9]+(.[0-9]{1,3})?...原创 2013-06-29 11:52:15 · 189 阅读 · 0 评论 -
单台MySQL服务器的日志策略
1、单台MySQL服务器需要哪些日志? 由于我们是单台的MySQL服务器,只需要常规查询日志、错误日志、慢查询日志、二级制日志。 2、这些日志的作用是什么? 常规查询日志,记录了所有操作数据库的信息包括建立的连接的客户端的一些信息(哪个用户?什么时间?在哪创建的连接?干了什么?),保证MySQL服务器出现的任何操作的追溯问题。 错误日志,记载着数据库启动或者关闭的情况,还记载着故障...原创 2013-12-25 16:49:17 · 132 阅读 · 0 评论 -
基于hive的日志数据统计实战
基于 hive 的日志数据统计实战 一、 hive 简介 hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。 它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用 HQL (类 SQL )语言对这些数据进行自动化管理和处理。我们可以把 hive 中海量结构化数据...原创 2015-05-04 13:38:47 · 177 阅读 · 0 评论 -
基于 Hive 的文件格式:RCFile 简介及其应用
Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高。 1、hadoop 文件格 式简介 目前 hadoop 中流行的文件格式有如下几种: (1 ) Seque nceFile SequenceFile是Hadoop API ...原创 2015-05-06 13:51:01 · 217 阅读 · 0 评论 -
GZIP、LZO、Zippy/Snappy压缩算法应用场景小结
GZIP、LZO、Zippy/Snappy是常用的几种压缩算法,各自有其特点,因此适用的应用场景也不尽相同。这里结合相关工程实践的情况,做一次小结。 压缩算法的比较 以下是Google几年前发布的一组测试数据(数据有些老了,有人近期做过测试的话希望能共享出来): Algorithm % remaining Encoding Decoding GZIP 13.4% ...原创 2015-07-17 15:31:02 · 389 阅读 · 0 评论 -
Hadoop2.5.2完全分布式集群安装
《Hadoop2.5.2集群安装》 1、环境介绍 操作系统:CentOS X64 6.5 物理机器:192.168.170.130(node1)、192.168.170.131(node2)、192.168.170.132(node3) JDK版本:JDK7.X Hadoop版本:Hadoop2.5.2 2、修改主机名称和host名称 通过命令“hostname”查看当前...原创 2015-08-21 21:42:15 · 352 阅读 · 0 评论