- 博客(51)
- 资源 (4)
- 收藏
- 关注
原创 Hadoop组件之-HIVE(位图索引)
索引概述 什么是索引? 索引是Oracle数据库中提供的一种可选的数据结构,用于关联一个表。 为什么要使用索引? 索引在有些情况下可以加快访问速度,减少磁盘IO。 通常情况下时候使用索引? 表中的某列经常会在查询中使用,并且经常用返回占表中数据总量比例较少的row set。引用完整性约束列。unique key 。...
2016-06-24 15:43:54
1319
原创 Hadoop组件之-HDFS(HA实现细节)
Hadoop NameNode 高可用 (High Availability) 实现解析在 Hadoop 的整个生态系统中,HDFS NameNode 处于核心地位,NameNode 的可用性直接决定了 Hadoop 整个软件体系的可用性。本文尝试从内部实现的角度对 NameNode 的高可用机制进行详细的分析,主要包括 NameNode 的主备切换实现分析和 NameN...
2016-06-23 10:10:04
1048
原创 Hadoop组件之-HDFS(FederationAndHA)
一、背景天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案,由于行业的特殊性,客户对服务的可用性有着非常高的要求,而HDFS长久以来都被单点故障的问题所困扰,直到Apache Hadoop在2012年5月发布了2.0的alpha版本,其中MRv2还很不成熟,可HDFS的新功能已经基本可用,尤其是其中的的High Availability...
2016-06-23 10:06:37
228
原创 Spark-SQL简介
分享到...复制网址邮件QQ空间新浪微博腾讯微博微信人人网易信网易微博搜狐微博QQ好友开心网飞信豆瓣一键分享查看更多(122) 这是什么工具?JiaThis 石山园 博客园首页新闻新随笔联系管理订阅随笔- 83 文章- 0 评论- ...
2016-01-11 22:09:00
311
原创 Python-With...As语法
理解Python中的with…as…语法Posted in python - 22 五月, 2013 - 2 Comments使用语言的好特性,而不是那些糟糕的特性————不知道谁说的好久不学习python的语法了,上次去面试,和面试官聊到了python中的with-as statement(也称context manager),挺感兴趣的,这两天学习了一番,收获颇丰在此分享。先...
2015-12-22 14:12:52
128
原创 Linux-RPM详解
rpm命令手册和查看rpm安装包的安装路径的方法来源:互联网 作者:佚名 时间:04-22 14:07:45 【大 中 小】rpm -qpl xxxxxx.rpm 1.如何安装rpm软件包 rmp软件包的安装可以使用程序rpm来完成。执行下面的命令 rpm -i your-package.rpm 其中your-package.rpm是你要安装的rpm包的文件名,一般置于当...
2015-12-12 14:22:10
411
原创 Linux-NTP服务配置
配置NTP服务ntpd/ntp.conf(搭建Hadoop集群可参考)标签: ntpntpdntp.conf2014-11-24 08:55 5915人阅读 评论(0) 收藏 举报版权声明:本文为博主原创文章,未经博主允许不得转载。本文原文出处: http://blog.youkuaiyun.com/bluishglc/article/details/414...
2015-12-10 20:51:04
163
原创 Hadoop组件之-MapReduce(InputFormat)
Hadoop源码解析之: TextInputFormat如何处理跨split的行标签: hadoopsplitTextInputFormat跨split2013-07-19 14:44 6402人阅读 评论(1) 收藏 举报版权声明:本文为博主原创文章,未经博主允许不得转载。我们知道hadoop将数据给到map进行处理前会使用InputForma...
2015-12-07 20:03:31
199
1
原创 Hadoop组件之-Sqoop
前置条件已经成功安装配置Hadoop和Mysql数据库服务器,如果将数据导入或从Hbase导出,还应该已经成功安装配置Hbase。下载sqoop和Mysql的JDBC驱动sqoop-1.2.0-CDH3B4.tar.gz :http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gzmysql-connector-ja...
2015-12-07 17:33:42
177
原创 Hadoop组件之-Kafka
一、入门 1、简介 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实...
2015-12-07 17:32:50
321
原创 Hadoop企业级搭建之-Cloudera产品部署
<iframe id="cproIframe_u1728839_3" style="word-wrap: break-word;" src="http://pos.baidu.com/acom?adn=4&amp;at=160&amp;aurl=&amp;cad=1&amp;ccd=24&amp;cec=GBK&amp;cfv=0&
2015-11-30 22:12:47
1201
原创 Hadoop企业级搭建之-版本选择
太多选择——如何挑选合适的大数据或Hadoop平台?作者 Kai Wähner ,译者 王灵军 发布于 2013年10月9日 | 注意: ArchSummit全球架构师峰会(北京)2015年12月18-19日,了解更多详情!5 讨论分享到:微博微信FacebookTwitter有道云笔记邮件分享稍后阅读我的阅读清单 今年,大数据在很多公司...
2015-11-27 14:37:10
281
原创 Hadoop企业级搭建之-组网设计方案理解
深入理解Hadoop集群和网络发表于2012-08-30 14:09| 次阅读| 来源个人博客| 0 条评论| 作者Brad HedlundHadoop大数据虚拟化服务器摘要:本文将着重于讨论Hadoop集群的体系结构和方法,及它如何涉及到网络和服务器基础设施。开始我们先学习一下Hadoop集群运作的基础。导读:云计算和Hadoop中网络是讨论得相对比较少的领域。本文...
2015-11-27 14:08:25
414
原创 Hadoop企业级搭建之-组网设计(收敛比)
高性能数据中心网络的流量收敛设计收藏打印推荐在数据中心网络领域,性能、规模似乎永远没有边界,是业界技术人员、设计者们不断追求与创新的目标。从1G速率骨干网的应用、10G速率骨干网的普及,到40G/100G以太网标准的制定和颁布, IT领域同样有着更高、更快、更强法则。但是有了高速的转发技术,并不意味着就可以实现高性能,高性能网络设计是一个系统化的工程,需要考虑...
2015-11-27 13:55:08
1783
原创 FIND
find命令查找包含指定内容的文件 2011-09-05 18:59 10285人阅读 评论(0) 收藏 举报shellfilecommandfunctionuserbuildfind / | xargs grep function 查找系统根目录下面的所有文件的内容中包含有function字符串的文件列表。find .|xargs grep xfind . ...
2014-12-25 17:11:17
127
原创 七种网卡绑定模式详解
分类: 技术博文 Linxu技术博文 2014-10-01 21:23 1480人阅读 评论(0) 收藏 举报概览:目前网卡绑定mode共有七种(0~6)bond0、bond1、bond2、bond3、bond4、bond5、bond6 常用的有三种:mode=0:平衡负载模式,有自动备援,但需要”Switch”支援及设定。mode=1:自动备援模式,其中一条线若...
2014-12-25 16:13:29
391
原创 Hadoop企业级搭建之-组网设计(机架感知)
hadoop机架感知背景分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。具体到Hadoop集群,由于hadoop的HDFS对数据文件的分布式存放是按...
2014-11-25 11:18:58
178
原创 文本文件与二进制文件区别
文本文件与二进制文件区别 一、文本文件与二进制文件的定义大家都知道计算机的存储在物理上是二进制的,所以文本文件与二进制文件的区别并不是物理上的,而是逻辑上的。这两者只是在编码层次上有差异。简单来说,文本文件是基于字符编码的文件,常见的编码有ASCII编码,UNICODE编码等等。二进制文件是基于值编码的文件,你可以根据具体应用,指定某个值是什么意思(这样一个过程,可以看作是自...
2014-11-21 17:24:33
190
原创 spark
spark 安装 0.8 版本操作系统Ubuntu 10.04,已经安装JDK 1.7。1. 下载spark代码http://spark.incubator.apache.org/downloads.html2. spark 0.8依赖于scala 2.9.3,安装这个版本的scala。2.1 下载scala 0.9.3 http://www.scala-lang.org/download/2.9...
2014-11-06 22:23:16
101
原创 编写DOS批处理脚本从FTP下载文件
编写DOS批处理脚本从FTP下载文件博客分类:Shell和DOS相关编写DOS批处理脚本从FTP下载文件工作当中经常需要从远程Linux的指定目录下载文件到自己日常使用的Windows系统,老是通过FTP工具比较麻烦,所以写个batch脚本,每次需要下载的时候只要跑一下脚本就行了,非常方便。 PS:脚本中有些代码“没用”,其实是为了考虑后期扩展...
2014-11-04 17:22:32
364
原创 map的环形内存缓冲区
map的环形内存缓冲区博客分类:hadoop源码解读HadoopMapreduceApache工作hadoop在执行MapReduce任务时,在map阶段,map函数产生的输出,并不是直接写入磁盘的。为了提高效率,它将输出结果先写入到内存中(即环形内存缓冲区,默认大小100M),再从缓冲区(溢)写入磁盘。 下面我们就来看看这段代码。 1、找到环形内存缓冲区 在...
2014-09-26 09:24:41
796
原创 Bash Shell中Shift用法分享
shift可以用来向左移动位置参数。Shell的名字 $0第一个参数 $1第二个参数 $2第n个参数 $n所有参数 $@ 或 $*参数个数 $#shift默认是shift 1以下边为例: 复制代码 代码如下:cat shift.sh#----------------------------输出文字-开始----------------------------#!/bin/ba...
2014-09-19 14:08:46
108
原创 linux特殊符号大全
linux特殊符号大全在shell中常用的特殊符号罗列如下:# ; ;; . , / \ 'string'| ! $ ${} $? $$ $* "string"* ** ? : ^ $# $@ `command`{} [] [[]] () (()) || && {xx,yy,zz,...}~ ~+ ~- & \<...\> + - %= == ...
2014-09-19 14:07:56
103
原创 linux awk命令详解
linux awk命令详解简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。awk其名称得...
2014-08-24 21:45:01
67
原创 MapReduce:详解Shuffle(copy,sort,merge)过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这...
2014-05-28 11:14:07
108
原创 NOLOCK与READPAST
在查询语句中使用 NOLOCK 和 READPAST 处理一个数据库死锁的异常时候,其中一个建议就是使用 NOLOCK 或者 READPAST 。有关 NOLOCK 和 READPAST的一些技术知识点: 对于非银行等严格要求事务的行业,搜索记录中出现或者不出现某条记录,都是在可容忍范围内,所以碰到死锁,应该首先考虑,我们业务逻辑是否能容忍出现或者不出现某些记录,而不是寻求对双方都加锁条件下如何解...
2014-05-05 17:05:32
134
原创 操作系统页大小和数据库页大小
我们先弄清楚操作系统的页大小概念。 操作系统的页大小: 对于操作系统来说, 存放文件不是以文件的大小来存放的,而是首先将内存按照一定的大小,给拆分开来,比如4K大小作为一个单元。这样做有什么好处呢? 使用了分页的机制后, 就可以使用虚拟存储的概念了。对于32位操作系统来说,每个程序来都有4G的逻辑访问空间,这4G逻辑访问空间是虚拟出来的,实际没有这么多。操作系统负 责虚拟...
2013-08-19 21:56:42
3085
原创 AS/400与RS/6000比较
RS/6000是一种小型机,IBM出的,一般用AIX等操作系统;AS/400也是一种小型机,也是IBM出的,主要用在电子商务等场合. AS/400和RS/6000具有不同的应用侧重点,即面对不同的应用,机器的性能可以得到充分的发挥,以达到最好的性能。 AS/400是一种专用于商务应用在线交易处理和信息管理的多处理器并发处理计算机系统,主要适用于政府部门、金融部门、电信部门、大型企...
2013-08-19 21:18:41
899
原创 DB2 V9.7 分区索引新特性
DB2 V9.7 分区索引新特性改进大型数据库性能郝庆运, 软件工程师, IBM 简介: 在本文中将介绍 DB2 V9.7 中的新功能 - 分区索引,如何使用和管理分区索引,以及分区索引如何改进大型数据库性能。 标记本文! 发布日期: 2009 年 7 月 13 日 级别: 初级 访问情况 : 2051 次浏览 评论: 0 (查看 ...
2011-11-30 08:50:39
275
原创 信贷业务
信贷业务:1. 信用风险(Credit Risk)又称违约风险,是指交易对手未能履行约定契约中的义务而造成经济损失的风险:违约风险:交易一方不愿或无力支付约定款项而使交易另一方遭受损失的风险。价差风险:信用品质的变化引起的信用价差的变化而导致的风险。 信用风险:指债务人或交易对手未能履行合同所规定的义务或信用质量发生变化,影响金融产品价值,从而给债权人或金融产品持有人造成...
2011-08-26 09:21:10
1683
原创 SQL
关键字: on 数据库在通过连接两张或多张表来返回记录时,都会生成一张中间的临时表,然后再将这张临时表返回给用户。 在使用left jion时,on和where条件的区别如下:1、 on条件是在生成临时表时使用的条件,它不管on中的条件是否为真,都会返回左边表中的记录。2、where条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有left join的...
2011-08-19 08:46:30
145
原创 事实表和维度表
维度表示你要对数据进行分析时所用的一个量, 比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析. 这样的按..分析就构成一个维度。前面的示例就可以有两个维度:类型和区域。另外每个维度还可以有子维度(称为属性),例如类别可以有子类型,产品名等属性。下面是两个常见的维度表结构:产品维度表:Prod_id, Product_Name, Category, Color, Siz...
2011-07-29 14:32:11
127
原创 书签
DB2 存储过程开发最佳实践 http://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0604changhp/ http://www.db2china.net/club/ db2中国
2011-07-26 16:42:27
84
原创 DB2存储过程-基础详解
DB2存储过程-基础详解 学习 DB2 9.5 SQL Procedural Language,包括变量、条件、处理程序声明、控制流和迭代语句以及错误处理机制。您将:学习 SQL PL 的基本要素。 理解如何声明变量、条件和处理程序。 学习控制流语句。 学习游标处理和如何返回结果集。 ...
2011-07-21 16:47:34
162
原创 Java:使用synchronized和Lock对象获取对象锁
在并发环境下,解决共享资源冲突问题时,可以考虑使用锁机制。1.对象的锁所有对象都自动含有单一的锁。JVM负责跟踪对象被加锁的次数。如果一个对象被解锁,其计数变为0。在任务(线程)第一次给对象加锁的时候,计数变为1。每当这个相同的任务(线程)在此对象上获得锁时,计数会递增。只有首先获得锁的任务(线程)才能继续获取该对象上的多个锁。每当任务离开一个synchro...
2010-09-09 15:38:43
85
原创 Java 线程状态切换
1.sleep() 使当前线程(即调用该方法的线程)暂停执行一段时间,让其他线程有机会继续执行,但它并不释放对象锁。也就是如果有Synchronized同步块,其他线程仍然不同访问共享数据。注意该方法要捕获异常 比如有两个线程同时执行(没有Synchronized),一个线程优先级为MAX_PRIORITY,另一个为MIN_PRIORITY,如果没有Sleep()方法,只有高优先级...
2010-09-09 10:46:18
90
原创 JVM的垃圾回收机制
*** 垃圾回收的是无任何引用的对象占据的内存空间而不是对象本身 !!! 1.JVM的gc概述 gc即垃圾收集机制是指jvm用于释放那些不再使用的对象所占用的内存。java语言并不要求jvm有gc,也没有规定gc如何工作。不过常用的jvm都有gc,而且大多数gc都使用类似的算法管理内存和执行收集操作。 在充分理解了垃圾收集算法和执行过程后,才能有效的优化它...
2010-09-09 10:13:15
109
原创 Mockito
Mockito入门 关键字: 单元测试 模拟 简介 InfoQ-使用Mockito 1.5监视普通对象 写道Mockito是一个针对Java的mocking框架。它与EasyMock和jMock很相似,但是通过在执行后校验什么已经被调用,它消除了对期望行为(expectations)的需要。其它的mocking库需要你...
2010-09-07 09:26:00
85
原创 2010最危险的编程错误
2010最危险的编程错误 历史上第一个bug网络无处不在的今天,安全问题日益严峻,攻击事件层出不穷,应该说,软件系统中代码存在安全漏洞是主要的祸因之一。而这实际上反映了软件开发人员在编程的安全性方面缺乏必要的培训和常识。由CWS(美国国土安全部下属的软件保证项目)与SANS(权威安全培训组织)联合编制的最危险的25个编程错误,是软件...
2010-09-07 09:17:34
98
原创 JAVA中的Stack和Heap
在JVM中,内存分为两个部分,Stack(栈)和Heap(堆),这里,我们从JVM的内存管理原理的角度来认识Stack和Heap,并通过这些原理认清Java中静态方法和静态属性的问题。一般,JVM的内存分为两部分:Stack和Heap。Stack(栈)是JVM的内存指令区。Stack管理很简单,push一定长度字节的数据或者指令,Stack指针压栈相应的字节位移;pop一定字节...
2010-08-27 13:45:21
127
JSF 多套资源,教程详解,开发图解
2010-07-28
Java入门经典 Ivor Horton's Beginning Java 2,JDK 5 Edition.pdf
2010-07-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人