- 博客(18)
- 资源 (7)
- 问答 (1)
- 收藏
- 关注
翻译 网卡驱动r8168模块无法正常上网的终极解决办法
问题描述:ubuntu启动eth0模块加载一直报错:ADDRCONF(NETDEV_UP): eth0: link is not ready/etc/init.d/networling restart系统日志/var/log/syslog 报如下错误:r8169 link down解决办法:从realtek下载 r8168-8.036.00.tar.bz2
2015-10-21 17:09:31
945
原创 HIVE之Serde和Inspector介绍
Serde是什么:Serde实现数据序列化和反序列化以及提供一个辅助类ObjectInspector帮助使用者访问需要序列化或者反序列化的对象。Serde层构建在数据存储和执行引擎之间,实现数据存储+中间数据存储和执行引擎的解耦。 //主要实现数据的序列化和反序列化。publicabstractclass AbstractSerDeimplementsSerDe {
2013-07-12 15:26:55
7443
原创 hive之SQL解析器Antlr简单学习总结。
HIVE的sql解析通过鼎鼎大名的ANTLR完成,具体细节可以在http://www.antlr.org/详细了解,这里只整理一些自己的小心得。1. 终结符首字母大写,非终结符首字母小写2. Antlr的LL文法不支持左递归,需要消除文法中的左递归。3. 代码优先级采用highOpExpr: lowOpExpr op lowOpExpr的
2013-07-12 13:40:56
2903
原创 hive代码分析之--antlr和SQL解析
HIVE的sql解析通过鼎鼎大名的ANTLR完成,具体细节可以在http://www.antlr.org/详细了解,这里只整理一些自己的小心得。1. 终结符首字母大写,非终结符首字母小写2. Antlr的LL文法不支持左递归,需要消除文法中的左递归。3. 代码优先级采用highOpExpr: lowOpExpr op lowOpExpr的
2013-07-12 13:39:12
294
原创 LINUX软中断和bottom half思想(转)
转自:http://blog.youkuaiyun.com/yuanyufei/archive/2006/06/06/776263.aspx 一. 软中断概况 软中断是利用硬件中断的概念,用软件方式进行模拟,实现宏观上的异步执行效果。很多情况下,软中断和"信号"有些类似,同时,软中断又是和硬中断相对应的,"硬中断是外部设备对CPU的中断","软中断通常是硬中断服务程序对内核的中断","信号则是由
2011-06-22 10:03:00
3000
原创 S4实现机理介绍
<br /> S4是yahoo开源的一套流式数据处理系统,什么是流式处理系统,顾名思义,我们把实时处理模块作为一个黑盒(这个黑盒的具体实现我们在下文中讨论),这个黑盒有很多接入管道,待处理数据可以从这些管道实时接入,并实时从出口产生分析后的结果数据。构建的整套系统可以称为流式数据处理系统。<br /><br /><br /> 该系统主要的应用场景可以在:系统状态实时监控,用户行为实时监控,营销&广告效果实时统计。<br /> 在这里先举个例子:用户行为实时监控
2011-03-24 12:53:00
2061
原创 C++各类函数调用实现分析
C++函数调用一般分为三类:1.不同函数调用。2.类方法调用。3.类虚函数方法调用。这三类方法调用是如何运作的呢,其中的玄机到底是什么,今天写了一个简单程序,并通过objdump得到汇编代码进行分析。代码实例如下:void FunctionNormal( int value ){ int b = value;}class VirtualBase{ public: virtual void test1(int value) = 0; virtual void test2(int value) = 0;};
2011-03-18 10:55:00
1185
原创 hadoop分时计算平台支持,提高平台资源利用率
hadoop分时计算支持。 问题背景: 分布式计算平台接入的分析任务涉及的数据量非常庞大,数据分析需求又往往需要一天或一月完整数据,这就导致分布式计算平台接入的任务都集中在晚上凌晨开始执行(因为这个时间段,数据刚刚准备好),直接的影响就是平台的支撑能力,因为白天大部分机器空闲,晚上又忙的要死。 解决方案: 将用户白天上传的数据分时段进行map计算,中间结果存储H
2009-12-07 11:45:00
990
原创 HDFS-文件访问权限处理模块儿
Hadoop文件访问权限处理与linux采用类似的方式,文件对操作对应有:读,写,执行。文件有其属主,以及群。该部分主要涉及的类如下: FsActionpublic enum FsAction 这是一个enum对象,描述对文件的操作行为,主要的成员为: NONE(0, "---"), EXECUTE(1, "--x"), WRITE(2, "-w-"
2009-12-02 22:15:00
2321
原创 HDFS-租约管理模块儿
如果多个进程对网络文件系统中的同一个文件进行写入操作会有什么结果呢?(势必造成文件的损坏)Lease(租约)可以认为是一个文件写锁,当客户端需要写文件的时候,它需要申请一个Lease,那其他对该文件的写入进程就会因为获得租约失败而不能进行写入操作,NameNode负责记录每个正在处于写入状态文件的Lease,Lease的属主是谁,超时时间(分布式处理的一种常用技术)等,所有这些工作由下面3个类
2009-12-02 22:12:00
1979
原创 HDFS-文件数据流传输实现模块
在3.1.9章节中我们已经详细讲述了Client在需要上传文件时,需要进行的操作以及相关实现模块,这一章节我们着重讲述datanode一侧支持数据传输的重要模块。DataXceiverServer:datanode在启动以后会首先初始化一个DataXceiverServer对象实例,这个对象是实现了Runnable接口的对象,它附着于一个特定线程监听在特定端口。public
2009-11-20 15:52:00
2288
原创 HDFS-文件数据流读取传输协议
DFSClient从Namenode取得需要读取的文件对应的LocatedBlocks信息以后,就会按照block的顺序与datanode建立链接并发送读取block数据的请求。我们看一下这部分的协议格式:4字节数据传输协议版本号(0.19.1版本的hadoop这个字段为14)4字节操作码(读取文件时为:OP_READ_BL
2009-11-20 15:51:00
1832
原创 HDFS-Datanode关于block文件的管理
数据文件真正存储的地方是在datanode,当用户需要填充文件中某一个block的实际数据内容时,就需要连接到datanode进行实际的block写入操作,下面我们看一下datanode如何管理block,以及如何存储block。Datanode是通过文件存储block数据的,datanode中有一个FSDatasetInterface接口,这个接口的主要作用就是对block对应的实际数
2009-11-20 15:45:00
4508
原创 HDFS文件创建流程
在lease一章我们已经对文件创建流程有了一个大致了解,文件的创建主要是通过提供给用户前项层工具抽象类FileSystem,针对于HDFS这个类的具体实现为DistributedFileSystem。文件夹的创建是一个相对简单的过程,主要是通过FileSystem中的mkdirs()方法,这个方法在DFSClient实例中调用同名方法mkdirs(),通过Hadoop本身的RPC机制
2009-11-20 15:40:00
4309
原创 HDFS-block与DataNode对应信息管理模块儿
上文已经提到,HDFS中存储数据的最小单位是BLOCK,一个文件对应的所有BLOCK全部按照一定的部署策略存在于DataNode上;我们也提到namenode负责存储文件系统的元数据信息(文件目录结构,以及文件包含的所有block). 当client用户请求读取某个文件时,client首先通过RPC的方式调用NameNode上的服务模块,得到一个文件包含的所有BLOCK列表,以及这些Bloc
2009-11-20 15:38:00
3752
原创 HDFS文件元数据信息管理模块
设计思想HDFS中对数据存储的最小单位为block,HDFS会将其存储的大文件打散成很多64M大小的block,并将这些block分别存储在集群中datanode机器上。服务器namenode主要存储文件元数据信息(文件目录结构,具体文件由那些block组成),该部分主要涉及的关键对象为:INode,INodeFile,INodeDirectory,Block,BlockInfo,FS
2009-11-20 15:35:00
3687
原创 hadoop公共模块RPC实现机理
该模块儿是整个hadoop平台命令类协议通讯的基础,Hadoop平台中所有的协议调用都是通过该套机制进行实现。 术语解释:远程进程调用client调用远程Server中某实例的方法。。具体实现:远程过程调用,一定通过网络进行方法参数以及返回值信息传输,该模块儿主要采用通用的网络Server设计实现方式,利用Socket构建Server服务器,并在其上构造一个具体业
2009-11-20 15:29:00
2322
原创 mapreduce编程模型介绍
任何技术点在你未曾接触过的时候,都是觉得雾里看花,水中望月,既遥远又神秘,但是当你尝试学习并通过实践对其脉络掌握清楚以后,就会觉得原来这么简单,技术就是那么一回事儿。mapreduce分布式编程模型是google在2004年提出来的,目的是为了解决海量数据的处理,我们通过一段时间的应用,对mapreduce编程的实现机理有了一定了解,现总结如下,希望能为应用开发者提供帮助,我尽量阐述
2009-11-20 15:23:00
3054
3
MapReduce中文翻译
2008-11-07
gitlab安装出现的问题
2015-05-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人