
大数据
sudo5zzb
脚踏实地,仰望星空!
展开
-
socket http rpc学习总结
Socket接口位于应用层和运输层之间,它是一个编程接口便于进行程序开发,可以基于TCP/UDP,但是通常指一次TCP连接。HTTP则是一种应用层协议,HTTP是一种请求-响应式连接,必须是一问一答的形式(比如web编程,每次服务器必须等待request才能response)web则是基于HTTP协议的。序列化: 将数据结构或对象转换成二进制串的过程反序列化:将在序原创 2016-04-26 18:14:37 · 372 阅读 · 0 评论 -
RDD中partion和block的对比
第一段引用:http://www.tuicool.com/articles/fyuABfQRDD是一个分布式数据集,顾名思义,其数据应该分部存储于多台机器上。事实上,每个RDD的数据都以Block的形式存储于多台机器上,下图是Spark的RDD存储架构图,其中每个Executor会启动一个BlockManagerSlave,并管理一部分Block;而Block的元数据由Driver节点的B原创 2016-04-29 16:18:16 · 977 阅读 · 0 评论 -
解决eclipse下/非spark集群下/通过 java application运行spark程序
最近开始学spark,配置好spark集群后使用另一台局域网内的非集群内部linux机器进行开发。创建的maven项目。直接使用run as-->java Application 报classNotFound错误。原因好像是程序没有生成对应的jar包给master,worker无法获取到jar。那首先想到的当然是使用maven生成jar包。然后可以使用两种方法来运行程序:1原创 2016-05-04 11:07:30 · 1084 阅读 · 0 评论 -
NoSQL:列存储数据库之HBase超详细解读
转载:http://tech.it168.com/a2011/1017/1259/000001259748.shtmlHbase是bigtable的开源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。 它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实转载 2016-04-28 15:36:39 · 454 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介
转载:http://www.cnblogs.com/shishanyuan/p/4723604.html?utm_source=tuicool1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Ha转载 2016-04-29 10:22:11 · 404 阅读 · 0 评论 -
粗略对比Parquet和Hbase数据存储结构
Parquet的Row group相当于HBase的HRegion,Parquet的colum trunk相当于HBase的Store。 HBase的Store由StoreFile组成,Parquet的colum trunk则由最小单位page存储。两者最大差异就在于此,StoreFile仅是存储了某一特定列的阀值范围内的values集合。而colum trunk的每个pag原创 2016-04-28 18:18:16 · 3748 阅读 · 0 评论 -
深入分析Parquet列式存储格式
转载:http://www.infoq.com/cn/articles/in-depth-analysis-of-parquet-column-storage-formatParquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。列式存储列式存储和转载 2016-04-28 17:58:22 · 434 阅读 · 0 评论 -
关系模型、键值存储、文档存储、列式存储、图形数据库,解析五大流行的数据库模型
什么是数据模型?访问数据库中的数据取决于数据库实现的数据模型。数据模型会影响客户端通过API对数据的操作。不同的数据模型可能会提供或多或少的功能。一般而言,数据模型不会直接提供过多的功能,许多功能必须由客户端自行实现。数据模型决定了客户端如何对数据进行编码存储。应用程序需要某种域模型与存储技术支持的特性进行映射。迄今为止,主导的数据模型仍然是关系模型。在这里,我转载 2016-04-27 15:42:15 · 931 阅读 · 0 评论 -
Spark RDD详解
转载自:Spark RDD详解http://f.dataguru.cn/forum.php?mod=viewthread&tid=475874&fromuid=4462921、RDD是什么RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间转载 2016-04-27 10:52:38 · 395 阅读 · 0 评论 -
hadoop权威指南学习散记
寻址时间的提高远远慢于传输速率的提高结构化数据如 :xml 半结构化数据 :电子表格 非结构化数据:纯文本/图像数据关系型数据库与MapReduce差异正在消失磁盘块一般512k HDFS文件块64M 大块是为了最小化寻址开销hadoop 操作级别 job(分析词频)->tasks(每个数据块一个task)->多次map+reduce(如每行数据一次执行过程)mapper->r原创 2016-04-27 09:23:41 · 323 阅读 · 0 评论 -
Presto部署问题解决
2017-03-15T16:21:48.952+0800 ERROR main com.facebook.presto.server.PrestoServer Unable to create injector, see the following errors:1) Error: Defunct property 'task.max-memory' (class [class原创 2017-03-15 16:37:46 · 3518 阅读 · 0 评论