
大数据
文章平均质量分 80
GISEarth
GIS无所不能,一切皆有可能!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
分布式消息系统:Kafka
Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转。传统的企业消息系统并不是非常适合大规模的数据处理。为了已在同时搞定在线应用(消原创 2016-06-29 17:29:35 · 752 阅读 · 0 评论 -
SQL优化大总结之百万级数据库优化方案
网上关于SQL优化的教程很多,但是比较杂乱。近日有空整理了一下,写出来跟大家分享一下,其中有错误和不足的地方,还请大家纠正补充。(1) 选择最有效率的表名顺序(只在基于规则的seo/' target='_blank'>优化器中有效): ORACLE 的解析器按照从右到左的顺序处理FROM子句中的表名,FROM子句中写在最后的表(基础表 driving table)将被最先处理,在FROM子原创 2016-07-05 11:50:44 · 1108 阅读 · 1 评论 -
最全的“大数据”学习资源(二)
服务编程 Akka Toolkit:JVM中分布性、容错事件驱动应用程序的运行时间; Apache Avro:数据序列化系统; Apache Curator:Apache ZooKeeper的Java库; Apache Karaf:在任何OSGi框架之上运行的OSGi运行时间; Apache Thrift:构建二进制协议的框架;转载 2016-07-01 16:32:12 · 2272 阅读 · 0 评论 -
最全的“大数据”学习资源(一)
当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。为了帮助大家更好深入了解大数据转载 2016-07-01 16:27:34 · 1894 阅读 · 0 评论 -
Hadoop家族系列文章
发现一个学习Hadoop的文章...学习Hadoop的同学可以看看...主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bi转载 2016-07-01 16:14:52 · 807 阅读 · 0 评论 -
RHadoop实践系列之一:Hadoop环境搭建
第一篇 Hadoop环境搭建部分,分为3个章节。Haddop环境准备Hadoop完全分步式集群搭建HDFS测试每一章节,都会分为”文字说明部分”和”代码部分”,保持文字说明与代码的连贯性。Haddop环境准备文字说明部分:首先环境准备,这里我选择了Linux Ubuntu操作系统12.04的64位版本,大家可以根据自己的使用习惯选择顺手的Linux。原创 2016-07-01 16:08:08 · 669 阅读 · 0 评论 -
海量数据处理面试题集锦与Bit-map详解
第一部分、十五道海量数据处理面试题1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文转载 2016-06-30 10:27:33 · 464 阅读 · 0 评论 -
亿级用户下的新浪微博平台架构
序言新浪微博在2014年3月公布的月活跃用户(MAU)已经达到1.43亿,2014年新年第一分钟发送的微博达808298条,如此巨大的用户规模和业务量,需要高可用(HA)、高并发访问、低延时的强大后台系统支撑。微博平台第一代架构为LAMP架构,数据库使用的是MyIsam,后台用的是php,缓存为Memcache。随着应用规模的增长,衍生出的第二代架构对业务功能进行了模块化、转载 2016-06-29 18:01:46 · 478 阅读 · 0 评论 -
知识分享:详解Hadoop核心架构
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、Hive是如何运行,以及基于Hadoop数据仓库的构建和分布式数据库内部具体实现。如有不足,后续及时修改转载 2016-06-29 17:57:10 · 636 阅读 · 0 评论 -
开源大数据引擎:Greenplum 数据库架构分析
Greenplum 数据库是最先进的分布式开源数据库技术,主要用来处理大规模的数据分析任务,包括数据仓库、商务智能(OLAP)和数据挖掘等。自2015年10月正式开源以来,受到国内外业内人士的广泛关注。本文就社区关心的Greenplum数据库技术架构进行介绍。一. Greenplum数据库简介大数据是个炙手可热的词,各行各业都在谈。一谈到大数据,好多人认为就是Hadoop。原创 2016-06-29 17:54:33 · 5975 阅读 · 0 评论 -
Google Dremel 原理 - 如何能3秒分析1PB
随着Hadoop的流行,大规模的数据分析系统已经越来越普及。数据分析师需要一个能将数据“玩转”的交互式系统。如此,就可以非常方便快捷的浏览数据,建立分析模型。Dremel系统有下面几个主要的特点:Dremel是一个大规模系统。在一个PB级别的数据集上面,将任务缩短 到秒级,无疑需要大量的并发。磁盘的顺序读速度在100MB/S上下,那么在1S内处理1TB数据,意味着至少需要有1万个磁盘的并发原创 2016-06-29 17:37:47 · 6476 阅读 · 0 评论 -
浅谈--数据库 SQL千万级数据处理解决方案
在这个大数据兴起的时代,过亿条的数据的处理已经不少见了。以至于一个处理过程要几个小时的。后面慢慢优化,查找一些经验文章。才学到了一些基本方法。分享一下,由于不是专业的DBA,可能不是最优的解决方案,共同学习和探讨吧...1. 数据太多。放在一个表肯定不行。 比如月周期表。一个月1000万,一年就1.2亿,如此累计下去肯定不行的。所以都是基于一个周期数据一个表。甚至一个周期数据就要分几个原创 2016-07-05 11:57:27 · 18301 阅读 · 2 评论