
大数据
文章平均质量分 55
lmalds李麦迪
这个作者很懒,什么都没留下…
展开
-
Spark为什么快?
Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。其实,关键还是在于Spark 本身快。Spark为什么快?1、消除了冗余的HDFS读写Hadoop每次shuffle操作后,必须写到磁盘,而Spark在shuffle后不一定落盘,可以cache原创 2016-04-19 14:19:36 · 8844 阅读 · 0 评论 -
大数据时代,为什么使用Spark框架?
1、轻量级快速处理 Spark的快速是相当于Hadoop等其他分布式集群而言,其快速主要原因是基于内存的计算,减少了IO的操作,使用RDD可以将中间结果存放在内存或磁盘,以便之后做迭代计算时重复使用。 Spark的轻量级体现在其仅仅是一个计算框架,且提供了Spark SQL、Spark Streaming、MLLib以及Graph X等框架,这些框架提供了轻量级的API来处理数原创 2016-04-19 13:54:57 · 4525 阅读 · 0 评论 -
Zookeeper集群的搭建
zookeeper原创 2016-06-27 13:45:45 · 1091 阅读 · 0 评论 -
Hadoop Yarn详解
Yarn简介转载 2016-12-15 11:03:37 · 707 阅读 · 0 评论 -
SnappyData企业版中off-heap功能及与on-heap功能的对比
目录:1、SnappyData OSS的功能介绍2、SnappyData企业版的额外功能3、企业版off-heap功能的对比与测试4、结论5、参考1、SnappyData OSS的功能介绍OSS是Open Source SnappyData Community Edition的简称,其是一个基于Apache 2.0的开源的分布式数据库产品,包含了如下的功能...原创 2018-03-05 15:04:09 · 1222 阅读 · 0 评论 -
分享一个实时数仓系统--SnappyData的博客与中文社区
分享一个实时OLAP系统–SnappyData的博客与中文社区SnappyData中文博客 SnappyData中文社区原创 2018-04-23 15:29:40 · 6455 阅读 · 3 评论 -
数据分析的新形式--自然语言搜索:NL2SQL2Graph
数据分析的新形式--自然语言搜索:NL2SQL2Graph背景定位分析能力模型调研实现背景自然语言转SQL,再将SQL结果集转图形,在NLP领域是个非常不错的研究方向,这样做的好处在我看来,主要有以下点:1、数据分析人员无需写Code(SQL)实现取数,搜索数据,灵活方便,支持快速多变的adhoc查询2、相对于报表和BI系统,数据分析人员主动探索数据,而不是被动接收相对固定的报表3、搜...原创 2019-03-18 11:50:22 · 4223 阅读 · 5 评论