
大数据系列
文章平均质量分 58
小组件
lipviolet
面对现实,忠于理想~
展开
-
Elasticsearch---ES原理
比如一首诗,有诗题、作者、朝代、字数、诗内容等字段,那么首先,我们可以建立一个名叫 Poems 的索引,然后创建一个名叫 Poem 的类型,类型是通过 Mapping 来定义每个字段的类型。 比如诗题、作者、朝代都是 Keyword 类型,诗内容是 Text 类型,而字数是 Integer 类型,最后就是把数据组织...原创 2019-11-18 19:53:16 · 276 阅读 · 0 评论 -
Hadoop系列---设计理念
另一种表示图原创 2019-02-27 22:08:26 · 294 阅读 · 0 评论 -
大数据---电商日志分析
原创 2019-03-02 17:29:34 · 1478 阅读 · 0 评论 -
大数据---多版本Wordcount
①mapruduce下的java版本: ②spark下的java版本的wordcount:原创 2019-03-02 19:08:19 · 197 阅读 · 0 评论 -
Spark系列---性能优化(基础篇)
Spark性能优化指南——基础篇 - 美团技术团队 美团技术团队最新文章文章存档技术沙龙关于我们© 2019 美团技术团队All rights reserved.Spark性能优化指南——基础篇2016年04月29日 作者: 李雪蕤 文章链接 16347字 33分钟阅读在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQ...原创 2019-03-03 19:35:22 · 317 阅读 · 0 评论 -
spark系列---性能调优(高级篇)
Spark性能优化指南——高级篇 - 美团技术团队 美团技术团队最新文章文章存档技术沙龙关于我们© 2019 美团技术团队All rights reserved.Spark性能优化指南——高级篇2016年05月12日 作者: 李雪蕤 文章链接 23095字 47分钟阅读继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数...原创 2019-03-03 19:44:50 · 1314 阅读 · 0 评论 -
大数据---生态圈总结
hadoop 1,数据越来越大,尤其是搜索引擎公司,数据的类别---分为三种,结构型,非结构型,半结构型,对应产生的数据库,关系型数据库,非关系型数据库;数据的来源---自己公司业务,爬虫(网络),购买(第三方交易);数据的处理---缺失字段,重要补全,不重要删除,隐私字段则脱敏 2,谷歌三篇论文 GFS(google filesystem)、产生了hdfs,解决海量数据存储;MAPREDU...原创 2019-03-11 23:35:50 · 3088 阅读 · 0 评论 -
大数据---mr和spark的shuffer过程详解及对比优化
大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。 MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。M...原创 2019-03-17 20:48:51 · 1359 阅读 · 0 评论 -
大数据---常见组件之端口
Hadoop 9000:展现抽象目录树的整体目录结构,也就是文件系统的访问入口 50070:namenode主节点的端口号 50090:secondarynamenode的端口号 8020:namenode节点active状态下的端口号 8088: resourcenamenode的端口号 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 19888:...原创 2019-04-01 22:34:20 · 2132 阅读 · 0 评论