
Hadoop/Spark
文章平均质量分 87
一寒惊鸿
阿里算法工程师,聚焦于人工智能这一璀璨的星辰,致力于在数据的海洋中寻找智慧的珍珠。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【实践】基于spark的CF实现及优化
最近项目中用到ItemBased Collaborative Filtering,实践过spark mllib中的ALS,但是因为其中涉及到降维操作,大数据量的计算实在不能恭维。所以自己实践实现基于spark的分布式cf,已经做了部分优化。目测运行效率还不错。以下代码package modelimport org.apache.spark.broadcast.Broadcastimp原创 2017-07-26 10:27:30 · 14609 阅读 · 2 评论 -
【总结】Spark Streaming和Kafka整合保证数据零丢失
当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件: 1、输入的数据来自可靠的数据源和可靠的接收器; 2、应用程序的metadata被application的driver持久化了(checkpointed ); 3、启用了WAL特性(Write ahead lo原创 2017-09-13 17:11:42 · 963 阅读 · 0 评论 -
【总结】Spark性能优化指南——高级篇
来源: http://tech.meituan.com/spark-tuning-pro.html前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——转载 2017-03-16 18:56:01 · 23965 阅读 · 0 评论 -
【总结】Hadoop NameNode元数据相关文件目录解析
原文:https://www.iteblog.com/archives/967.html在第一次部署好Hadoop集群的时候,我们需要在NameNode(NN)节点上格式化磁盘:[wyp@wyphadoop-2.2.0]$ $HADOOP_HOME/bin/hdfs namenode -format 格式化完成转载 2017-03-09 10:15:40 · 23903 阅读 · 0 评论 -
【总结】Hadoop文件系统元数据fsimage和编辑日志edits
原文:https://www.iteblog.com/archives/968.html https://www.iteblog.com/archives/969.html https://www.iteblog.com/archives/974.htmlNameNode的$dfs.namenode.name.dir/current/文件夹的几个文件:转载 2017-03-09 10:18:51 · 25215 阅读 · 0 评论 -
【总结】Hadoop2.2.0中HDFS的高可用性实现原理
在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。 主要在两方面影响了HDFS的可用性: (1)、在不可预测的情况下,如果NN所在的机器崩溃了,整个集群将无转载 2017-03-09 10:33:16 · 23313 阅读 · 0 评论 -
【总结】Hadoop-2.X HA模式下的FSImage和EditsLog合并过程
原文:http://blog.youkuaiyun.com/dabokele/article/details/51686257补充了一下NameNode启动过程中有关FSImage与EditsLog的相关知识。一、什么是FSImage和EditsLog 我们知道HDFS是一个分布式文件存储系统,文件分布式存储在多个DataNode节点上。一个文件存储在哪些DataNode节点的哪些位转载 2017-03-09 11:26:42 · 23581 阅读 · 0 评论 -
【总结】Spark性能优化指南——基础篇
来源:http://tech.meituan.com/spark-tuning-basic.html前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用转载 2017-03-16 18:53:15 · 23416 阅读 · 0 评论 -
【总结】Hive SQL的编译过程
来源:http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大转载 2017-03-16 19:14:31 · 22990 阅读 · 0 评论 -
【总结】Spark容错机制
容错方式容错 指的是一个系统在部分模块出现故障时还能否持续的对外提供服务,一个高可用的系统应该具有很高的容错性;对于一个大的集群系统来说,机器故障、网络异常等都是很常见的,Spark这样的大型分布式计算集群提供了很多的容错机制来提高整个系统的可用性。一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的原创 2017-06-23 10:57:12 · 35265 阅读 · 2 评论 -
【总结】论spark中的cache/persist/checkpoint
1. cache与persist cache 能够让重复数据在同一个 application 中的 jobs 间共享。RDD的cache()方法其实调用的就是persist方法,缓存策略均为MEMORY_ONLY。 下面简单引入一下cache的机制:哪些 RDD 需要 cache? 会被重复使用的(但不能太大)。用户怎么设定哪些 RDD 要 cache? 因为用户只与 driver原创 2017-06-23 20:11:33 · 21031 阅读 · 0 评论 -
【实践】Spark RDD API实战
map//3表示指定为3个Partitionsvar a = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)//以a各元素的长度建议新的RDDvar b = a.map(_.length)//将两个RDD组合新一个新的RDDvar c = a.zip(b)c.collectres0: A原创 2017-06-23 15:16:02 · 18787 阅读 · 0 评论 -
【实践】spark streaming中的广播变量应用
1. 广播变量我们知道spark 的广播变量允许缓存一个只读的变量在每台机器上面,而不是每个任务保存一份拷贝。常见于spark在一些全局统计的场景中应用。通过广播变量,能够以一种更有效率的方式将一个大数据量输入集合的副本分配给每个节点。Spark也尝试着利用有效的广播算法去分配广播变量,以减少通信的成本。 一个广播变量可以通过调用SparkContext.broadcast(v)方法从一个初始变量原创 2017-07-04 15:07:53 · 25093 阅读 · 6 评论 -
【实践】Spark 协同过滤ALS之Item2Item相似度计算优化
最近项目在做推荐系统中match 策略中的CF召回优化,自之前第一版自己实现的基于item的协同过滤算法http://blog.youkuaiyun.com/dengxing1234/article/details/76122465,考虑到用户隐型评分的稀疏性问题,所以尝试用Spark ml包(非mllib)中的ALS算法的中间产物item的隐性向量,进行进一步item到item的余弦相似度计算。由于item...原创 2018-01-11 14:14:28 · 15064 阅读 · 3 评论