
spark
文章平均质量分 71
cm_chenmin
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark作业调度
spark作业调度原创 2016-09-25 22:10:04 · 551 阅读 · 0 评论 -
使用基于Apache Spark的随机森林方法预测贷款风险
在本文中,我将向大家介绍如何使用Apache Spark的spark.ml库中的随机森林算法来对银行信用贷款的风险做分类预测。Spark的spark.ml库基于DataFrame,它提供了大量的接口,帮助用户创建和调优机器学习工作流。结合dataframe使用spark.ml,能够实现模型的智能优化,从而提升模型效果。分类算法分类算法是一类监督式机器学习算法,它根据已知标签的样本(转载 2016-11-22 17:42:45 · 1651 阅读 · 0 评论 -
Spark Streaming与Kafka集成编程
因为Kafka在版本0.8与0.10之间引入的新的消费者API,因此有二套相应的相互独立的Spark Streaming与Kafka集成包可供选择使用,二者的特征比较如下:Kafka broker version 0.8.2.1 or higher:针对这个版本,有二种实现:有接收器线程(Receivers)基于Kafka高等级消费者API和无接收器线程(Receive原创 2016-10-31 23:22:30 · 1511 阅读 · 0 评论 -
Spark机器学习的一些概念整理
(文章主要来自于学习整理,好记心不如烂笔头,先记上后面再完善,欢迎大家指正交流)监督式学习:使用有标签的训练数据(也就是已知结果的数据点)进行学习,对训练样本集外的数据进行标记(分类)预测,训练样本的标记(分类)是已知的,因此岐义性低。 无监督式学习:使用没有标签的训练数据(也就是已知结果的数据点)进行学习对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识原创 2016-10-08 11:37:00 · 529 阅读 · 0 评论 -
Spark词频-逆文档频率
(文章主要来自于学习整理,好记心不如烂笔头,欢迎大家指正交流)词频-逆文档频率(TF-IDF),是广泛应用于文本挖掘的用来反映一个词对于语料库中文档的重要性的生成特征向量的方法,用t来表示一个词,d表示一个文档,D表示文档库,词频TF(t,d)就是词t在文档d中出现的次数,文档频率DF(t,D)表示有多少个文档包含词t,如果我们只用词频来衡量重要性,将容易导致过度强调某些出现非常频繁但原创 2016-10-08 11:01:36 · 3109 阅读 · 0 评论 -
spark机器学习-聚类
聚类算法是一种无监督学习任务,用于将对象分到具有高度相似性的聚类中,聚类算法的思想简单的说就是物以类聚的思想,相同性质的点在空间中表现的较为紧密和接近,主要用于数据探索与异常检测,最常用的一种聚类算法是K均值(K-means)聚类算法算法原理kmeans的计算方法如下:1 选取k个中心点2 遍历所有数据,将每个数据划分到最近的中心点中3 计算每个聚类的平均值,并作为新的中心原创 2016-11-09 21:28:46 · 1746 阅读 · 0 评论 -
流式大数据处理的三种框架:Storm,Spark和Flink
storm、spark streaming、flink都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现的复杂程度。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(原创 2016-11-07 21:48:06 · 40822 阅读 · 1 评论 -
Storm vs Spark
翻译:http://www.slideshare.net/ptgoetz/apache-storm-vs-spark-streamingStorm是一个流处理框架同时能做批处理(Trident)Spark是一个批处理框架同时能做微批处理(Spark Streaming)Apache Storm二套流处理API:Storm内核(Spouts和Bolts).每次一条翻译 2016-10-12 22:39:20 · 476 阅读 · 0 评论 -
storm与spark streaming反压机制
因特殊业务场景,如大促、秒杀活动与突发热点事情等业务流量在短时间内剧增,形成巨大的流量毛刺,数据流入的速度远高于数据处理的速度,对流处理系统构成巨大的负载压力,如果不能正确处理,可能导致集群资源耗尽最终集群崩溃,因此有效的反压机制(backpressure)对保障流处理系统的稳定至关重要。Storm和Spark Streaming都提供了反压机制,实现各不相同对于开启了acker机制的原创 2016-10-26 17:37:55 · 5250 阅读 · 0 评论 -
spark性能调优
1.数据序例化用Kryo序例化代替默认的java序例化,java序例化的优点是灵活,能序例化任何实现了接口java.io.Serializable的类;缺点是执行速度慢,序例化的结果占用字节数大;Kryo序例化速度快,序例化结果占用字节小(一般只有前者的十分之一),缺点是不支持所有可序例化类型并且要求用户注册程序中用到的需要序例化的类型开启Kryo序例化:val conf = new原创 2016-10-08 16:53:30 · 455 阅读 · 0 评论 -
Spark机器学习管道--中文翻译
在这一节里,我们将介绍ML Pipelines的概念,ML Pipelines提供了一个构建于DataFrames之上的统一的统一的高级API的集合,用来帮助用户创建与调优实际的机器学习管道。内容列表:.管道主要概念。DataFrame。管道组件。转换器。评估器。流水线组件的属性。管道。怎么工作。细节。参数。保存与加载管道。代码例子。例子翻译 2016-09-28 08:18:41 · 2806 阅读 · 0 评论 -
MapReduce Shuffle原理 与 Spark Shuffle原理
MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射转载 2016-11-26 20:15:03 · 1586 阅读 · 0 评论