
Spark
Alexander的鸭梨山大
偶尔分享一些乱七八糟的操作。。。。。。。。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Spark】1、安装与介绍
Spark Spark是一种开源集群运算框架,由加州大学伯克利分校的AMPLab开发。Spark是一个弹性运算框架,适合进行Spark Streaming数据流处理、Spark SQL互动分析、MLlib机器学习等应用。Spark允许用户将数据加载到cluster集群的内存中存储,并多次重复计算,非常适用于机器学习的算法。 Spark是用Scala开发的,并支持多种语言。 注:本博客系列将用Pyt...原创 2019-07-08 19:17:07 · 371 阅读 · 0 评论 -
【Spark】2、RDD
弹性分布式数据集(Resilient Distributed Dataset),是Spark的核心,属于一种分布式的内存系统数据集应用,能与其他系统兼容,导入外部存储系统的数据集,如HDFS、HBase等 RDD的特性 1、RDD的三种基本运算 Lineage机制具备容错的特性 RDD本身具有Linear机制。记录每个RDD与其父代RDD之间的关联,还会记录通过什么操作才由父代RDD得到该RD...原创 2019-07-09 18:13:38 · 592 阅读 · 0 评论 -
【Spark】3、运行WordCount程序
本节内容快速略过,主要说明怎么执行程序。。。。。 WordCount的python代码: from pyspark import SparkContext from pyspark import SparkConf def CreateSparkContext(): sparkConf = SparkConf() \ .setAppName("WordC...原创 2019-07-10 16:33:51 · 613 阅读 · 0 评论 -
【Spark】4、基于ALS创建电影推荐引擎
Spark MLib支持ALS推荐算法,通过观察所有用户给产品的评价来推断每个用户的喜好,并向用户推荐适合的多个产品,也可以把某一个产品推荐给多个用户。 推荐算法介绍 基于关系型规则的推荐(Association Rule) 消费者购买产品A,那么他有多大机会购买产品B。 基于内容的推荐(Content-based) 分析网页内容自动分类,再将用户自动分类,将新进已分类的网页推荐给对该网页感兴趣的...原创 2019-07-11 21:39:45 · 2031 阅读 · 0 评论 -
【Spark】5、决策树二元分类
本节使用决策树二元分类分析StumbleUpon数据集,预测网页是暂时性的(ephemeral)或是长青的(evergreen),并调校参数找出最佳参数组合,提高预测准确度。 StumbleUpon Evergreen大数据问题场景分析 StumbleUpon是一个个性化的搜索引擎,会按用户的兴趣和网页评分等记录推荐给你感兴趣的网页,有些网页是暂时性的,比如新闻,这些文章可能只是在某一段时间会对读...原创 2019-07-17 15:48:59 · 2150 阅读 · 2 评论