
Spark
MG羽白
这个作者很懒,什么都没留下…
展开
-
Spark项目学习-慕课网日志分析-days1-hadoop
1. HDFS架构1 Master(NameNode/NM) 带 N个Slaves(DataNode/DN)HDFS/YARN/HBase 1个文件会被拆分成多个Block NN:1)负责客户端请求的响应2)负责元数据(文件的名称、副本系数、Block存放的DV)的管理 DN:1)存储用户的文件对应的数据块(Block)2)要定期向NN发送心跳信息,...原创 2018-10-06 20:05:37 · 5115 阅读 · 0 评论 -
Spark GraphX 学习笔记——LDA实战:路透社电报新闻分类
1. 隐含狄利克雷分布(Latent Dirichlet allocation,LDA) 1)LDA 属于无监督学习,所有的主题并不需要事先指定,是在聚类过程中逐渐形成的 。 2)MLlib 的 LDA 使用了 GraphX 来提高计算效率,尽管它的输入和输出都不是图。 3)LDA 是基于隐含变量的,在这里隐含变量指的是算法自动推断出来的“主题”。这些主题由一些与之关联的单词描述,但并...原创 2019-04-23 19:20:40 · 1674 阅读 · 0 评论 -
Spark GraphX 学习笔记——影片推荐:SVDPlusPlus (监督学习)
影片推荐: SVDPlusPlus (监督学习) 推荐系统就是监督学习的一个例子,因为它提供了 一些影片评分的数据,并要求预测未知的用户对影片的评分。一般有两种主流的方法来解决这个问题。 1)第一种主流方法比较直接和简单 : 对于需要处理的用户 , Pat, 找到和他有相同爱好的其他用户,然后给 Pat 推荐这些用户喜欢的影片。这就是 Netflix 公司早期的推荐策略,有时被称为邻居...原创 2019-04-23 19:18:47 · 2741 阅读 · 0 评论 -
Spark GraphX 学习笔记——旅行推销员问题:贪心算法
旅行推销员问题: 在一个无向图中找到一个经过每一个顶点的最短路径1. 贪心算法 对于旅行推销员问题而言,贪心算法是最简单的,即在每次迭代时选择最接近的最短边,但不做进一步搜索2. 贪心算法优化 贪心算法可在不用增加太多代码的情况下,用不同的起始顶点重新运行整个算法,不断迭代,挑选出一个到达所有顶点并且最短的解决方案,用这种方法可以改善贪心算法。3. 贪心算法scala代码实现:...原创 2019-04-22 15:32:03 · 2186 阅读 · 1 评论 -
Spark GraphX 学习笔记——Dijstra最短路径算法
1. Scala中的Dijstra最短路径算法import org.apache.spark.graphx._def dijkstra[VD](g:Graph[VD,Double], origin:VertexId): Graph[(VD,Double), Double] = { /** * 1. 初始化 * 遍历图的所有节点 * 变为(false, Double.Max...原创 2019-04-22 14:54:14 · 2531 阅读 · 0 评论 -
Spark GraphX 学习笔记——预测社交圈
数据来源:Kaggle数据网址:https://www.kaggle.com/c/learning-social-circles/data实验目的:读取每个egonet文件内容,根据这些朋友及朋友间的连接创建一个图,找出图中的连通组件,输出社交圈结果参考书籍:spark GraphX实战编程语言:Scala// 1. 读取数据,生成pairRDDval egonets = ...原创 2019-04-17 10:41:44 · 2941 阅读 · 2 评论 -
Spark RDD解密(一)
1. RDD常用转换算子 1) map(f:T => U) 2) filter(f:T => Bool) // 过滤操作 3) flatMap(f:T => Seq[U]) // 将RDD中的每个集合合并成新的更大的集合 4) glom() // 将每个分区中的元素组成一个数组 5) distinct() // 将每...原创 2019-03-28 10:12:13 · 1939 阅读 · 0 评论 -
Kafka单节点部署
一. 单节点单broker的部署和使用1. 启动Zookeeper ./zkServer.sh start 或 zookeeper-server-start.sh config/zookeeper.properties2. 启动Kafka kafka-server-start.sh config/server.properties3. 创建topic ...原创 2018-12-11 11:11:22 · 2731 阅读 · 0 评论 -
在scala中连接mysql时出现错误:Establishing SSL connection without server's identity verification is not recomm
在Scala中连接mysql时,输入命令:scala> rebuyDF.write.mode("append").jdbc("jdbc:mysql://localhost:3306/dbtaobao", "dbtaobao.rebuy", prop)出现错误如下:Wed Nov 28 20:41:12 CST 2018 WARN: Establishing SSL connect...原创 2018-11-28 20:50:23 · 1522 阅读 · 0 评论 -
Exception in thread “main” java.lang.NoSuchMethodError: scala.Predef..conforms()Lscala/Predef$$less$
运行Scala程序,出现如下问题:Exception in thread “main” java.lang.NoSuchMethodError: scala.Predef..conforms()Lscala/Predef$$less$colon$less;at org.apache.spark.util.Utils$.getSystemProperties(Utils.scala:154...原创 2018-10-15 14:45:25 · 17655 阅读 · 3 评论 -
使用git bash 操作spark shell 无法删除
在使用git bash 操作spark shell BackSpace和Delete键均无法删除 通过在git bash中设置,勾选Delete sends DEL可以使用delete键进行删除原创 2018-09-28 19:14:32 · 3730 阅读 · 0 评论 -
《Spark核心源码分析与开发实战》读书笔记之一
第1章 Spark系统概述1.1 Spark是什么1. Spark比Hadoop快在哪里(1)Spark使用内存计算,而Hadoop使用IO(2)Hadoop的计算是按部就班一步一步进行的,而Spark则是提前生成了DAG,优化了运算路径 1.2 Spark生态系统BDAS1. BDAS:伯克利数据分析栈2. Spark CoreSpark将数据在分布式环境下分...原创 2018-10-13 14:45:04 · 6756 阅读 · 0 评论 -
Spark项目学习-慕课网日志分析-days5-Spark on Yarn
1. 概述 (1) 在Spark中,支持4种运行模式: 1)local:开发时使用 2)standalone:是Spark自带的,如果一个集群是Standalone的话,那就需要在多台机器上同时部署Spark环境(不推荐) 3)YARN:建议使用,统一使用YARN进行整个集群作业(MR,Spark)的资源调度 4)Mesos:国内用的少不管使用...原创 2018-10-06 20:18:22 · 5413 阅读 · 0 评论 -
Spark项目学习-慕课网日志分析-days4-慕课网日志分析
一 慕课网日志分析实战项目 1)用户行为日志概述 2)离线数据处理架构(数据如何采集,如何清洗,需求处理,写入数据库,可视化) 3)项目需求 4)功能实现 5)Spark on YARN (90%公司将Spark跑在YARN上) 6)性能调优 1. 用户行为日志概述 1)用户行为日志:用户每次访问网站时所有的行为数据(访...原创 2018-10-06 20:15:43 · 5946 阅读 · 4 评论 -
Spark项目学习-慕课网日志分析-days3-External Data Source 外部数据源
1. External Data Source 外部数据源 1)每一个spark程序以加载数据开始,以输出数据结束 2)方便快速的从不同的数据源(json、parquet/rdbms),经过混合处理,在将处理结果以特定的格式,写回到指定的系统(HDFS S3)中处理过程: 1)要从关系型数据库导入大数据系统,然后处理完再导回原有数据库目标: 1)对于...原创 2018-10-06 20:13:59 · 5208 阅读 · 0 评论 -
Spark项目学习-慕课网日志分析-days3-DataFrame&Dataset
1.DataFrame 1)不是Spark SQL提出的,而是早期在R,Pandas中产生的 2)DataFrame是一个以列(列名、列的类型、列值)的形式构成的分布式的数据集,按照列赋予不同的名称 3)是关系型数据库中的一张表或者是R/Python中的一个dataframe概念,但是具有更多优化 2.DataFrame对比RDD(DataFrame能够具有更...原创 2018-10-06 20:10:54 · 5286 阅读 · 0 评论 -
Spark项目学习-慕课网日志分析-days2-Spark SQL
1.Spark SQL 概述(1)为什么需要SQL1)事实上的标准2)简单易学Hive:类似于sql的Hive QL语言 sql==>mapreduce 特点:基于mapreduce 改进:基于tez sparkSpark:分布式的基于内存的计算框架hive on spark ==> shark(hive on spark) 优点:基于...原创 2018-10-06 20:08:46 · 5549 阅读 · 0 评论 -
Spark GraphX 学习笔记——垃圾信息检测:LogisticRegressionWithSGD
垃圾信息检测:LogisticRegressionWithSGD (Stochastic Gradient Descent) 1)构建训练集的图import org.apache.spark.graphx._import org.apache.spark.mllib.classification.LogisticRegressionWithSGDval trainV = sc.ma...原创 2019-04-23 19:22:30 · 1832 阅读 · 0 评论