
Spark
人生偌只如初见
学历代表过去,财力代表现在,学习力代表将来,所见所闻改变一生,不知不觉断送一生。
展开
-
Python学习笔记-Spark操作Hive
为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark。PySpark在线安装:pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pysparkPySpark离线安装:下载地址:https://pypi.org/project/wheel/#fileswheel-0.33.6...原创 2019-12-19 10:31:30 · 1310 阅读 · 0 评论 -
学习笔记-日志采集和实时分析简单实例
流程简述:Nginx生成的访问日志文件通过Filebeat采集输入到Kafka中,Kafka中数据流入Logstash,Logstash处理过滤数据。一个出口直接写到ElasticSearch,提供Kibana进行日志分析可视化处理;一个出口直接写到HDFS,提供后期离线统计分析处理;一个出口写入Kafka中,提供SparkStreaming进行近实时日志统计分析处理。具体配置操作记录如下:N...原创 2018-08-23 17:38:27 · 992 阅读 · 0 评论 -
Spark学习笔记-Streaming集成Flume
基于推模式的:基于拉模式的:原创 2014-11-01 00:59:42 · 6970 阅读 · 2 评论 -
ES-Hadoop学习笔记-Spark交互
elasticsearch-hadoop提供ElasticSearch与Apache Spark的本地集成。从ElasticSearch读取的数据是以Spark里RDD的形式进行操作,同时Spark的RDD的内容也可以被转换为文档,保存进ElasticSearch中进行查询。下面是两个交互的简单实例ElasticSearch -> Sparkimport org.apache.原创 2016-07-01 14:11:03 · 7667 阅读 · 6 评论 -
Spark学习笔记-Tachyon运行Spark
Tachyon版本:tachyon-0.5.0-bin.tar.gzSpark版本:原创 2014-11-22 00:28:45 · 1818 阅读 · 0 评论 -
Spark学习笔记-安装部署与运行实例
首先解压scala,本次选用版本scala-2.11.1[hadoop@centos software]$ tar -xzvf scala-2.11.1.tgz[hadoop@centos software]$ su -[root@centos ~]# vi /etc/profile添加如下内容:SCALA_HOME=/home/hadoop/software/scala-2.原创 2014-06-13 17:11:19 · 4796 阅读 · 0 评论 -
Spark学习笔记-Streaming-1
Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Engine,也就是把Spark Streaming的输入数据按照batch size(如1秒)分成一段一段的数据(Discretized Stream),每一段数据都转换成Spark中的RDD(Resilient Distributed Dataset),然后将Spark Stre...原创 2014-09-28 18:31:16 · 2137 阅读 · 0 评论 -
Spark学习笔记-GraphX-2
Spark GraphX原创 2014-09-29 17:46:12 · 3681 阅读 · 2 评论 -
Spark学习笔记-SparkSQL-1
SparkSQL引入了一种新的弹性分布式数据集SchemaRDD,SchemaRDD由行对象以及描述行对象中每列数据类型的schema组成。SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外,还可以通过registerTempTable...原创 2014-09-21 23:32:08 · 3148 阅读 · 0 评论 -
Spark学习笔记-GraphX-1
Spark GraphX是一个分布式图处理框架,Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求。Spark GraphX由于底层是基于Spark来处理的,所以天然就是一个分布式的图处理系统。图的分布式或者并行处理其实是把这张图拆分成很多的子图,然后我们分别对这些子图进行计算,计算的时候可以分别迭代进行分阶段的计算,即对原创 2014-09-29 13:04:29 · 6596 阅读 · 0 评论 -
Spark学习笔记-HBase操作
Scala版本操作HBaseJava版本操作HBase原创 2014-08-08 12:57:10 · 12470 阅读 · 20 评论 -
Spark学习笔记-KNN算法实现
原理可以参见:数据挖掘笔记-分类-KNN-1原创 2014-09-04 18:20:39 · 12694 阅读 · 2 评论