
Spark
蜗牛!Destiny
博客已经迁移到www.codeobj.com,感觉写的还不错的童鞋可以到这里继续查看
展开
-
CDH5(5.15.0)升级jdk1.7到1.8,并且将spark1.6升级到spark2.3
严格来说不是将spark1.6升级到spark2.3,而是安装一个新的spark2.3一、JDK1.7升级到JDK1.8由于之前CDH中安装了spark1.6,为了适配,我安装jdk1.7,但是在spark2.3中jdk1.7的支持已经被移除了,所以我们第一件事需要将jdk版本升级到jdk1.81、停掉所有节点的cloudera manager/opt/cm-5.15.0/...原创 2018-08-18 15:26:47 · 2751 阅读 · 0 评论 -
CDH5(5.15.0)中修改spark的yarn.nodemanager.resource.memory-mb和yarn.scheduler.maximum-allocation-mb配置
CDH配置文件修改:1、spark的yarn.nodemanager.resource.memory-mb和yarn.scheduler.maximum-allocation-mb配置需要在yarn中进行修改 修改yarn.scheduler.maximum-allocation-mb为2G 修改yarn.nodemanager.resource.memory-mb为2...原创 2018-08-18 15:42:20 · 6685 阅读 · 0 评论 -
Spark在Windows下的环境搭建
由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。为了突出”From Scratch”的特点(都是标题没选好的缘故),所以下面的步骤稍显有些啰嗦,老司机大可不必阅读,直接跳过就好。一.JDK的安装与环境变量的设置...转载 2018-10-12 09:39:57 · 901 阅读 · 0 评论 -
Spark Streaming的maven配置pom.xml
不多说,直接查询相关的内容https://mvnrepository.com/search?q=spark我们可以看到很多常见的东西,spark-core,spark-sql,spark-streaming等等点开这些链接进入到版本列表界面,选择自己需要的配置spark-corespark-streaming这里就不一一说明了,下面我直接列出一个已经测试成功的pom.xml&l...原创 2018-10-12 15:27:47 · 5028 阅读 · 0 评论 -
eclipse打包说明 Run as ---Maven build 命令详解
Goals:clean 清除编译,compile 编译,test 编译并测试,install 打包并发送到本地仓库,package 只是打成jar包,并不会发送到本地仓库测试:run as maven build..goals 输入 clean test打包:run as maven build..goals 输入 clean package打包并发送到本地仓库:ru...原创 2018-10-12 16:13:19 · 568 阅读 · 1 评论 -
Spark Streaming介绍以及简单使用
一、Spark Streaming介绍Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams.Spark Streaming是Spark core的扩展,有...原创 2018-10-10 23:02:15 · 707 阅读 · 0 评论 -
我司Spark迁移Hive数据到MongoDB生产案例代码--转载
本文章转自若泽大数据,如果您也想转载请注明出处,原文地址:我司Spark迁移Hive数据到MongoDB生产案例代码(若泽大数据:www.ruozedata.com ,系统化讲解大数据知识,专注于生产案例的讲解,讲师全部为一线在职牛人,定期学员分享生产案例,所有人一起进步)Hive emp表数据如下hive (soul)> select * from emp;OKemp.emp...转载 2018-12-28 09:23:36 · 615 阅读 · 0 评论 -
Spark简介
文章同步位置:https://www.codeobj.com/?p=567一、官网介绍1 什么是Spark官网地址:http://spark.apache.org/Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,...原创 2018-12-18 11:52:06 · 740 阅读 · 0 评论 -
Spark RDD统计每个域名下,不同的URL对应的访问次数的top3
文章原地址:https://www.codeobj.com/?p=5741、数据来源1)数据样例http://www.itpub.net/?username=04209 [2018-12-19 10:14:28] 63https://www.cnblogs.com/AK47Sonic/?username=03053 [2018-12-19 10:33:44] 33http://mail...原创 2018-12-19 12:23:57 · 1454 阅读 · 0 评论