
Spark
文章平均质量分 96
光于前裕于后
本人有多年大数据与机器学习开发经验,并乐于总结与分享,如有侵权或写的不对的地方可以私信我,有问题也可以问我哟,free~
展开
-
在Windows下开发调试PySpark
Spark版本:2.4.0+cdh6.3.1Spark-Windows版本:spark-2.4.0-bin-hadoop2.7WinUtils版本:hadoop-2.7.1Python版本:3.7.2Java版本:1.8.0_121Scala版本:2.11.8 按需安装目录前言1 使用PyCharm开发PySpark直连Hive metastore1.1 下载相关包1.2 配置环境变量1.3 设置spark日志级别1.4 启动spark-sql1.5 创建测试表并插入数据1.6 安装相关包1.原创 2021-02-09 14:55:52 · 3645 阅读 · 1 评论 -
基于Spark MLlib和Spark Streaming实现准实时分类
环境版本: ·Spark 2.0 ·Scala 2.11.8 在网上搜索Spark MLlib和Spark Streaming结合的例子几乎没有,我很疑惑,难道实现准实时预测有别的更合理的方式?望大佬在评论区指出。本篇博客思路很简单,使用Spark MLlib训练并保存模型,然后编写Spark Streaming程序读取并使用模型。需注意的是,在使用Spark MLlib之前我使用了python查看分析数据、清洗数据、特征工程、构造数据集、训练模型等等,且在本篇中直接使用了python构造的数据集。原创 2020-05-21 10:55:27 · 922 阅读 · 0 评论 -
Spark Streaming 2.0 读取Kafka 0.10 小例子
环境版本: Scala 2.11.8; Kafka 0.10.0.1; Spark 2.0.0如需Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1版本请看这篇:Flume+Kakfa+Spark Streaming整合import org.apache.kafka.common.serialization.StringDeserializerimpor...原创 2019-11-08 14:29:19 · 512 阅读 · 0 评论 -
Spark SQL简单操作演示(含导出表)
Spark SQL前身是Shark,由于Shark对于Hive的太多依赖制约了Spark的发展,Spark SQL由此产生。Spark SQL只要在编译的时候引入Hive支持,就可以支持Hive表访问,UDF,SerDe,以及HiveQL/HQL原创 2016-05-15 22:10:43 · 20492 阅读 · 3 评论 -
查看Ambari自动配置的hive与spark sql元数据库
先找下spark配置文件在哪[root@ws1dn3 ~]# whereis sparkspark: /etc/spark[root@ws1dn3 ~]# cd /etc/spark/[root@ws1dn3 spark]# lltotal 8drwxr-xr-x 3 root root 4096 Oct 8 11:16 2.4.2.0-258lrwxrwxrwx 1 root roo原创 2016-10-13 15:29:05 · 6125 阅读 · 4 评论 -
Spark Standalone与Spark on YARN的几种提交方式
进来看!原创 2016-04-26 22:06:46 · 8605 阅读 · 6 评论 -
异常用户发现(Spark MLlib+Spark SQL+DataFrame)
整体思路:对原始数据提取特征后,使用KMeans做聚类,把元素明显少的类视为异常类,类中的用户视为异常用户,打上标签,之后用随机森林进行分类,训练出模型后对新数据进行分类,找出异常用户。原创 2016-11-25 16:47:31 · 3759 阅读 · 0 评论 -
Spark 分层抽样与求最大值最小值
详见注释package com.beagledata.sparkimport org.apache.spark.{SparkConf, SparkContext}/** * 分层抽样 * * Created by drguo on 2017/8/21. * blog.youkuaiyun.com/dr_guo */object PCSStratifiedSampling { val c原创 2017-08-21 16:05:38 · 3494 阅读 · 0 评论 -
Spark处理XML文件与XLSX/XLS文件
方法有很多,现提供一种比较简单的方法。原创 2017-08-18 17:29:43 · 10775 阅读 · 1 评论 -
Spark MLlib - Iris(鸢尾花卉)数据集 LogisticRegression(逻辑回归)
所用数据:http://download.youkuaiyun.com/download/dr_guo/9946656环境版本:Spark 1.6.1; Scala 2.10.4; JDK 1.7原创 2017-08-23 15:30:45 · 5161 阅读 · 0 评论 -
Flume+Kakfa+Spark Streaming整合(运行WordCount小例子)
环境版本:Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1; Flume 1.6.0原创 2017-11-21 21:08:00 · 961 阅读 · 5 评论 -
使用Spark/Java读取已开启Kerberos认证的HBase
1.赋予drguo用户相应的权限2.KDC中创建drguo用户并导出相应的keytab文件[root@bigdata28 ~]# kadmin.local Authenticating as principal drguo/admin@AISINO.COM with password.kadmin.local: addprinc drguo/bigdata28WARNING...原创 2018-07-18 14:10:42 · 3441 阅读 · 0 评论 -
使用idea编写spark程序并提交到yarn集群例子
需提前安装jdk、scala1.创建新项目2.增加Maven3.修改pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4原创 2019-03-04 15:34:41 · 3774 阅读 · 3 评论 -
IDEA 出现"*** is already defined as object ***"错误
scala版本问题,之前用的2.11.x,换成2.10.x后就没问题了原创 2016-08-19 14:54:52 · 5168 阅读 · 0 评论 -
Spark 2.0技术预览
Spark 2.0预览版已出,本文将带你浏览下这个2.0到底有啥流逼的地方。在正式发布之前,你可以 1. github下载自己编译 https://github.com/apache/spark 2. 官网最下方有个很小的连接 3. https://databricks.com/try-databricks 可以创建预览版集群 本次大版本更新包含三个主题,Easier,Faster,转载 2016-07-28 11:37:01 · 2873 阅读 · 0 评论 -
Spark:Yarn-cluster和Yarn-client区别与联系
我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和yarn-client,它们究竟有什么区别与联系?阅读完本文,你将了解。 Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN ),集群管理负责启动executor进程,编写Spark application 的人根本不需要知道Spark用的是什么集群管转载 2016-04-26 21:27:18 · 2478 阅读 · 0 评论 -
去掉csv文件的第一行
在用MR或Spark处理较大的csv文件时,经常会遇到这么一个问题,csv文件的第一行往往是列名,怎么办呢?guo@guo:~$ sed 1d dual.txt > noheader.txt用sed 1d就可以把dual.txt文件的第一行去掉,>是指将前面的命令的结果覆盖到noheader.txt,>>就是追加了。还不懂可以看一下我写的shell基础。原创 2016-04-20 19:42:13 · 15468 阅读 · 1 评论 -
Spark SQL与Hive On MapReduce速度比较
我们都知道Spark比Hadoop的MR计算速度更快。到底快多少呢?我一直比较疑惑,会有官网说的那么夸张吗。今天就拿基于Spark的Spark SQL和基于MR的Hive比较一下,因为Spark SQL也兼容了HiveQL,我们就可以通过运行相同的HiveQL语句,比较直观的看出到底快多少了。Spark SQL只要在编译的时候引入Hive支持,就可以支持Hive表访问,UDF,Ser...原创 2016-05-15 16:23:24 · 7765 阅读 · 0 评论 -
SparkR初体验
突然有个想法,R只能处理百万级别的数据,如果R能运行在spark上多好!搜了下发现13年SparkR这个项目就启动了,感谢美帝!1.你肯定得先装个spark吧。看这:Spark本地模式与Spark Standalone伪分布模式2.你肯定得会R吧。看这:R语言入门3.启动SparkR就可以了guo@drguo:/opt/spark-1.6.1-bin-hadoop2.6$ ./bin/sparkR #这样直接运行应该是默认在本地运行,要在集群上运行应该和spark-shell一样,后面加点参数 --原创 2016-05-11 20:41:19 · 20942 阅读 · 7 评论 -
Spark Standalone完全分布模式
红字部分来源于:董的博客目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算原创 2016-04-24 20:41:31 · 1881 阅读 · 0 评论 -
Spark SQL/Hive 同一列的多行记录合并为一行
可以写UDAF,但导jar包啥的挺麻烦的,我找了个简单方法,两个函数搞定。需求是这样的,统计出同一用户在同一地点会去哪些商店,商店以':'隔开。(第一列用户id,第二列商店id,第三列地区id,第四列日期)spark-sql> select * from test;1027765 4822 172 201510281027765 4822 172 20151026881482原创 2016-05-26 16:07:21 · 16484 阅读 · 3 评论 -
Error in library.dynam(lib, package, package.lib) : shared object ‘plyr.so’ not found
在ubuntu 下载R的reshape包的时候报了以下的错:Error in library.dynam(lib, package, package.lib) : shared object ‘plyr.so’ not foundERROR: lazy loading failed for package ‘reshape’* removing ‘/opt/spark-1.6原创 2016-05-13 19:19:17 · 7086 阅读 · 0 评论 -
IllegalStateException: Did not find registered driver with class com.mysql.jdbc.Driver
将Spark SQL处理的结果存入MYSQL时出现了这个错,查了半天发现这是spark1.6.1的bug。真是日了狗了!具体的执行命令为:/opt/apps/spark-1.6.1-bin-hadoop2.6/bin/spark-submit –master yarn –deploy-mode client –driver-memory 4g –num-executors 2 –executor-m原创 2016-06-27 17:27:56 · 3125 阅读 · 0 评论 -
java.net.BindException: 无法指定被请求的地址: Service 'sparkDriver' failed after 16 retries!
16/06/27 19:36:34 WARN Utils: Service ‘sparkDriver’ could not bind on port 0. Attempting port 1. 16/06/27 19:36:34 WARN Utils: Service ‘sparkDriver’ could not bind on port 0. Attempting port 1. 16/06原创 2016-06-27 19:39:34 · 10651 阅读 · 0 评论 -
Spark insertIntoJDBC找不到Mysql驱动解决方法
java.sql.SQLException: No suitable driver found for jdbc:mysql://ip:3306/xx 感觉很奇怪,我在启动作业的时候加了Mysql驱动啊在,怎么会出现这种异常呢??经过查找,发现在–jars参数里面加入Mysql是没有用的。通过查找,发现提交的作业可以通过加入–driver-class-path参数来设置driver的classpa转载 2016-06-27 19:33:52 · 5386 阅读 · 1 评论 -
Spark本地模式与Spark Standalone伪分布模式
spark的本地模式类似于hadoop的单机模式,是为了方便我们调试或入门的。1.先去官网下载下来http://spark.apache.org/downloads.html,不要下错了,下载pre-built(这是已经编译好了,产生了二进制文件的)for 你的hadoop版本。原创 2016-04-23 21:25:53 · 14240 阅读 · 0 评论 -
Spark简介
Hadoop Spark学习小结[2014版]HadoopHadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强 Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI…Hadoop Roadmap 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了转载 2016-04-03 14:39:47 · 1585 阅读 · 0 评论