
spark
文章平均质量分 95
diudiu2025
这个作者很懒,什么都没留下…
展开
-
spark1.6.0集群安装
1. 概述本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。 2. 安装环境本安装说明的示例环境部署如下:IP外网IPhostname备注10.47.110.38120.27.153.137iZ23转载 2016-07-18 21:32:26 · 1487 阅读 · 0 评论 -
稀疏矩阵存储格式总结+存储效率对比:COO,CSR,DIA,ELL,HYB
稀疏矩阵存储格式总结+存储效率对比:COO,CSR,DIA,ELL,HYB时间 2015-02-04 23:05:00 博客园-原创精华区原文 http://www.cnblogs.com/xbinworld/p/4273506.html主题 矩阵 Dia稀疏矩阵是指矩阵中的元素大部分是0的矩阵,事实上,实际问题中大规模矩阵基本上都是稀疏矩阵,很多稀疏度在9转载 2016-08-23 11:21:34 · 1733 阅读 · 0 评论 -
Spark的日志配置
在测试spark计算时,将作业提交到yarn(模式–master yarn-cluster)上,想查看print到控制台这是imposible的,因为作业是提交到yarn的集群上,so 去yarn集群上看日志是很麻烦的,但有特别想看下print的信息,方便调试或者别的目的在Spark的conf目录下,把log4j.properties.template修改为log4j.properties转载 2016-09-04 11:09:58 · 623 阅读 · 0 评论 -
spark调优第二篇:spark内存溢出还可能是你的driver memory的内存内存不够
java.lang.OutOfMemoryError: GC overhead limit exceeded在模型中我需要将100万的数据读出来经行筛选在组成一个30万维大数组,那么其中一个操作涉及到将rdd转化为array。在这一步中其实是将所有的数据都拉到一台机器上了,也就是你的driver,应为我用的是spark-shell默认的任务执行模式是yarn-client。原创 2017-10-30 22:11:49 · 16998 阅读 · 2 评论 -
Spark中的DataFrame的getAs方法如果取到的值是null的处理
Spark中的DataFrame的getAs方法如果取到的值是null的处理结果我遇到的两种情况吧val DF = hc.sql("...............")val rdd = DF.rdd.map{row =>val label = row.getAs[Int]("age")}1,如果getAs[Integer]("age")那么null值被拿出来依然为nul原创 2017-10-14 20:17:08 · 13807 阅读 · 2 评论 -
Spark调优第一篇
最初级的早启动spark-shell时这些设置的./bin/spark-submit \--master yarn-cluster \--num-executors 100 \--executor-memory 6G \--executor-cores 4 \--driver-memory 1G \--conf spark.default.parallelism=100原创 2017-10-14 22:01:56 · 399 阅读 · 0 评论 -
jedis上eval的用法
import static org.junit.Assert.*;import java.util.ArrayList;import java.util.List;import org.junit.Test;import redis.clients.jedis.Jedis;/**@description: Lua Script(脚本) 从 Redis 2.6.0 版...转载 2019-01-14 20:00:30 · 17810 阅读 · 0 评论 -
Spark Mllib里的协调过滤的概念和实现步骤、LS、ALS的原理、ALS算法优化过程的推导、隐式反馈和ALS-WR算法
不多说,直接上干货! 常见的推荐算法 1、基于关系规则的推荐 2、基于内容的推荐 3、人口统计式的推荐 4、协调过滤式的推荐 (广泛采用) 协调过滤的概念 在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。 协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collabora...转载 2019-01-25 17:19:37 · 821 阅读 · 0 评论 -
Spark - 报错 “A master URL must be set in your configuration” when submitting an app
将sc创建在main函数内解决原创 2019-03-14 16:31:26 · 293 阅读 · 1 评论