diudiu2025-优快云博客

原创 Spark - 报错 “A master URL must be set in your configuration” when submitting an app

将sc创建在main函数内解决

2019-03-14 16:31:26 289 1

转载 k-d tree算法

k-d树（k-dimensional树的简称），是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索（如：范围搜索和最近邻搜索）。应用背景　　SIFT算法中做特征点匹配的时候就会利用到k-d树。而特征点匹配实际上就是一个通过距离函数在高维矢量之间进行相似性检索的问题。针对如何快速而准确地找到查询点的近邻，现在提出了很多高维空间索引结构和近似查询的算法，k-d树就是其中一种。...

2019-02-16 16:40:42 407

转载 Spark Mllib里的协调过滤的概念和实现步骤、LS、ALS的原理、ALS算法优化过程的推导、隐式反馈和ALS-WR算法

不多说，直接上干货！常见的推荐算法　　1、基于关系规则的推荐　　2、基于内容的推荐　　3、人口统计式的推荐　　4、协调过滤式的推荐（广泛采用）协调过滤的概念　　在现今的推荐技术和算法中，最被大家广泛认可和采用的就是基于协同过滤的推荐方法。　　协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collabora...

2019-01-25 17:19:37 820

转载 Hive分析窗口函数(一) SUM,AVG,MIN,MAX

Hive中提供了越来越多的分析函数，用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍，将陆续发布。今天先看几个基础的，SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。Hive版本为 apache-hive-0.13.1数据准备 CREATE EXTERNAL TABLE lxw1234 ( cookieid string, createt...

2019-01-23 10:43:35 363

转载 jedis上eval的用法

import static org.junit.Assert.*;import java.util.ArrayList;import java.util.List;import org.junit.Test;import redis.clients.jedis.Jedis;/**@description: Lua Script（脚本）从 Redis 2.6.0 版...

2019-01-14 20:00:30 17801

转载【机器学习】正则化的线性回归 —— 岭回归与Lasso回归

注：正则化是用来防止过拟合的方法。在最开始学习机器学习的课程时，只是觉得这个方法就像某种魔法一样非常神奇的改变了模型的参数。但是一直也无法对其基本原理有一个透彻、直观的理解。直到最近再次接触到这个概念，经过一番苦思冥想后终于有了我自己的理解。 0. 正则化（Regularization ）前面使用多项式回归，如果多项式最高次项比较大，模型就容易出现过拟合。正则化是一种常见的防止过拟合的...

2018-08-07 19:50:09 1784

--创造数据create table persona.test_hz 已有数据1 1 a1 2 b1 3 c1 4 d1 5 e2 5 e2 4 d2 3 c2 2 b2 1 a3 1 a3 2 b3 3 c3 4 d3 5 e4 5 e4 4 d4 3 c4 2 b4 1 aselect id,collect_list(value) from (select * from persona.tes...

2018-06-27 19:52:33 3478

原创 hive踩坑记录：count(distinct col1,col2) 遇见某列中有null值，结果不准

count(distinct col1,col2) 遇见某列中中有null值，结果不准SELECT count(DISTINCT col1,col2)from(SELECT 2 as col1,1 as col2union allSELECT null as col1,2 as col2union allSELECT null as col1,3 as col2un...

2017-12-28 10:47:53 3304

原创 Hive对有null值得一列做avg，count等操作时会过滤掉有NULL值的这一行

WITH tmp AS(SELECT null as col1union allSELECT 2 as col1union allSELECT 4 as col1)SELECT avg(1) from tmp结果是3；WITH tmp AS(SELECT null as col1union allSELECT 2 as col1union

2017-11-21 22:26:56 11208

原创 spark调优第二篇：spark内存溢出还可能是你的driver memory的内存内存不够

java.lang.OutOfMemoryError: GC overhead limit exceeded在模型中我需要将100万的数据读出来经行筛选在组成一个30万维大数组，那么其中一个操作涉及到将rdd转化为array。在这一步中其实是将所有的数据都拉到一台机器上了，也就是你的driver，应为我用的是spark-shell默认的任务执行模式是yarn-client。

2017-10-30 22:11:49 16995 2

原创 Spark调优第一篇

最初级的早启动spark-shell时这些设置的./bin/spark-submit \--master yarn-cluster \--num-executors 100 \--executor-memory 6G \--executor-cores 4 \--driver-memory 1G \--conf spark.default.parallelism=100

2017-10-14 22:01:56 396

原创 Spark中的DataFrame的getAs方法如果取到的值是null的处理

Spark中的DataFrame的getAs方法如果取到的值是null的处理结果我遇到的两种情况吧val DF = hc.sql("...............")val rdd = DF.rdd.map{row =>val label = row.getAs[Int]("age")}1，如果getAs[Integer]("age")那么null值被拿出来依然为nul

2017-10-14 20:17:08 13801 2

转载 Spark的日志配置

在测试spark计算时，将作业提交到yarn（模式–master yarn-cluster）上，想查看print到控制台这是imposible的，因为作业是提交到yarn的集群上，so 去yarn集群上看日志是很麻烦的，但有特别想看下print的信息，方便调试或者别的目的在Spark的conf目录下，把log4j.properties.template修改为log4j.properties

2016-09-04 11:09:58 622

转载稀疏矩阵存储格式总结+存储效率对比:COO,CSR,DIA,ELL,HYB

稀疏矩阵存储格式总结+存储效率对比:COO,CSR,DIA,ELL,HYB时间 2015-02-04 23:05:00 博客园-原创精华区原文 http://www.cnblogs.com/xbinworld/p/4273506.html主题矩阵 Dia稀疏矩阵是指矩阵中的元素大部分是0的矩阵，事实上，实际问题中大规模矩阵基本上都是稀疏矩阵，很多稀疏度在9

2016-08-23 11:21:34 1733

转载 spark1.6.0集群安装

1. 概述本文是对spark1.6.0分布式集群的安装的一个详细说明，旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。 2. 安装环境本安装说明的示例环境部署如下：IP外网IPhostname备注10.47.110.38120.27.153.137iZ23

2016-07-18 21:32:26 1485

转载 hive初次使用报错

hive（元数据存储在mysql）启动Exception in thread "main" java.lang.RuntimeException: Hive metastore database is not initialized. Please use schematool (e.g. ./schematool -initSchema -dbType ...) to create t

2016-07-12 17:02:39 9228

转载 Hadoop安装教程_单机/伪分布式配置_CentOS6.4/Hadoop2.6.0

本教程使用 CentOS 6.4 32位作为系统环境，请自行安装系统（可参考使用VirtualBox安装CentOS）。如果用的是 Ubuntu 系统，请查看相应的 Ubuntu安装Hadoop教程。本教程基于原生 Hadoop 2，在 Hadoop 2.6.0 (stable) 版本下验证通过，可适合任何 Hadoop 2.x.y 版本，例如 Hadoop 2.7.1, Hadoop

2016-07-05 14:47:29 1603

转载遍历Map的4种方法

public static void main(String[] args) { Map map = new HashMap(); map.put("1", "value1"); map.put("2", "value2"); map.put("3", "value3"); //第一种：普遍使用，二次取值 System.out.println("

2016-04-19 16:47:00 482

diudiu2025的博客