
spark
文章平均质量分 71
泰格数据
我们不生产数据,我们只是数据的搬运工
我们不仅是数据搬运工,我们也是数据价值创造者
展开
-
聚类模型评估综述-兰德指数的公式理解及scala版本实现
概述聚类的评估的指标,大方向是分为内部指标和外部指标。内部指标:包括轮廓系数、Calinski-Harabaz 指数 等,内部指标是在开发阶段用的,一般用来选择聚类的个数。外部指标:分为两种:有标签的结果评价:包括 兰德指数、纯度、互信息、v-measure无标签结果评估:于聚类中心的平均距离等兰德指数给定nn个对象集合S={O1,O2,....,On}S={O1,O2,....,On},假设U={u1,...,uR}U={u1,...,uR}和V={v1,...,v..原创 2020-05-27 23:02:14 · 2516 阅读 · 0 评论 -
SPARK生产者写入KAFKA消息-代码及踩坑记录
背景是: 项目通过大数据spark做模型的评估,评估代码为scala,评估的结果需要通过kafka消息队列进行中转,于是需要通过spark去连接kakfa队列,作为生产者像kafka队列中传送消息。 直接先上代码:kafka生产者代码:package com.tigerimport java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig,...原创 2020-05-17 23:09:10 · 1237 阅读 · 1 评论 -
SPARK性能建议2
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速转载 2016-09-29 00:20:37 · 445 阅读 · 0 评论 -
SPARK优化建议
问题1:reduce task数目不合适解决方案:需要根据实际情况调整默认配置,调整方式是修改参数Spark.default.parallelism。通常的,reduce数目设置为core数目的2-3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太小,任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism问题2:s原创 2016-09-28 23:51:16 · 332 阅读 · 0 评论 -
Spark Streaming原理介绍
1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算转载 2016-06-06 22:28:26 · 2883 阅读 · 0 评论 -
spark实例演示
1、实例演示1.1 流数据模拟器1.1.1 流数据说明在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能:通过Socket方式监听指定的端口号,当外部程序通过该端口连接并请求数据时,模拟器将定时将指定的文件数据随机获取发送给外部程序。1.1.2 模拟器代码import java.io.{PrintWriter}转载 2016-06-06 22:29:16 · 986 阅读 · 0 评论 -
HADOOP+SPARK安装
0.Spark的安装准备Spark官网的文档 http://spark.apache.org/docs/latest/ 里是这样说的:Spark runs on Java 7+, Python 2.6+ and R 3.1+. For the Scala API, Spark 1.6.0 uses Scala 2.10. You will need to use a compa原创 2016-06-27 16:43:26 · 585 阅读 · 0 评论 -
Spark+ECLIPSE+JAVA+MAVEN windows开发环境搭建及入门实例【附详细代码】
本文旨在记录初学Spark时,根据官网快速入门中的一段Java代码,在Maven上建立应用程序并实现执行。首先推荐一个很好的入门文档库,就是优快云的Spark知识库,里面有很多spark的从入门到精通的形形色色的资料,1.开发软件恭喜你,拿到spark驾考名额了,可以开始参加驾校培训了~http://lib.youkuaiyun.com/base/spark 大概理解下:spark主要分为 1.核心 2.实时streaming 3.对sql支持sparksql 4.机器学习mllib 还有原创 2016-06-18 22:35:40 · 14525 阅读 · 3 评论 -
Spark JAVA RDD API 最全合集整理,持续更新中~
SPARK的核心就是RDD,对SPARK的使用入门也就是对RDD的使用,对于JAVA的开发者,Spark的RDD对JAVA的API我表示很不能上手,单单看文档根本是没有办法理解每个API的作用的,所以每个SPARK的新手,最好按部就班直接学习scale,那才是一个高手的必经之路,但是由于项目急需使用,没有闲工夫去学习一门语言,只能从JAVA入门的同学,福利来了转载 2016-06-29 10:35:56 · 24724 阅读 · 2 评论 -
RDD JAVA API 用法指南
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合。在spark中,对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群中,并将操作并行化。 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。RDD可以包含Python转载 2016-06-29 13:13:10 · 20303 阅读 · 4 评论