
Spark
文章平均质量分 82
DT鸽子
这个作者很懒,什么都没留下…
展开
-
判断数组,集合元素是否唯一
1.将集合或数组转换成set val uniq = t.toSet 2. 判断 if(t.size != uniq.size){ print("元素不唯一") }else{ print("元素唯一") }原创 2016-09-17 21:15:22 · 1526 阅读 · 0 评论 -
spark-sql结合hive
重要 ######################################## alter database hive character set latin1; ALTER TABLE hive.* DEFAULT CHARACTER SET latin1; ######################################## 1.安装hive CREATE USER 'h...转载 2018-10-31 11:24:18 · 169 阅读 · 0 评论 -
hadoop编译和spark编译
编译hadoop 1.下载maven(apache-maven-3.3.3-bin.tar.gz)(3.0.5以上版本) http://archive.apache.org/dist/maven/maven-3/3.3.3/binaries/apache-maven-3.3.3-bin.tar.gz 2.安装maven tar -zxvf apache-maven-3.3.3-bin.tar....转载 2018-10-31 18:31:33 · 477 阅读 · 0 评论 -
Spark-Spark SQL and DataFrame
课程目标 掌握Spark SQL的原理 掌握DataFrame数据结构和使用方式 熟练使用Spark SQL完成计算任务 Spark SQL Spark SQL概述 什么是Spark SQL 2 sparkSQL优点 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRed...原创 2018-10-30 11:20:20 · 250 阅读 · 0 评论 -
Spark Streaming整合flume实战
参考:http://spark.apache.org/docs/1.6.3/streaming-flume-integration.html https://blog.youkuaiyun.com/weixin_41615494/article/details/79521120 flume作为日志实时采集的框架,可以与SparkStreaming实时处理框进行对接,flume实时产生数据,spar...原创 2018-12-12 11:23:38 · 158 阅读 · 0 评论 -
SparkSQL大数据实战:揭开Join的神秘面纱
https://www.cnblogs.com/163yun/archive/2018/06/01/9121530.html 本文来自网易云社区。 Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景。 Join背景介绍 Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可...转载 2019-04-07 17:47:06 · 236 阅读 · 0 评论 -
Spark---WC---Spark从外部读取数据之textFile
Ref:https://blog.youkuaiyun.com/legotime/article/details/51871724# 测试数据 hello spark hello hadoop csdn hadoop csdn csdn hello world 结果 (spark,1) (hadoop,2) (csdn,3) (hello,3) (world,1) import or...转载 2018-10-25 18:07:54 · 3039 阅读 · 0 评论 -
Spark项目练习(计算用户停留时间最长的两个小区)
https://blog.youkuaiyun.com/sonicgyq_gyq/article/details/79196895 其中bs_log文件夹数据格式为(手机号,时间戳,基站ID,连接状态(“1”为连接,“0”为断开)) lac_info.txt 文件数据格式为(基站ID,经度,纬度,信号辐射类型) 程序思路: 1, 先根据"手机号,基站ID"构成一个元祖,做为唯一标识, 和时间戳构成新的...转载 2018-10-09 17:21:56 · 902 阅读 · 0 评论 -
Zookeeper + Hadoop2.6 集群HA + spark1.6完整搭建与所有参数解析
原文章地址:http://www.cnblogs.com/yangsy0915/p/5347849.html 废话就不多说了,直接开始啦~ 安装环境变量: 使用linx下的解压软件,解压找到里面的install 或者 ls 运行这个进行安装 yum install gcc yum install gcc-c++ 安装make,这个是自动编译源码的工具 yum inst转载 2016-09-18 16:51:28 · 1592 阅读 · 0 评论 -
Spark MLlib实现的中文文本分类–Native Bayes
原网址:http://www.open-open.com/lib/view/open1453539595620.html Spark MLlib实现的中文文本分类–Native Bayes 2016-01-23 17:00:41 发布 您的评价: 0.0 0收藏 来自: ht转载 2016-11-14 14:36:32 · 964 阅读 · 0 评论 -
Spark 二次排序
Spark 二次排序 废话不多说直接上代码 定义二次排序的key class SecondSortKey(val first: Int, val second: Int) extends Ordered[SecondSortKey] with Serializable { def compare(that: SecondSortKey): Int = { if(this...原创 2018-09-26 18:11:13 · 307 阅读 · 0 评论 -
Spark sortBy
object TestSparkSortBy { val testData = Seq( "1,111,68,69,90,1班,经济系 ", "2,112,73,80,96,1班,经济系 ", "3,113,90,74,75,1班,经济系 ", "4,114,89,94,93,1班,经济系 ", "原创 2018-09-26 18:47:58 · 1169 阅读 · 0 评论 -
RDD算子
Ref:http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html map是对每个元素操作, mapPartitions是对其中的每个partition操作 mapPartitionsWithIndex : 把每个partition中的分区号和对应的值拿出来, 看源码 val func = (ind...原创 2018-10-09 15:21:12 · 281 阅读 · 0 评论