SPARK
Anssin_索隆三刀流
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SPARK 笔记 (八) sparkstreaming与kafka整合 (一)
sparkstreaming与kafka整合(一)anssin用的是spark3.0.0 ,与kafka整合会和以前版本有些出入首先我们导入sparkstreaming的依赖,scala版本是2.12的<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> <versio原创 2020-07-23 15:12:22 · 299 阅读 · 0 评论 -
SQARK 笔记(七) Task多线程
Task序列化问题 问题原因一个Executor是一个进程,一个进程中可以同时运行多个Task,如果多个Task使用了共享的变量,就会出现线程不安全的问题案例需求使用spark将日期字符串转换成long类型时间戳样例数据2019-11-06 15:59:502019-11-06 15:59:512019-11-06 15:59:522019-11-06 15:59:532019-11-06 15:59:542019-11-06 15:59:55201..原创 2020-07-16 21:19:10 · 299 阅读 · 0 评论 -
SAPRK 笔记 (六) 根据ip规则求归属地和广播变量
根据ip规则求归属地现有日志数据根据日志数据解析用户归属地 , 这是一条日志中第二个是ip,现在我们可以根据ip求用户的归属地20090121000132095572000|125.213.100.123|show.51.com|/shoplist.php?phpfile=shoplist2.php&style=1&sex=137|Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Mozilla/4.0(Compat..原创 2020-07-15 21:10:18 · 294 阅读 · 1 评论 -
SPARK 笔记 (五) 经纬度转换地址
经纬度转换地址anssin用的是高德地图,实现逆地理位置,首先需要去高德地图开放平台(https://lbs.amap.com/)获取key我的key就不分享给大家了逆地理位置用的是http请求在maven项目里面导入http请求工具包的依赖就可以<!--发送HTTP请求的Java工具包 --><dependency> <groupId>org.apache.httpcomponents</groupId> <ar.原创 2020-07-14 20:30:23 · 764 阅读 · 0 评论 -
SPARK 笔记 (四) 自定义排序
1原创 2020-07-13 22:32:33 · 1096 阅读 · 0 评论 -
SPARK 笔记 (三) 分组TopN排序案例
数据张这样http://bigdata.cn/laozhanghttp://bigdata.cn/laozhanghttp://bigdata.cn/laozhaohttp://bigdata.cn/laozhaohttp://bigdata.cn/laozhaohttp://bigdata.cn/laozhaohttp://bigdata.cn/laozhaohttp://bigdata.cn/laoduanhttp://bigdata.cn/laoduanhttp://javaee原创 2020-07-12 19:46:24 · 381 阅读 · 0 评论 -
SPARK wordCount案例以及订单成交金额案例
一 wordCount案例需求 : 统计文件中的单词个数按升序排列数据准备hadoop spark hbase hive java scalahadoop spark hbase hive java scalahadoop spark hbase hive java scalahadoop spark hbase hive java scalahadoop spark hbase hive java scalahadoop spark hbase hive j...原创 2020-07-10 19:43:34 · 290 阅读 · 0 评论 -
RDD SparkSubmit分区个数详解 源码解读
RDD分区个数 1在创建RDD时可以指定分区数量 sc.textFile("hdfs:linux01:9000/data",5) 这里的5就是指定的分区数量2在启动Spark-shell时指定cores ,也是分区数量/opt/apps/spark-3.0.0/bin/spark-shell --master spark://linux02:7077 --executor-memory 1g --total-executor-cores 6如果在创建RDD时没有指定分区数...原创 2020-07-07 23:34:20 · 349 阅读 · 0 评论 -
SPARK笔记 (二) RDD的使用
1原创 2020-07-07 21:33:03 · 617 阅读 · 0 评论 -
SPARK笔记 (一) 简介安装部署和spark编程入门
一 spark简介 1.1版本 spark版本:spark-3.0.0 hadoop版本:hadoop-2.8.5 hbase版本:hbase-2.0.4 kafka版本:kafka_2.12-2.4.1 java版本:1.8 scala版本:2.121.2什么是SparkSpark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,...原创 2020-07-06 20:14:18 · 361 阅读 · 0 评论
分享