
spark
文章平均质量分 72
千里风雪
个人比较喜欢打台球, 篮球, 跑步, 平时没事敲敲代码, 听听歌
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark on yarn-cluster在生产环境 部署 spark 任务, 同时支持读取外部可配置化文件
spark on yarn-cluster在生产环境部署读取外部可配置化文件原创 2022-09-29 11:33:21 · 1574 阅读 · 0 评论 -
本地调试spark任务demo
本地电脑联调spark任务入门级原创 2022-09-28 11:22:55 · 1577 阅读 · 0 评论 -
在yarn集群中,flink日志输出到kafka
使用的是log4j的方式,因为需要对log做收集处理,方便后续排查问题和告警, 其实在spark中更加的有用, 正常在yarn-cluster中,spark是没法去查看log, 只有等到这个job停掉后, 再去使用yarn logs -applicationId application_1537843504301_3763查看日志在我们的项目中不用加任何的jar包在flink-1.9.0/conf/log4j.properties配置文件log4j.rootLogger=WARN,kafka.原创 2021-05-20 10:13:02 · 1033 阅读 · 0 评论 -
spark Shuffle
Shuffle operations Spark中的某些操作会触发一个称为shuffle的事件。shuffle是Spark重新分布数据的机制, The shuffle is Spark’s mechanism for re-distributing data so that it’s grouped differently across partitions。这通常涉及复制数据跨executors and machines,使shuff原创 2020-05-20 15:31:41 · 206 阅读 · 0 评论 -
spark yarn模式还用开启master,worker进程吗?
目录sparkstandlone集群部署spark yarn集群部署时spark yarn模式还用开启master,worker进程吗?sparkstandlone集群部署下载解压,进入官方下载地址下载最新版Spark。下载spark-1.6.1-bin-hadoop2.6.tar.gz。解压: tar-xvfspark-1.6.1-bin-hadoop2....原创 2019-08-16 10:49:51 · 3250 阅读 · 0 评论 -
杀掉spark on yarn-cluster服务和查看日志
目录停止spark on yarn-cluster服务查看yarn-cluster运行时的日志:停止spark on yarn-cluster服务命令:yarn application -kill appid查看yarn-cluster运行时的日志:[mmtrix@mg001 hadoop-2.6.0-cdh5.4.1]$ bin/yarn logs...原创 2019-08-12 15:09:28 · 653 阅读 · 0 评论 -
spark streaming demo (java 1.8)
spark streaming demo 使用java 1.8从kafka获取数据, 写入redis的一个简单demo发送给kafka的数据包:{'type': 'Data', 'values': [{'compID': '3333', 'name': '冷却油压力', 'serial_num': '1', 'time': '2019-06-18 16:49:51', 'gat...原创 2019-06-18 16:55:40 · 1110 阅读 · 0 评论 -
spark demo
spark demo在window7上的idea调试spark前提条件: 在服务器搭建spark, 搭建好之后, 在本地调试, (我的服务器192.168.3.101)项目Configuration添加如下(连接spark服务器):-Dspark.master=spark://192.168.3.101:7077代码:WordCountApp.java ...原创 2019-06-14 15:55:36 · 505 阅读 · 1 评论 -
spark streaming DataFrame and SQL Operations
spark streaming使用DataFrames和SQL操作。使用StreamingContext正在使用的SparkContext创建SparkSession。这样做,以便可以在executed at the driver故障时重新启动。这是通过创建一个延迟实例化的SparkSession单例实例来完成的。这在以下示例中显示。它修改了早期的单词计数示例,以使用DataFrames...原创 2019-06-19 11:24:03 · 429 阅读 · 1 评论 -
spark 调用saveAsTextFile 报错NullPointerException
package mokeimport org.apache.spark.sql.SparkSession/** 第一步: 清洗, 抽取列数据 */object sparkStatFormatJob { def main(args: Array[String]): Unit = {// System.setProperty("hadoop.home.dir", "G:...原创 2018-07-19 10:49:27 · 2219 阅读 · 1 评论 -
idea连接spark的环境配置
Idea 连接Spark集群两种方式:sbt和maven1: 使用maven方式Idea 连接Spark集群的详细步骤如下:先在本地安装 scala 和 java , scala下载地址: https://downloads.lightbend.com/scala/2.12.6/scala-2.12.6.msijava 下载地址: http://www.oracl...原创 2018-07-17 16:47:07 · 9847 阅读 · 2 评论