
saprk
文章平均质量分 62
光圈1001
从事于金融反欺诈系统大数据研发工作
展开
-
spark在idea中编写第一个程序时常见异常
Using Spark’s default log4j profile: org/apache/spark/log4j-defaults.properties 18/09/12 10:18:05 INFO SparkContext: Running Spark version 1.6.3 18/09/12 10:18:07 ERROR SparkContext: Error initializ...原创 2018-09-12 14:26:56 · 4509 阅读 · 0 评论 -
关于parkSQL读取Parquet数据源之合并元数据schema
【问题】 -在读取小量数据时,会加载出最新的一个新加的列的数据,没有的值,为null,但是当加载的数据量偏大的时候,会出现加载字段不全的情况,没有达到预期 【原因】 从Spark 1.5.0版本开始,默认是关闭Parquet文件的自动合并元数据的特性的当数据量过大,sparksql,出于性能的考虑,没有合并字段的信息,也就是schema,造成了字段不全的问题 【解决办法】 read 数据源...原创 2019-03-13 20:57:15 · 495 阅读 · 0 评论 -
[转载分享]Spark性能优化—资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪...转载 2019-01-22 10:32:43 · 122 阅读 · 0 评论 -
spark sql 处理数据优化个人总结
1.缓存datafream 2.缓存table 3.函数算子的使用 -----有时间详细总结----原创 2019-01-22 00:15:08 · 230 阅读 · 0 评论 -
ambari集群中spark集群执行jar踩的坑
公司三台测试服务器,测试spark的集群模式是否正常运行遇到的问题: 1.spark运行spark任务遇到的, SparkContext did not initialize after waiting for 100000 ms. Please check earlier log output for errors. Failing the application. 参考博客: https://...原创 2018-11-06 14:38:40 · 1309 阅读 · 0 评论 -
hadoop原生集群各个组件常用默认端口服务
Hdfs自定义端口:9000 Yarn的web访问端口:8088 Tomcat端口:8080 Hdfsweb默认端口8020 Hdfsweb访问端口:50070 Hbase的web访问端口:10610 Zookeeper默认端口:2181 Broker 端口:9092 启动kafka的生产者的端口 启动kafka的消费者的端口:zookeeper的2181 Flume中netca的端口:4444...原创 2018-10-15 21:57:37 · 1131 阅读 · 0 评论 -
spark_sql编写常见异常
1.错误:找不到主类或者无法加载主类: 分析:没有语法错误,已经引入了依赖包,应该是ides配置问题 解决办法:关联scala的SDK 解决—- 2.错误:在创建scala之后,配置spark_sql时,在pom引入了spark-sql包,但是没有引入spark-core包,无法创建Spark-Conf Spark-Context,不能导入相应的包 原因:部分idea可能父项目或者sp...原创 2018-09-14 12:57:57 · 966 阅读 · 0 评论 -
spark-streaming中经典算子:updateStateByKey的使用 --checkpoint
官方: updateStateByKey允许你在持续更新信息的过程中随意获取状态。想要使用这个输入流,你需要以下两步: 1 定义状态–状态可以是任意的数据类型 2 定义状态更新函数–指定一个如何更新状态的函数,该函数从输入流中获取前一个状态和新的值 遇到的一个异常: Exception in thread "main" java.lang.IllegalArgumentExcepti原创 2018-09-18 18:06:31 · 1823 阅读 · 0 评论 -
正常启动SparkStreaming之后,但是一直获取不到数据
出现这样子的问题之后,我们将setMaster的值进行了一点点的修改 local[2] 为什么? 之前在进行setMaster的值时,当我们为local的时候,其实表示为local[1] 那么就是告诉我们的程序,只执行一个处理线程。但是在现在通过socket的spark streaming来处理的话 一个进程将不够用?为什么? 因为一个进程需要处理 还需要一个去获取数据 为什么这两处进程不能衔接在...原创 2018-09-17 19:29:04 · 3332 阅读 · 0 评论 -
spark使用包的异常
1.Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/spark/SparkConf 2.Exceptionin thread “main” java.lang.NoClassDefFoundError: org/apache/spark/streaming/StreamingContext 发现不是包的...原创 2018-09-17 16:18:52 · 228 阅读 · 0 评论 -
spark sql max函数,计算出的并不是字段的最大值的解决办法
出现的状况: 原代码: val timeDF2 = df2.groupBy("userId").agg(max("totalOnlineTime")) select time.userId as timeUserId, max(time.totalOnlineTime) as totalTime ,time.platform as platforms from time group by t...原创 2019-04-11 16:35:57 · 5586 阅读 · 0 评论