- 博客(13)
- 资源 (6)
- 收藏
- 关注
原创 Spark运行任务 文件 /etc/hadoop/conf.cloudera.yarn/topology.py 报错解决
执行Spark任务的时候,之前一直运行正常,突然就报错了。不知道原因,开始先从程序日志排查解决。看日志在调用一个python脚本是发生了错误,ExitCodeExceptionexitCode=1:File"/etc/hadoop/conf.cloudera.yarn/topology.py",line43printdefault_rack从错误上看感觉...
2019-04-22 14:35:16
4309
1
转载 HBase Scan 中文字符串
Author:Pirate LeomyBlog:http://blog.youkuaiyun.com/pirateleo/myEmail:codeevoship@gmail.com转载请注明出处,谢谢。文中可能涉及到的API:Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/HBase:http://hbas...
2019-04-18 14:27:09
1124
原创 CentOS7 安装CDH5.7.1 too many values to unpack 异常解决
CentOS7 安装CDH5.7.1 too many values to unpack 异常解决too many values to unpack异常解决办法too many values to unpack异常[26/Feb/2019 23:39:00 +0000] 5852 MainThread agent ERROR Caught unexpected except...
2019-02-26 15:54:48
1743
1
原创 SpringBoot 文件上传遇到的错误解决
最近在做文件上传,把遇到的问题和解决办法整理出来:1、NoClassDefFoundError: org/apache/commons/fileupload/FileItemFactory这个是因为缺少 commons-fileupload 的包,pom里添加依赖即可解决。<dependency> <groupId>commons-fileuploa...
2018-11-27 14:40:54
1137
原创 Spark SQL java.lang.StackOverflowError 异常处理
前言之前写了一个hive业务数据ETL后导出的程序,通过通过SparkSQL实现的,当时的需求是每天导出前一天的数据。数据在hive中是有年月日分区的,为了提高效率,所以我在where条件里面每天动态生成了需要的分区条件。一直运行都没什么问题。最近需要一次导出一年的数据,我就在担心这下动态生成的分区条件肯定特别长。哈哈,果然,程序一跑在spark解析SQL的时候就报错了,错误如下:Exce...
2018-08-31 10:51:03
8428
2
原创 spark-submit 传递系统变量 或 自定义属性 的方法
现有Spark任务需要配置一些系统变量(注:并非环境变量)。 在程序中可以通过在代码中进行配置:System.setProperty("prop", "value");但是如果一些实际的生产环境,改动代码的话涉及到重新的测试和部署上线。这样就很麻烦了。 java普通程序可以通过 java -Dprop=value的参数来设置。 hadoop的MapReduce程序也可以通过用To...
2018-07-24 15:45:14
10169
原创 基于HBase的模糊查询以及分页
最近一直忙于项目的落地,都快把优快云的博客忘记了。现在有时间就补上一篇吧。前言这次讲的是基于HBase的模糊查询和分页。肯定有人问为什么要用HBase,其实我也知道基于大数据量的检索和模糊查询和分页 用ES比HBase强多了。因为HBase是面向列存储的K-V型nosql数据库,先天的特性使它不擅长于业务复杂的查询 甚至是模糊查询。但是实际情况是客户落地的机器数量有限制,只能从已有的数据...
2018-07-19 17:24:27
15662
转载 Java8 lambda表达式10个示例
Java8支持了lambda表达式,对于lambda表达式和API。越来越多的了解它们,越能够写出通俗易懂的代码。如果你之前学习过scala,你会觉得总有些相似。因为scala是函式语言,所以也就不奇怪了,哈哈。 下面是我转载的10个示例,原文在这里:http://www.importnew.com/16436.html例1、用lambda表达式实现Runnable 我开始使用Java 8时,首
2017-12-06 11:56:51
4124
原创 多线程从MongoDB读取数据,并以固定大小写入HDFS
从Mongo里多线程取数据,我一开始尝试了用Executors.newFixedThreadPool线程池来实现。实际操作中,发现只有第一个线程会正常取数据,后建立的线程访问Mongo的cursor会报错。 后来改变了实现方式,通过Thread.start()来进行多线程取数据。代码如下:RsUserTagsRunner job = new RsUserTagsRunner(start, end,
2017-12-06 10:30:03
8626
3
原创 hive on spark 动态解决小文件太多的办法
在做项目时,有个ETL需要处理,数据都在HIVE里面,需要对数据进行统计分析转换。开始直接用的HIVE的JDBC,效率不高。后来想到用hive on spark的方式处理。底层不再使用MapReduce进行计算,避免shuffle引起的大量读写硬盘和rpc网络拷贝带来的性能底下问题,程序效率有了明显提高。但是随之而来的是用sparksql往hive表中插入数据时,会产生很多小文件。用hive时,可以
2017-11-27 15:58:01
18598
1
原创 Maven项目 混合编译Java和Scala
建立maven-scala项目后,会生成相应的pom文件。把maven-surefire-plugin的插件注释掉或者直接删掉。然后加入maven-shade-plugin的插件配置。 接下来正常边写程序运行项目时,由于java和scala代码相互调用,所以maven install的时候报错了。 scala:216: error: not found: value java class 然后
2017-11-15 17:27:09
7616
原创 myeclipse的scala插件安装以及maven的支持
项目需要从事scala开发,之前都是用IntelliJ IDEA和scala eclipse,但是我这里目前的环境是myeclipse,刚做的一个项目也在里面,所以就干脆直接用了,下面开始介绍如何使用myeclipse集成scala和maven的相关插件。首先安装scala插件 地址:http://download.scala-ide.org/sdk/lithium/e44/scala211/
2017-11-14 14:20:12
5727
原创 Linux下用mail命令发送邮件
服务器首先要能连外网,这里我使用的是我的163的邮箱,所以要保证能连接163的邮件服务器。 使用命令 telnet smtp.163.com 25 如上图所示证明能够成功连接,下面接着要去登陆163的邮件启用授权码。 开启成功后,接着配置linux机器的mail.rc配置文件。 使用命令 vi /etc/mail.rc 编辑mail.rc文
2017-11-14 12:02:58
5057
eclipse/myeclipse maven-for-scala插件
2018-08-22
hadoop2.6winutils插件包含eclipse插件
2017-11-03
informatica 学习培训手册
2017-07-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人