- 博客(31)
- 收藏
- 关注

原创 Java本地模式开发Spark程序开发遇到的问题
1. spark应用打成Jar包提交到spark on yarn执行时依赖冲突解决:使用maven项目开发时,可以把spark、scala、hadoop相关依赖添加以下标签<scope>provided</scope>例如:<dependencies> <!-- scala-library -->
2018-09-06 17:29:45
1368
原创 mapreduce读取parquet文件
1.添加parquet1.8.1 maven依赖<parquet.version>1.8.1</parquet.version>JDateTime 依赖 <jodd.version>3.3.8</jodd.version><dependency> <groupId>org.apache.parquet<...
2019-01-16 14:24:07
4492
原创 maven assembly插件使用
1.常用assembly插件的pom配置<!-- 打包依赖 --><plugin> <artifactId>maven-assembly-plugin</artifactId> <configuration> <appendAssemblyId>false</appendAssemblyId>
2019-01-15 17:55:07
984
1
原创 Centos6.8安装Solr7.1.0
安装环境需要jdk1.8 或者更高,容器我用的tomcat,也建议tomcat8.0或者更高1.下载Solr7.1.0与Tomcat8wget http://archive.apache.org/dist/lucene/solr/7.1.0/solr-7.1.0.zipwget http://mirror.bit.edu.cn/apache/tomcat/tomcat-8/v8.5....
2018-12-03 15:09:22
359
原创 Storm1.1.0单节点搭建
1.下载安装包http://storm.apache.org/downloads.htmlwget https://archive.apache.org/dist/storm/apache-storm-1.1.0/apache-storm-1.1.0.tar.gz2.解压缩至指定目录tar -zxf apache-storm-1.1.0.tar.gz -C /usr/local...
2018-11-15 10:26:38
846
原创 redis模糊批量删除key
1.shell方式[root@bigdata shell]# cat 2_batchDelRedisKeysByPattern.sh #!/bin/bashCOMMOND_HOME=/usr/local/redis-4.0.10/bin/redis-clipattern=$1echo "batch del keys ${pattern}"# del stand-alone ...
2018-11-01 17:59:41
7483
1
原创 Linux-Centos6.8安装redis-4.0.10 官方集群版
可参考http://www.cnblogs.com/frankdeng/p/9332618.html1.下载安装包http://download.redis.io/releases/redis-4.0.10.tar.gzwget http://download.redis.io/releases/redis-4.0.10.tar.gz2.解压缩tar -zxvf redi...
2018-11-01 16:20:25
814
原创 MapReduce关于key的定义、hashCode()、equals(Object obj)、compareTo(CustomCombineKey other)
1. mapreduce中自定义mapout、reduceinput的keykey需实现WritableComparable<KEY> 接口1.1 重写下面的三个方法1.2 重写hashCode()和equals(Object obj)2. mapreduce何时调用hashCode()、equals(Object obj)、compareTo(CustomComb...
2018-10-23 15:27:12
743
原创 Linux-Centos6.8安装redis4.0.11
1. 下载到 http://www.redis.cn/download.html 可以获取到最新稳定版本的rediswget http://download.redis.io/releases/redis-4.0.11.tar.gz2. 解压缩与安装tar -zxvf redis-4.0.11.tar.gz -C /usr/local/cd /usr/local/r...
2018-10-12 13:33:43
542
原创 Spark-2.3.0环境搭建安装
安装包:spark-2.3.0-bin-hadoop2.71. 下载安装包wget https://archive.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz2. 解压缩tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C /usr/local3. 配置环境变...
2018-10-09 17:25:06
2169
原创 Hadoop2.7.5环境搭建
已编译好的hadoop2.7.5(支持snappy)的安装包:服务器环境为腾讯云-Centos6.8,安装hadoop单机模式,root用户下安装注:hostname千万不要包含下划线 单机配置localhost1. 配置主机名腾讯云不建议修改hostname,因腾讯云服务器默认hostname带有下划线则使用localhost。 2. 配置主机名和ip映射关系 hosts...
2018-10-09 11:21:02
1554
原创 JDK环境搭建
JDK历史版本下载地址:https://www.oracle.com/technetwork/java/javase/archive-139210.html示例为JDK7u801. WIN10下安装JDK(绿色版)从官网下载jdk.exe转为绿色版。绿色版地址:1.1 获取绿色版JDK包1.2 配置环境变量右击“我的电脑”-->"高级"-->...
2018-10-02 19:54:51
2683
原创 工作中碰到的Java问题整理及解决方案
1.SOH分隔符(Notepad++)SOH是ASCII码表为ASCII值==1的控制字符(不可见)char字符:0x01完整ASCII码表见:https://www.cnblogs.com/myblesh/articles/2495378.htmlJava String.split() 以SOH为分隔符的字符串//第一种方案(最优解决方案)lineTxt.split("\...
2018-09-28 09:17:50
10413
1
原创 Hadoop、Spark处理小文件
注:hadoop基于2.7.5;spark基于2.3.1-hadoop2.7-scala2.11.81.hadoop处理小文件(提升mapreduce性能,没有解决namenode内存问题) 2.spark处理小文件
2018-09-27 09:14:38
878
原创 Hadoop、Spark计数器(累加器)使用
1. MapReduce中自定义计数器(枚举方式)1.1 首先定义并使用计数器//第一种 组名+计数器名context.getCounter(groupName, counterName).increment(1);//参数类型为String //第二种 Enumcontext.getCounter(counterName).increment(1);//参数类型为Enum//...
2018-09-25 18:18:29
4534
1
原创 hive使用beeline将hql结果导出为csv文件
编写shell脚本自动化导出指定hql结果到csv文件并删除sql语句和关闭连接日志1. hql文件准备select a.enodebid as enodebid, sum(xdrsize) as totalXdrSize, sum(failed) as totalFailed, sum(success) as totalSuccess from test.i...
2018-09-21 10:07:28
7055
原创 HIVE SQL 实践
1. select语句1.1 简单查询注:最好不要使用 select *select * from test.imsiBackFill where date_id = 20180920 and hour = 10 limit 10;1.2 统计行数select count(1) from test.imsiBackFill where date_id = 2018092...
2018-09-20 11:51:47
451
原创 Hadoop、Spark(Java、scala)实现分组、排序
1. MapReduce实现分组、排序1.1分组//在MapReduce 主类设置自定义分组Classjob.setGroupingComparatorClass((Class<? extends RawComparator> cls);//实例job.setGroupingComparatorClass(S1apEnbidGroupingComparator....
2018-09-20 11:27:19
818
2
原创 Hive基础操作
1.hive建表1.1建内部表(文本)create table if not exists test.imsiBackFill( s1apid string, enodebid string, xdrsize int, failed int, success int)PARTITIONED BY( date_id string, ...
2018-09-20 10:52:06
232
原创 Linux处理格式化文件(awk、sort等)
目前有这样的一些数据,获取按照‘‘|’’ 分隔,按照第二列求第三列的和并按照和降序排序取前10数据#用'|'分隔,按照第三列数值降序排序取前10cat part-r-0000*|sort -t "|" -k3rn|head -10#获取按照'|' 分隔,按照第二列求第三列的和 => 取和不为0的 => 按照和降序排序 => 取前10cat ./*|awk -F ...
2018-09-13 11:08:47
731
原创 Linux-Centos6.8下安装scala2.11.8
win10环境下安装scala请见 https://blog.youkuaiyun.com/csdnmrliu/article/details/823812161. 上传安装包(根据spark的版本确定)下载地址:https://www.scala-lang.org/download/all.html首先,确保安装了Java 8 JDK使用wget下载scala-2.11.8安装包w...
2018-09-11 11:13:10
1787
原创 scala项目配置Log4j
1. 添加maven依赖注意scala版本<!-- log4j-api-scala --><dependency> <groupId>org.apache.logging.log4j</groupId> <artifactId>log4j-api-scala_2.11</artifactId> <ver...
2018-09-07 18:05:14
6330
原创 MAVEN将本地Jar包(非MAVEN项目)安装至指定仓库
有时候,我们需要依赖我们自定义的Jar时,maven仓库是没有的,所以我们需要手动安装Jar包。使用命令如下:mvn install:install-file -Dfile=mrlocateStand.jar -DgroupId=com.bonc -DartifactId=mrlocate -Dversion=1.0 -Dpackaging=jar -DlocalRepositoryPat...
2018-09-07 13:26:54
1932
原创 Eclipse设置JVM虚拟内存的三种方式
方式1. 修改Elipse运行JRE默认JVM参数打开Eclipse,选择Window--Preferences...在对话框左边的树上双击Java,再双击Installed JREs,在右边选择前面有对勾的JRE,再单击右边的“Edit”按钮,出现一个 Edit JRE 的对话框,在其中的Default VM Arguments: 框中输入 -Xms128m -Xmx512m ,这样设置Ja...
2018-09-07 09:19:00
16026
1
原创 scala操作文件
1.递归获取指定目录下的所有文件名 /** * 递归获取指定目录下的所有文件名 */ def getAllFileName(dir: File): Iterator[File] = { val d = dir.listFiles.filter(_.isDirectory) val f = dir.listFiles.filter(_.isFile).toIte...
2018-09-05 17:27:54
698
原创 常用软件列表
1.IDEA软件安装包下载地址(历史版本)https://www.jetbrains.com/idea/download/previous.htmlIntelliJ IDEA 2018.1 x64 (Ultimate Edition)百度云盘地址链接: https://pan.baidu.com/s/1PiKI_WmHplPD2ZR5j83PGQ 密码: aeg9激活码:http:...
2018-09-05 15:43:35
6027
原创 TortoiseSVN环境搭建
1.WIN10下安装TortoiseSVN1.1下载安装包TortoiseSVN下载地址:https://tortoisesvn.net/downloads.html同时下载中文简体语言包历史版本 TortoiseSVN 1.9.7, Build 27907 - 64 Bit百度云盘地址链接: https://pan.baidu.com/s/1e0iMNH8lcmrlJ...
2018-09-05 15:43:29
1776
原创 Eclipse常用配置
1.配置SVN插件确保本机已安装TortoiseSVN下载eclipse-svn插件百度云盘地址链接: https://pan.baidu.com/s/145P-QUU8QgkvaDxsXH7ypA 密码: ia4i下载解压将 site-1.8.22目录剪切至 $eclipse_home/dropins 重启Eclipse即可window -- Preferrn...
2018-09-05 15:43:21
388
原创 PyCharm Python开发IDE常用设置
1.Pycharm如何选择自动打开或不打开最近项目file--settings--Appearance&Behavior--System Settings适用于其他 JetBrains IDE
2018-09-05 15:43:12
336
原创 eclispe创建scala+maven项目
使用eclispe编写scala项目时需搭建scala环境、eclispe安装scala插件1.win10下搭建scala环境安装包尽量与spark版本中使用的scala保持一致 解压缩至指定目录下(D:\dev)配置环境变量(右击此电脑 -- 属性 -- 高级系统设置 -- 环境变量 -- 系统环境变量 -- 新建SCALA_HOME)设置系统环境变量:SCALA_H...
2018-09-04 12:41:47
2628
原创 scala解析xml工具
解析xml至Map标签名称用下划线连接 /** * 读取xml 至map */ def readXml2Map(filePath: String): scala.collection.mutable.Map[String, String] = { val xmlFile = XML.loadFile(filePath) // 根节点 val child...
2018-09-03 09:19:39
1379
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人