- 博客(59)
- 资源 (19)
- 收藏
- 关注
原创 spark读取Hive出错: Database 'hxh' not found;
提示spark读取hive找不到库Exception in thread "main" org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'hxh' not found; at org.apache.spark.sql.catalyst.catalog.ExternalCatalog.requi...
2019-07-03 20:00:42
2291
1
原创 redhat linux手动RPM安装gcc,g++
gcc离线安装 rpm 安装包–force 参数为重复替换–nodeps 参数为强制安装,忽略依赖所需安装包以及脚本下载地址:gcc离线安装 下载地址rpm -ivh lib64gmp3-4.3.1-1mdv2010.0.x86_64.rpmrpm -ivh ppl-0.10.2-11.el6.x86_64.rpmrpm -ivh cloog-ppl-0.1...
2019-04-23 20:53:53
635
转载 Beyond Compare 4提示已经过了30天试用期
打开Beyond Compare 4,提示已经超出30天试用期限制,解决方法:修改C:\Program Files\Beyond Compare 4\BCUnrar.dll,这个文件重命名或者直接删除,则会新增30天试用期,再次打开提示还有28天试用期 一劳永逸,修改注册表 1)在搜索栏中输入 regedit,打开注册表 2) 删除项目:计算机\HKEY_CURRENT_USER\...
2019-04-17 09:14:25
305
转载 读取kafka数据通过SparkStreaming处理,数据零丢失--使用jdbc存储offset
1.MySQL创建存储offset的表格 mysql> use hxh mysql> create table hxh_offset( topic varchar(32), groupid varchar(50), partitions int, fromoffset bigint, untilof...
2019-04-15 17:38:56
609
原创 大数据--------关于Hive Union使用说明
我在使用Hive SQL时,用关系型数据库SQL的语法写的Hive SQL.当进行多表union的时候,对数据进行去重,我用了如下SQL:select bacc,lst_int_prvs_dt,lst_txn_mf_sn from test1union select bacc,lst_int_prvs_dt,lst_txn_mf_sn from test2;在运行的时候,错误信息...
2019-02-12 16:16:40
763
原创 spark rdd分区与任务的关系
spark rdd分区与任务关系 rdd是弹性分布式数据集,分区是对rdd数据的划分。分区之后,job并行度增大。一个分区对应一个任务。 什么是任务,任务是job的执行逻辑单元。task会在excutor中执行。 当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一...
2019-01-08 09:15:01
2974
1
原创 Axis2.x WebService项目搭建之-----eclipse安装Axis2插件
准备工作1、开发准备首先需要下载axis2的相关jar包,到axis的官方网站即可获得开发的依赖包。下载地址:http://axis.apache.org/axis2/java/core/download.cgi现在最高的版本是1.7.9的然后你需要下载官方提供的axis的eclipse插件工具,可以帮助我们打包(aar)及其生产客户端调用代码。下载页面:http://axi...
2019-01-07 15:20:03
623
原创 SparkStreamingj集成Kafka的几个重要参数
因为首次启动JOB的时候,由于冷启动会造成内存使用太大,为了防止这种情况出现,限制首次处理的数据量spark.streaming.backpressure.enabled=truespark.streaming.backpressure.initialRate=200spark.streaming.kafka.maxRatePerPartition这个参数是控制吞吐量的,一般和spar...
2018-12-28 13:03:11
254
转载 hbase的cache与batch的理解
cache: 在默认情况下,如果你需要从hbase中查询数据,在获取结果ResultScanner时,hbase会在你每次调用ResultScanner.next()操作时对返回的每个Row执行一次RPC操作。即使你使用ResultScanner.next(int nbRows)时也只是在客户端循环调用RsultScanner.next()操作,你可以理解为hbase将执行查询请求以迭...
2018-12-26 19:44:07
376
原创 spark性能优化以及问题解决方式
内存/GC优化 程序的稳定性有所提升,但是让我们完全跑通的最后一根救命稻草是内存、GC相关的优化。Direct Memory我们使用的spark版本是1.5.2(更准确的说是1.5.3-shapshot),shuffle过程中block的传输使用netty(spark.shuffle.blockTransferService)。基于netty的shuffle,使用direc...
2018-12-25 18:24:17
643
转载 Java后台服务器实现极光推送的两种实现方式
Java后台实现极光推送有两种方式,一种是使用极光推送官方提供的推送请求API:https://api.jpush.cn/v3/push,另一种则是使用官方提供的第三方Java SDK,这里先进行第一种方式推送的实现代码:import org.apache.http.HttpResponse;import org.apache.http.client.HttpClient;import ...
2018-12-20 21:44:56
582
原创 Spark 监控后台:javax.servlet.http.HttpServletRequest.isAsyncStarted()Z
本地idea运行spark时,可通过http://20.3.7.114:4040 访问spark监控后台(端口4040为默认,可配置)报错信息:java.lang.NoSuchMethodError: javax.servlet.http.HttpServletRequest.isAsyncStarted()Zat org.spark_project.jetty.servlets....
2018-12-19 18:00:46
532
原创 Spark Streaming 写kafka报错:kafka.cluster.BrokerEndPoint cannot be cast to kafka.cluster.Broker
写了一个spark 读写kafka任务,直接在idea 以local模式运行直接报错报错:Caused by: java.lang.ClassNotFoundException: kafka.cluster.BrokerEndPointException in thread "main" java.lang.NoClassDefFoundError: kafka/cluster/Bro...
2018-12-17 18:08:47
706
原创 java.lang.NoClassDefFoundError: org/apache/kafka/common/security/JaasUtils
SparkStreaming通过实时获取kafka数据的时候,提示: java.lang.NoClassDefFoundError: org/apache/kafka/common/security/JaasUtils; 通过排查,发现moven的依赖包版本与自己的版本不一致,导致包冲突现象;18/12/14 09:58:33 ERROR E...
2018-12-14 10:08:32
6927
2
原创 oracle goldengate上线步骤和常见问题整理
OGG上线步骤源服务器 确认生产环境是否与测试环境一致(操作系统和数据库版本),如果不一致,需提前告知生产的环境信息。 下载对应的安装介质,网址 http://www.oracle.com/technetwork/middleware/goldengate/downloads/index.htmlhttps://edelivery.oracle.com/osdc/faces/So...
2018-07-31 22:49:36
3171
原创 spark优化策略
一、常见问题1、org.apache.spark.shuffle.FetchFailedException当前的配置为每个 executor 使用 1cpu,5GRAM,启动了 20 个 executor, 这种问题一般发生在有大量 shuffle 操作的时候,task 不断的 failed,然后又重执行,一直循环下去,非常的耗时。解决方案:一般遇到这种问题提高 ex...
2018-07-25 23:18:58
409
原创 DB2开启日志归档配置
DB2的归档配置[root@M02-01 ~]# mkdir -p /opt/ibm/db2/V9.7/db2src/backupDB2的归档配置比较简单,只需要需要修改LOGARCHMETH1参数即可,命令如下[root@M02-01 ~]# db2db2 => connect to ytec user db2inst1 using db2db2 => update d...
2018-07-25 23:17:05
2181
转载 hbase的rowkey设计
rowkey长度原则rowkey是一个二进制码流,可以是任意字符串,最大长度 64kb ,实际应用中一般为10-100bytes,以byte[] 形式保存,一般设计成定长。建议越短越好,不要超过16个字节,原因如下:目前操作系统都是64位系统,内存8字节对齐,控制在16个字节,8字节的整数倍利用了操作系统的最佳特性。rowkey散列原则如果rowkey按照时间戳的方式递增,不要将时间放在二进制码的...
2018-05-20 10:05:10
277
原创 hue安装步骤+mysql元数据存储、hive、hadoop做集成
1. 使用yum工具来安装hue相关的依赖软件:sudo yum install krb5-develcyrus-sasl-gssapi cyrus-sasl-deve libxml2-devel libxslt-devel mysql mysql-developenldap-devel python-devel python-simplejson sqlite-devel2. 下载hue软件包c...
2018-05-16 16:20:15
1738
原创 利用Spark sql操作Hdfs数据与Mysql数据,sql窗口函数的使用
需求说明:根据商品的点击数据,统计出各个区域的销量排行TOPK 产品输入:开始时间与结束时间输出:每个城市的销量排行TOP K 产品地区级别 地区名称 产品名称 点击量 产品类型 A 西南片区 雾霾口罩 1000000 第三方 A 西南片区 雾霾口罩 1000000 第三方 A 西南片区 雾霾口罩 1000000 第三方 B 华中地区 苹果 1000 自营 ...
2018-05-15 17:35:15
3280
转载 DQL、DML、DDL、DCL区别
二. SQL语言的分类SQL语言共分为四大类:数据查询语言DQL,数据操纵语言DML,数据定义语言DDL,数据控制语言DCL。1. 数据查询语言DQL数据查询语言DQL基本结构是由SELECT子句,FROM子句,WHERE子句组成的查询块:SELECT <字段名表>FROM <表或视图名>WHERE <查询条件>2 .数据操纵语言DML数据操纵语言DML主要有三...
2018-05-14 15:08:54
237
原创 spark sql集成hive步骤
SPARK ON HIVE:让spark sql通过sql的方式去读取hive当中的数据HIVE ON SPARK:让hive的计算引擎由MapReduce改为SPARK1、 先按官网的参考代码,构建val conf = new SparkConf().setMaster("local[*]").setAppName("hotCount") val sc = new SparkContext...
2018-05-13 16:06:55
2609
原创 flume集成CDH步骤与异常解决
1、 确定你的flume在哪台主机上2、 确认该台主机上的flume是否可以正常使用? 在指定的目录下,创建一个bigdata_page_to_hive.conf内容可以是官网的实例:http://flume.apache.org/FlumeUserGuide.html启动:flume-ng agent --conf conf --conf-file bigdata_page_to_hive....
2018-05-12 17:57:12
2868
转载 CDH版本的Maven依赖
之前一直结合Maven开发Hadoop2.2.0的程序,环境换成CDH5.2后报错,发现是Maven依赖库的问题。之前一直使用http://mvnrepository.com/查找maven依赖,但这类网站只能查到通用的maven依赖,没有包含CDH依赖,还好Cloudera提供了CDH的依赖:http://www.cloudera.com/content/cloudera/en/document...
2018-05-12 16:54:04
1818
原创 hive 部署需要注意的几点以及Version information not found 错误解决办法
异常问题:MetaException(message:Version information not found in metastore. ) at org.apache.hadoop.hive.metastore.ObjectStore.checkSchema(ObjectStore.java:7192) at org.apache.hadoop.hive.metastore.Object...
2018-05-09 11:01:15
1228
原创 virt-manager(kvm)安装虚拟机无法使用键盘解决
今天远程用VNC登录服务器安装虚拟机,结果使用virt-manager安装虚拟机后在初始阶段无法使用键盘设置,这不雪崩了,后来来回试,找到了原因。 在新建导向的时候最后一步之前,选择查看细节那里,在desplay的地方选择VNC server ,再在keyboard地方选择us-en,这下进入安装界面就可以了。...
2018-05-08 14:32:12
7744
原创 用IDEA开发spark应用,发生java.lang.ClassNotFoundException的解决
用IDEA开发spark应用的配置方法。在完成集群配置之后,我写了下面的demo进行测试 如果把“spark://master:7077”变为local[2]就能正常运行,但是修改为spark集群就报错demo案例如下:package com.keduoximport org.apache.spark.{SparkConf, SparkContext}object Spark...
2018-05-06 03:03:52
6980
原创 HBase Shell命令使用
hbase创建表:1、必须要指定表名和至少一个列族 create 't01','cf01' 如果是字符串的话,需要加上引号 创建一个带有多个列族的表 create 't03','cf01','cf02'2、增加记录 每一次put,是一个cell为单位 put 't01','rowkey001','cf01:name','zs' p...
2018-05-04 16:45:11
473
原创 比reduceByWindow更高效的reduceByKeyAndWindow()的实现版本
reduceByKeyAndWindow这个算子也是lazy的,它用来计算一个区间里面的数据,如下图:实现代码如下:import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}import...
2018-05-04 16:18:17
4658
1
原创 Spark-Streaming updateStateByKey用法(计算累加值)、并与kafka集成使用
说明 Spark Streaming的updateStateByKey可以DStream中的数据进行按key做reduce操作,然后对各个批次的数据进行累加。计算word count所有批次的累加值。import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark....
2018-05-04 14:53:16
1604
转载 手机号码正则表达式
匹配手机号码的正则表达式:^1([358][0-9]|4[579]|66|7[0135678]|9[89])[0-9]{8}$目前匹配号段中国电信号段133、149、153、173、177、180、181、189、199中国联通号段130、131、132、145、155、156、166、175、176、185、186中国移动号段134(0-8)、135、136、137、138、139、147、15...
2018-04-26 16:59:47
602
原创 redis最新版本在linux中安装
下载地址:https://redis.io/download下载的是最新版未编译版本,所以安装之前需要安装c的依赖包yum install -y gcc-c++上传到linux中解压,进入到目录里面,执行> make等等。。。。。完成之后。进入到src目录启动服务端 >redis-server另打开一个终端启动客户端 >redis-cli有语法提示哦...
2018-04-20 09:37:52
743
1
转载 com/typesafe/config/ConfigException :Unsupported major.minor version 52.0解决办法
1.首先解释一下:stanford parser和jdk版本对应关系J2SE 8 = 52,J2SE 7 = 51,J2SE 6.0 = 50,J2SE 5.0 = 49,JDK 1.4 = 48,JDK 1.3 = 47,JDK 1.2 = 46,JDK 1.1 = 45Unsupported major.minor version 52.0: 看到Unsupported你是不是会...
2018-04-11 21:09:43
1298
转载 centos系统添加/删除用户和用户组
centos系统添加/删除用户和用户组 在centos中增加用户使用adduser命令而创建用户组使用groupadd命令,这个是不是非常的方便呀,其实复杂点的就是用户的组与组权限的命令了,下面来给各位介绍一下吧。1、建用户:adduser phpq //新建phpq用户passwd phpq ...
2018-04-11 10:48:41
328
原创 CentOs系统 shell 计算 日期加减运算
shell 日期加减运算#获取系统当前日期# time=`date "+%Y%m%d"`#获取前三天日期# threeday=`date -d "${time} -3 day " +%Y%m%d`#获取前五天日期fiveday=`date -d "${time} -5 day " +%Y%m%d`#获取前二十天日期Twentyday=`date -d "${time} -20 day " +%Y%...
2018-04-04 20:31:38
1819
原创 使用apache common-io 定时监控文件下文件的变化,java文件扫描文件变化
使用apache common-io 监控文件变化1、首先导入依赖包;<dependency> <groupId>commons-io</groupId> <artifactId>commons-io</artifactId> <version>2.4</version></
2018-04-02 11:59:56
1659
原创 hbase三种安装模式,本地安装、伪分布安装、集群模式安装
1、hbase介绍 1、数据库技术。NoSQL;2、随机访问,实时读写;3、延迟低;4、构建在hadoop之上2、本地模式安装1.创建本地目录 $> mkdir /home/centos/hbase2.local/standalone模式a)配置JAVA_HOME环境变量(可选) [hbase/conf/hbase-env.sh] export JAVA_...
2018-03-29 16:08:25
2159
原创 ZooKeeper搭建集群模式
1、下载zookeeper包,并解压zookeeper包tar -zxvf zookeeper-3.4.9.tar.gz 2、添加zookeeper配置环境变量vi /etc/profile3、修改conf配置文件zoo.cfg修改数据存放位置:dataDir=/hxh/zookeeper_data集群需要关联zoo.cfg复制模式,master/slave01/slave02是三台服务器名ser...
2018-03-29 14:36:14
318
原创 CentOS下MySQL安装失败,报socket '/tmp/mysql.sock错误解决方法
1、在centos里安装mysql数据库后,登录时提示‘/tmp/mysql.sock’第一种解决办法:采用ln链接方式进行处理ln -s /var/lib/mysql/mysql.sock /tmp/mysql.sock 因为是从tmp目录下,所以有可能/tmp下的这个文件将会被删除第二种解决办法【推荐】: 进入到‘/usr/local/mysql’目录下,找到my....
2018-03-21 17:28:47
16475
原创 CentOS 7连接MySQL报错 java.lang.ClassNotFoundException
报错如下:java.lang.ClassNotFoundException: com.mysql.jdbc.Driver at java.net.URLClassLoader$1.run(URLClassLoader.java:366) at java.net.URLClassLoader$1.run(URLClassLoader.java:355) at java.security.Acc...
2018-03-16 16:28:46
462
根据class类名在所有Jar包文件中查找class类路径以及jar名字
2023-05-11
windows插件hadoop-common-2.7.1-bin
2018-08-28
OracleGoldenGate配置手册
2018-08-10
hadoop性能调优与运维
2018-07-30
jQuery文件树形结构菜单(适用springmvc框架)
2018-02-06
java中导出Execl所需jxl依赖包
2018-01-31
java短信验证码实现模拟
2018-01-03
JDK 1.8版本 src源码
2017-10-17
房屋出租管理系统.net
2014-05-05
学生信息管理系统
2014-05-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人