- 博客(42)
- 资源 (1)
- 问答 (2)
- 收藏
- 关注
原创 linux离线环境安装完整iso镜像版yum源,并解决rpm依赖包冲突和版本过低问题
无外网环境安装docker,只提示安装失败:systemctl status docker.service● docker.service - Docker Application Container Engine Loaded: loaded (/etc/systemd/system/docker.service; enabled; vendor preset: disabled) Active: failed (Result: start-limit) since Tue 2020-
2020-10-15 18:45:32
1338
原创 zookeeper、hadoop、hbase单节点伪分布式集群一键部署shell脚本
ardh.1.0安装说明注:脚本tgz包后续上传,欢迎留言与我交流讨论一、使用说明1、脚本内默认安装三款软件:zookeeper-3.4.13、hadoop2.7.3、hbase-1.2.62、脚本经centos6.5、centos7.4/7.5测试安装正常3、服务器需配置正确的hostname(hostname前面不可跟回环地址127.0.0.1)例:[root@SHELL...
2020-05-07 17:54:21
655
原创 hadoop、hive、sqoop、spark、livy、jdk单节点伪分布式集群一键部署shell脚本
ards.1.0安装说明注:脚本tgz包后续上传,欢迎留言与我交流讨论一、使用说明本脚本可实现快速自动安装(hadoop-2.7.3/hive-1.1.0/sqoop-1.4.6/spark-2.3.0/livy/jdk1.8)集群功能,提前阅读以下说明(脚本内亦有提示)有助于您使用此脚本1、脚本经centos6.5、centos7.4/7.5测试安装正常,脚本内输入错误可使用Ctr...
2020-05-07 17:39:30
626
原创 CDH集群安装前linux环境检测shell脚本
check-env.sh脚本说明《Centos7系统参数检测修改脚本说明》包括两部分【使用说明】和【脚本介绍】【使用说明】1、赋予脚本可执行权限chmod +x check-env.sh2、执行脚本./check-env.sh3、脚本内操作脚本内会将未通过检查的项单独加序号红色列出,使用时输入a可全部修改为默认值;输入对应的序号可修改序号对应的参数项的值;直接...
2020-05-07 16:42:55
559
1
原创 hbase数据备份导入脚本
本脚本为hbase数据迁移的后半部分(数据导入),自动将所有表数据和元数据导出的文件导入为hbase表,导出部分见我的另一篇文章《hbase数据备份导出脚本》hbase-import.sh脚本说明《hbase数据备份导入脚本说明》包含【使用说明】和【脚本介绍】两部分【使用说明】1、赋予脚本可执行权限chmod +x hbase-import.sh2、执行脚本./hb...
2020-05-07 16:33:56
395
原创 hbase数据备份导出脚本
本脚本为hbase数据迁移的前半部分(数据导出),自动将hbase所有表数据和元数据导出为文件,导入部分见我的另一篇文章《hbase数据备份导入脚本》hbase-export.sh脚本说明《hbase数据备份导出脚本说明》包含【使用说明】和【脚本介绍】两部分【使用说明】1、赋予脚本可执行权限chmod +x hbase-export.sh2、执行脚本./hbase-...
2020-05-07 16:27:19
652
2
原创 HIVE导出数据到Elasticsearch及ES的索引优化
一、导入须知1、ES作为搜索引擎不只是数据的简单存储,向ES导入数据需要做相应的设置,如手动建立mapping。2、ES本身的安装参数配置已经很优秀,绝大数情况下不需要修改除内存大小以外的参数。3、想最佳的优化存储和查询的性能,就要有针对性的根据每一个字段的功能设置相关的属性,es作为搜索引擎通常会给每个字段动态自动映射相应的字段类型并设置最全的默认属性,但是过于冗余,而且动态自动映射的数...
2020-05-07 11:26:01
1466
1
原创 Elasticsearch数据导入Hive说明文档
以测试部es主机192.xxx.x.128为例,导入索引数据到本地Hive一、准备:可先查看es服务器index列表,对目标数量和大小心中有数(此步可省)curl -X GET ‘http://192.xxx.x.128:9200/_cat/indices?v‘启动Hvie的shell界面,启动时指定预先设置的Elasticsearch-hive插件(启动方法不唯一)hive -h...
2020-05-07 10:45:36
1425
4
原创 Spark SQL创建表,不能用null定义生成字段
如题,在Spark SQL中执行Hive SQL代码,遇到create table testtable as select null as item from ...时,会报错:Exception in thread "main" org.apache.spark.SparkException: Cannot recognize hive type string: null报...
2020-04-24 20:04:42
2359
原创 sparksql使用udf报错" ,;{}()\n\t="
Attribute name "UDF:ywnrFilter(caseywnr)" contains invalid character(s) among " ,;{}()\n\t=". Please use alias to rename it.;代码为: var df = spark.sql("select ywnrFilter(caseywnr) from taxportrait...
2019-12-04 09:35:51
1632
原创 执行spark-submit后报错,nodemanager异常关闭
cdh集群之前出了一些异常,提交spark代码后,执行长期卡在一处不动,报错信息如下:ERROR cluster.YarnScheduler: Lost executor 12 on nw-data-3: Container marked as failed: container_1571923398993_0015_01_000013 on host: nw-data-3. Exit ...
2019-10-25 13:38:01
1635
原创 Centos6 开启防火墙端口
最近集群开启了防火墙,cdh集群无法连接mysql所在的服务器,需要开启mysql对应端口我的centos6 环境有些特殊,不支持默认的iptables命令和service命令,于是尝试修改防火墙配置文件尝试过vi /etc/sysconfig/iptables然后/etc/init.d/iptables reload然后/etc/init.d/iptables restart...
2019-10-24 14:58:45
782
原创 sqoop将oracle数据导入hvie后数据条数增多
sqoop将oracle一张表全量数据导入hvie。可以看到oracle中数据量1655条:使用sqoop导入hvie:sqoop import \--table YW_YWDJ \--connect jdbc:oracle:thin:@xxxx \--username xxx --password xxx \--hive-import \--create-hive-t...
2019-07-11 14:37:52
548
原创 HIVE读取中文数据乱码
我遇到的这种问题实际原因还是在数据存的那一步,之所以这个标题是因为我搜的时候用这个标题搜不到正确答案。我使用hive的jdbc,insert中文进一张hive表,指定项目编码和hive表的编码都不管用,仍然乱码。解决方法:hive jdbc存数据的时候把字符串转一下编码(第三列是中文字段)String p1 = tmp.get(i).split(",")[0];String p...
2019-04-12 09:55:44
2192
原创 Disconnected from the target VM, address: '127.0.0.1:56716', transport: 'socket'
使用jdbc代码连接hive报错:Disconnected from the target VM, address: '127.0.0.1:56716', transport: 'socket'网上说是maven和idea版本不对应,但我这个的原因只是因为hive的jdbc的connect连接失败cdh版本的hive用户名密码一般设为root、rootapache版本的hive用户...
2019-04-11 17:56:19
11942
原创 ERROR: for bin_es_1 Network-scoped alias is supported only for containers in user defined networks
使用es-hadoop插件连接docker桥接网络布置的es导出数据到hive失败,报错显示无法连接到docker容器的ip,于是打算将docker容器的网络模式设置成host模式。想要使用host网络模式和docker-compose up -d启动docker容器时报错:ERROR: for bin_es_1 Network-scoped alias is supported onl...
2019-04-11 14:23:59
6924
原创 ACCEPTED: waiting for AM container to be allocated, launched and register with RM.
shell脚本执行hivesql后一直处在ACCEPTED: waiting for AM container to be allocated, launched and register with RM.状态检查datanode状态和防火墙均无异常,检查相关脚本(LogAction.sh)进程:ps -ef | grep LogAction.sh发现有10多个同样的进程,都在运行...
2019-04-11 14:16:10
3879
原创 sparksql代码执行过于缓慢
最近服务器状态不佳,oracle有时性能较差,运行sparksql向oracle中存数据时运行超级缓慢,开始还特意排查代码找错,最终换了一个oracle数据库做实验发现整个流程在几秒内非常顺利的完成了,可见oracle性能对sparksql执行速度影响巨大,特此记录此次事件。以下是运行时部分日志,可以看到每执行1/200的进度要30000ms,整个预计要200*30=6000秒才能完毕。。。。...
2019-03-15 17:19:20
3365
原创 OracleJDBC之防sql注入带事务回滚和批量提交Demo
OracleJDBC之防sql注入带事务回滚和批量提交Demo如题,直接上代码: public static void Demo(List<List> list) { Connection conn = null; PreparedStatement pst = null; String driver = "oracle.jdbc.driver.OracleDriv...
2019-01-22 10:46:23
249
原创 Impala之JDBC连接
首先选择节点,Impala Daemon(守护进程)的作用是接收来自HUE、shell、jdbc等的连接,分配计算任务并汇总结果返回。连接Impala的节点就选Impala Daemon节点。 impala的主流连接方式有两种,一种是impala的专用jdbc,需要下载ImpalaJDBC41.jar(官网下载要填各种信息,有点麻烦),另一种是只需hive的pom依赖,改动端口和添加认证方式即可...
2019-01-22 10:42:57
7049
4
原创 elasticsearch代码中如何处理搜索匹配空字符串""
使用java代码搜索ES直接匹配""并不能匹配到空字符串,如: BoolQueryBuilder mustNot = QueryBuilders.boolQuery() .must(QueryBuilders.existsQuery("desc")) .mustNot(QueryBuilders.termQuery("desc", "")) .mustNot...
2019-01-10 10:55:58
7135
6
原创 ElasticSearch安装使用及知识点总结
一、es的应用1、对于海量数据具有优于传统关系型数据库的查询速度,对文本具有多样化的搜索功能。2、可以做Json文档数据库,有优秀的读写性能,同时也支持地理位置查询,还方便地理位置和文本混合查询。3、监控:统计、日志类时间序的数据存储和分析、可视化,这方面ELK是引领者。 二、es的核心概念内部基本概念:index、type、document、field含义分别类似于mysql的库、...
2019-01-08 15:15:34
358
原创 Docker安装、练习与使用
Docker安装、练习与使用docker的三个主要概念:镜像:系统的只读模板(Image格式)容器:镜像的运行实例(多一个可写层)仓库:管理镜像(分公有和私有)docker优点:快速部署整套环境和通过集成搭建复杂环境centos7※安装docker[root@SHELL2 ~]# yum -y install docker启动docker[root@SHELL2...
2018-11-30 14:22:54
241
原创 centos7.5安装mysql5.7.24-bundle包和centos6.5安装mysql-5.7.24bundle包
记录两次安装mysql的操作:一、centos7.5安装mysql-5.7.24-1.el7.x86_64.rpm-bundle.tar包官网下载页面:https://dev.mysql.com/downloads/file/?id=481064官网下载地址:https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.24-1.el7...
2018-11-23 16:30:34
1320
原创 shell脚本操作hbase的两种命令
网上只能找到命令一:exec hbase_home/bin/hbase shell <<EOF statuscreate 'testtable','colfaml'list 'testtable'put 'testtable','myrow-1','colfaml:q1','value-1'scan 'testtable'disable 'testtable'dro...
2018-11-21 11:03:50
3998
1
原创 检查xml格式的linux自带方便好用的工具
当XML格式的配置文件格式出错后,可使用的CentOS上自带的检查工具检查是哪里出了问题,命令如下:[root@SHELL2 opt]# xmllint -noout hive-site.xmlhive-site.xml:3601: parser error : Opening and ending tag mismatch: property line 356 and c...
2018-11-20 10:04:45
7076
原创 shell脚本配置hive连接mysql
脚本外已经安装好了的MySQL数据库并设置了用户名和密码,导入了jdbd的罐子包,初始化了蜂巢-site.xml中配置文件,本脚本可使没有相关经验的人也能进行“傻瓜式”的安装脚本思路分两步:如图1所示,根据输入的用户名密码自动修改蜂房-site.xml中配置文件参数2,脚本内运行蜂房,并检查的MySQL中是否存在蜂巢元数据库对应的表,判断后直接返回成功或者失败的汉字标识 r...
2018-11-08 19:18:55
1040
原创 shell脚本sed命令匹配当前行修改下一行修改xml配置文件
原错误命令如下:sed -i '/>javax.jdo.option.ConnectionURL</{n;s#.*#<value>jdbc:mysql://${host_name}:3306/hive?createDatabaseIfNotExist=true&amp;useSSL=false</value>#}' /opt/arbd/hive-1....
2018-11-08 13:34:04
2649
原创 java.io.IOException: NameNode is not formatted.
问题:/hadoop-2.7.3/logs/hadoop-root-namenode-SHELL.log显示报错java.io.IOException: NameNode is not formatted.格式化namenode之前删除core-site.xml中hadoop.tmp.dir下内容和hdfs-site.xml中配置的namenode目录和datanode目录关键问题来了,使...
2018-11-01 16:42:41
4735
1
原创 关闭Kerberos后hbase集群RegionServer经常意外退出
按通常网上的关闭Kerberos集群的方法关闭集群后,hbase集群经常有单节点意外退出,查看日志会发现很长的报错信息,下面从头按顺序开始列举:ABORTING region server cdh136,60020,1539306655523: org.apache.hadoop.hbase.YouAreDeadException: Server REPORT rejected; curre...
2018-10-15 15:43:03
1324
原创 Oracle BIEE 12c用户权限系统操作文档(下)
Oracle BIEE 12c用户权限系统操作文档(下)本文涉及用户,用户组和应用程序角色系统的操作和对oracle 11g数据库,hive,Impala三种数据源的分用户项目视图权限细粒度权限管理操作。以下操作均为个人研究成果,研究整理不易,这里分享出来是希望能和大家共同探讨,不足之处还望指出。四,安装windows端的Oracle BIEE因OBIEE的BI管理工具只在Wind...
2018-10-15 09:59:50
2293
原创 启用Kerberos后CDH集群的HiveServer2频繁意外退出故障解决附带CDH更新Principal keytab过程
HiveServer2 运行状况 不良 半小时自动退出一次搜索hive的日志:find / -name hive-log4j.properties找到并打开后发现日志位置和名字:log.dir=/var/log/hivelog.file=hadoop-cmf-hive-HIVESERVER2-cdh148.log.out该日志内容过长,于是打开命令调整为:tail...
2018-09-27 14:18:08
5930
原创 使用VNC的一点小注意
VNC服务端安装:依次yum安装,重启 yum check-update yum groupinstall "X Window System"yum install gnome-classic-session gnome-terminal nautilus-open-terminal control-center liberation-mono-fonts### 设置默认启动图...
2018-09-18 10:28:49
2488
原创 CDH5.13启用Kerberos后spark代码提交常见错误
错误一:Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=admin, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x解决方法:需要登录kinit spark错误二:WARN ...
2018-09-14 09:41:26
1348
原创 重启slapd服务
重启slapd服务systemctl restart slapd检查服务ps aux | grep slapd | grep -v grepnetstat -tunlp | grep :389
2018-08-24 17:15:02
4033
原创 Oracle BIEE 12c用户权限系统操作文档(上)
Oracle BIEE 12c用户权限系统操作文档(上)本文涉及用户、用户组和应用程序角色系统的操作和对oracle 11g数据库、hive、Impala三种数据源的分用户项目视图权限细粒度权限管理操作。以下操作均为个人研究成果,研究整理不易,这里分享出来是希望能和大家共同探讨,不足之处还望指出。为实现Linux端BIEE的用户资源权限管理,需先创建对应用户,组合角色,然后在windo...
2018-08-14 14:40:20
2183
原创 The plot function requires matplotlib to be installed.
nltk包下命令报错: The plot function requires matplotlib to be installed.直接的解决办法:进入到D:\ Python27 \ Scripts(具体在你自己python的安装位置中),cmd输入easy_install NumPy,easy_install matplotlib,重新自动安装相关包,当显示完成时,就可以成功使用matplo...
2018-07-30 10:50:34
1021
2
原创 启动cqlsh报错:No appropriate python interpreter found.
Cassandra启动cqlsh报错:No appropriate python interpreter found.python -V可以显示python版本3.6.1官网关于cqlsh的翻译如下:切记不要安装3X的,(cassandra 目录下cqlsh用的是2X的语法,安装3X无法执行)即:安装Cassandra需要先安装Python,对于Python的版本有特殊的要求,...
2018-07-26 13:28:13
2931
原创 Cassandra离线数据迁移操作文档
注:以迁移keyspace名为mydb,table名为user表数据为例,使用Cassandra的export/import工具:COPY TO/FROM另有镜像备份恢复能大粒度实现多keyspace备份功能,但需要相同的system_schema(元数据信息),一般只在同一集群上操作。一、查看原始Cassandra表1、进入cqlshbin/cqlsh2、查看keyspace...
2018-07-26 13:19:14
1505
原创 Centos6.5自带Python2.6.6升级最新Python3.6.1版本
一、升级 Python 3.6.1 版本1. 准备安装包,系统是最小化安装# 下载安装依赖的相关包[root@vip ~]# yum install vim gcc make wget -y[root@vip ~]# yum install openssl-devel zlib-devel readline-devel sqlite-devel -y# 下载[root@vip ~]#...
2018-07-24 16:45:36
1615
ardh.1.0.tgz
2020-06-01
hive怎么开启支持单条数据的insert支持?是开启事务吗?
2019-03-12
TA创建的收藏夹 TA关注的收藏夹
TA关注的人