
大数据
文章平均质量分 68
jzy3711
Committed to solving actual problems, not Baidu can do it at a glance. When solving the problem, it will analyze the cause of the problem and intersperse some source-level things.
展开
-
ambari启用kerberos
我这里测试集群,自定义安装了flink,hue,ES,presto等,应在未安装之前启用kerberos,因为amabri是不支持这个自定义kerberos的,需要自己在自定义是配置,或者后期添加配置,我这里是直接先停停掉,在安装的,但是测试集群很多人再用,停止前要和大家商量好。公司的测试集群是amabri安装的,HDP3.1.4版本,前面已经安装好了kerberos主从,现在要在集群上开启kerberos认证。集成kerberos后,kafka访问方式:(必须使用主机名,如果是ip会报错)原创 2022-10-03 09:29:39 · 2701 阅读 · 6 评论 -
kinit: KDC can‘t fulfill requested option while renewing credentials
1,检查配置文件/var/kerberos/krb5kdc/kdc.conf,在[realms]下需要有max_renewable_life = 7d。为啥推荐使用klist,执行命令需要和和klist中的Default principal: root@AM.COM对应。3.klist 查看cache文件 或者在/etc/krb5.conf中查看相应的配置文件,推荐使用klist。在测试集群上装上了kerberos,今天同事需要使用kinit -R 命令,在执行时报错。8.重新执行kinit -R成功。原创 2022-10-02 08:10:25 · 3551 阅读 · 0 评论 -
hbase加kerberos 后报错hbase master 起不来
1.需要手动重新创建keytab文件2.注意keytab文件权限问题。原创 2022-10-01 15:55:07 · 1237 阅读 · 0 评论 -
hive集群加了个参数后,union all的任务都执行不了影响业务
今年1月内蒙的数据中台和大数据平台上线,运行至今很稳定,昨天半夜3点半被叫起来,说大部分任务卡住了,运行不了,追查问题,发现union all的任务都执行不了,问了现场早上改了什么吗?发现局方要求改了一个参数导致的,任务执行不了挺严重的,早上任务出不来,主任要背责任的。Hive中没有超级管理员,任何用户都可以进行Grant/Revoke操作,为了完善“超级管理员”,必须添加hive.semantic.analyzer.hook配置,并实现自己的权限控制类。3.暂时将参数改回去,回滚配置,重启服务。原创 2022-09-30 16:03:26 · 813 阅读 · 2 评论 -
impala添加kerberos认证
7.将 Kerberos 选项添加到 Impala 默认文件 /etc/default/impala。1.创建kerberos Impala 服务主体,指定运行 Impala 守护程序的操作系统用户的名称、运行 impalad的每个节点的完全限定域名以及领域名称。有关更改 /etc/default/impala中指定的 Impala 默认值的更多信息,请参阅 修改 Impala 启动选项。解决:创建kerberos Impala 服务主体和生成的keytab文件必须要有节点的完全限定域名以及领域名称例如。原创 2022-09-23 18:08:24 · 1119 阅读 · 0 评论 -
配置YARN队列权限由Ranger管理
在Ambari中打开YARN配置界面(YARN->Configs->Advanced->Custom ranger-yarn-security),配置属性ranger.add-yarn-authorization为false,如下图所示。配置策略名,需要设定访问控制的队列,在用户和用户组权限中选择用户,或者组,并赋予相应的权限,如下图所示。ranger对hdfs,hive,hbase管控都没有问题,对队列的管控要不全能访问,要不全不能访问,一定是ranger哪个地方配置不对。原创 2022-09-22 14:39:43 · 1509 阅读 · 0 评论 -
kerberos 主从安装
文章目录主机列表软件清单主机规划安装部署服务安装修改配置创建数据库拷贝密钥文件创建同步账号拷贝文件keytab文件声明同步账户启动Kprop服务同步数据库添加自动同步任务启动从节点启动Kadmin服务测试添加测试账号停止主节点kdc服务登陆测试账号kadmin.local验证安装脚本主机列表主机名称IP硬件配置pass-eda-hdp-00110.218.12.1480 Core、256 Gpass-eda-hdp-00310.218.12.1880 Core、256原创 2022-05-19 14:40:00 · 1362 阅读 · 1 评论 -
hive Couldn‘t acquire the DB log notification lock because we reache
文章目录Couldn't acquire the DB log notification lock because we reached the maximu背景sql脚本报错解决参考问题描述后续背景原因分析解决第一种关闭自动分区发现(不推荐)第二种 修改external.table.purge参考Couldn’t acquire the DB log notification lock because we reached the maximu背景集群遇到了个问题,Hadoop 3版本的,有20个5原创 2022-05-19 14:38:36 · 817 阅读 · 0 评论 -
NAMENODE双活,数据不能写入
背景公司在黑龙江的集群用了7年,最近总是遇到namenode双活,数据无法写入问题。问题2022-03-28 11:02:38,318 INFO ipc.Server (Server.java:run(2172)) - IPC Server handler 49 on 8020, call org.apache.hadoop.hdfs.protocol.ClientProtocol.getBlockLocations from 136.192.59.173:43484 Call#4 Retry#3原创 2022-04-12 15:17:38 · 568 阅读 · 0 评论 -
原生spark-sql连接原生hive问题
报错22/02/22 10:24:20 INFO Client: Application report for application_1642757441712_0012 (state: FAILED)22/02/22 10:24:20 INFO Client: client token: N/A diagnostics: Application application_1642757441712_0012 failed 2 times due to AM Cont原创 2022-02-22 11:19:27 · 1718 阅读 · 0 评论 -
安装原生zookeeper报错Address unresolved: 10.19.32.30:3888
报错ERROR [main:QuorumPeerMain@98] - Invalid config, exiting abnormallyorg.apache.zookeeper.server.quorum.QuorumPeerConfig$ConfigException: Address unresolved: 10.19.32.30:3888 at org.apache.zookeeper.server.quorum.QuorumPeer$QuorumServer.<init&原创 2022-01-17 17:25:31 · 4314 阅读 · 7 评论 -
pyspark TypeError: ‘JavaPackage‘ object is not callable
pyspark 初始化报错问题Python 3.7.10 (default, Jun 4 2021, 14:48:32)[GCC 7.5.0] :: Anaconda, Inc. on linuxType "help", "copyright", "credits" or "license" for more information.Warning: Ignoring non-spark config property: history.server.spnego.keytab.file=/et原创 2021-12-29 18:04:37 · 6188 阅读 · 0 评论 -
shell 获取hive建表语句并修改orc格式为textfile格式
背景在hive中orc格式会自动将string类型的数据,hdfs文件加载成数据类型,就导致使用多表关联 jion on id = "11"时报错,或查询不出来结果,或者这外部表时造成表结构与实际数据类型不符。操作使用shell脚本获取建表语句,并创建一个相同结构的textfile格式的临时表,将数据导到临时表,删除原表,创建一个相同结构的textfile格式的原表,将临时表数据导回来,再删除临时表使用shell处理因为表太多,我将表名整理到a.out,使用shell及脚本去生成一个sql文件去执原创 2021-11-22 16:23:06 · 2021 阅读 · 0 评论 -
impala Datanode-side support for getVolumeBlockLocations() must also be enabled in the client config
Datanode-side support for getVolumeBlockLocations() must also be enabled in the client configurationHDFS 源码分析/** * Get block location information about a list of {@link HdfsBlockLocation}. * Used by {@link DistributedFileSystem#getFileBlockStorageLocat原创 2021-11-21 20:52:35 · 262 阅读 · 0 评论 -
clickhouse 在10亿医疗数据的应用
clickhouseshardshard_counts = node_counts - replica_counts + 1replica_counts 至少是2才有意义if nc=3 rc=2sc =2配置就有问题 所以 nc至少是4原创 2021-05-14 18:35:28 · 738 阅读 · 0 评论 -
Yarn ResourceManager GC overhead limit exceeded
Yarn ResourceManager GC overhead limit exceeded问题FATAL yarn.YarnUncaughtExceptionHandler (YarnUncaughtExceptionHandler.java:uncaughtException(51)) - Thread Thread[Timer for 'ResourceManager' metrics system,5,main] threw an Error. Shutting down now...ja原创 2020-09-07 15:35:17 · 278312 阅读 · 0 评论 -
使用keepalived 做Carbon Thrift Server HA
Carbon Thrift Server HACarbon Thrift Server先决条件启动keepalived安装编辑check_carbon.shkeepalived.conf配置主节点backup节点测试Carbon Thrift Server先决条件大数据集群环境spark 2.4.5carbondata2.0.1可参考HDP2.6.5更换spark版本为2.4.5 与carbondata2.0.1集成启动分别在两台机器上启动spark-submit --maste原创 2020-07-03 18:09:21 · 277761 阅读 · 0 评论 -
ambari-server HA
文章目录一、前言二、环境三、mysql主从配置四、同步配置文件五、实现脚本一、前言本篇文章主要讲解Ambari Server端的高可用搭建。注意,是Ambari的Server,而不是Hadoop集群的应用。截止目前为止(Ambari 2.7.x),hortonworks官方并没有给出AmbariServer的高可用的内部实现。二、环境这里我选用的纯离线安装方式,原因主要是受网络限制需要下载的依赖包:ambari-2.5.0.3-centos7.tar.gzHDP-2.6.5.0-centos7原创 2020-05-26 18:24:22 · 281592 阅读 · 2 评论 -
ansible 实现自动化部署ambari(纯离线)
文章目录一、业务场景二、选用技术三、准备四、服务器准备五、配置步骤1、配置网卡(所有节点)2、配置hosts映射(主节点)3、配置主节点到各个机器的ssh(主节点)4、安装ansible5、配置ansible的hosts(ansible使用的ip和定义主机组的映射)六、编写playbook七、附件-脚本1.closeTHP.sh2.modifyLimits.sh3.modifyNtpMaster.sh4.modifyNtpSlave.sh5.installJdk.sh6. closeSelinux.sh7.原创 2020-05-21 17:43:00 · 283542 阅读 · 4 评论 -
kafka topic 权限控制
kafka topic 权限控制kafka官网配置设置权限#查看权限./kafka-acls.sh --authorizer-properties zookeeper.connect=test01:2181,test02:2181,test03:2181 --list#添加权限./kafka-acls.sh --authorizer-properties zookeeper.co...原创 2020-04-20 12:42:05 · 288583 阅读 · 0 评论 -
Ambari 安装 Azkaban
Azkaban on Ambari原创 2020-02-06 17:13:56 · 283041 阅读 · 4 评论 -
Config inconsistency exists: unknown configType=kafka-broker
ambari卸载kafka 出现上述错误查看日志tail -100 /var/log/ambari-server/ambari-server.logERROR [ambari-client-thread-29533] HostImpl:1084 - Config inconsistency exists: unknown configType=kafka-broker问题梳理...原创 2020-01-10 13:27:45 · 282708 阅读 · 0 评论 -
mongodb 副文本搭建 启停 脚本 ——来自我的QQ空间
cid=pdmi ip1=192.168.1.170:27017 ip2=192.168.1.171:27017 ip3=192.168.1.172:27017 tar -zxvf mongodb-linux-x86_64-amazon-3.4.2.tgz -C /usr/local cd /usr/local/ mv /usr/...原创 2018-11-18 10:40:53 · 12909 阅读 · 0 评论 -
CDH安装脚本(可用但不完善不适小白)——来自我的QQ空间
#! /bin/bash 10.2.45.81 cdh1 10.2.45.82 cdh2 10.2.45.83 cdh3 echo -e "\033[32m =======close iptables ====== \033[0m" for client in $ALL_CLIENTS d...原创 2018-11-18 10:28:03 · 13042 阅读 · 1 评论 -
hdfs 之间 文件夹数据同步——来自我的QQ空间
hadoop distcp hdfs://pc1:8020/user/uar/receive/click/ (文件夹) hdfs://pc4:8020/user/uar/receive/click/(文件夹) 如果是同步文件,把文件夹换文件就好了 18/10/30 16:23:01 INFO tools.DistCp: Input Options: DistCpOption...原创 2018-11-18 10:24:27 · 13503 阅读 · 0 评论 -
hive 双分区外部表 复合数据结构处理 json list map互相嵌套
api="TopicHeatTrend"hadoop dfs -mkdir /jzytest/hive${api}/ hive -e 'create external table if not exists jzy'$api'json( distribute map<string,map<string,int>>, heatTrend array<struc...原创 2018-11-19 18:29:11 · 13626 阅读 · 0 评论 -
Hive 中的复合数据结构简介以及一些函数的用法说明
目录[-]一、map、struct、array 这3种的用法: 1、Array的使用 2、Map 的使用 3、Struct 的使用 4、数据组合 (不支持组合的复杂数据类型) 二、hive中的一些不常见函数的用法: 1、array_contains (Collection Functions) 2、get_json_object (Misc. Functions) 3、pars...转载 2018-11-19 18:10:22 · 2550 阅读 · 0 评论 -
curl 获取json数据 导入hive外部双分区表 解决科学计数法和特殊字符问题 ——首发
shell 脚本hadoop dfs -mkdir /jzytest/hivePublicOpinionList/#创建hive外部双分区表hive -e 'create external table if not exists jzyPublicOpinionListjson( channel string, publishTime string, source string...原创 2018-11-19 15:08:50 · 13714 阅读 · 0 评论 -
ES 6.2.4安装及head插件安装 —— 来自QQ空间
#!/bin/bash# 定义变量declare -A map=(["*"]="192.168.*" ["*"]="192.168.*"["*"]="192.168.*") hosts="["for key in ${!map[@]}do if [ "$hosts" == '[' ]原创 2018-11-16 18:05:59 · 9037 阅读 · 0 评论 -
正负面情感词(中文 来源微博)
负面:搥胸顿足哀哀切切 哀愁 哀怜 哀悯 哀戚 哀凄 哀切 哀伤 哀痛 哀痛欲绝 哀怨 哀恸 哀矜 傲视 懊恨 懊悔 懊恼 懊丧 百无聊赖 败兴 板脸 板面孔 板起脸 板着脸 板着面孔 半信半疑 包容 褒贬 睖睁 抱不平 抱憾 抱憾终身 抱恨 抱恨终生 抱恨终天 抱疚 抱愧 抱歉 抱怨 暴跳 暴跳如雷 杯弓蛇影...原创 2018-12-03 13:52:08 · 16025 阅读 · 1 评论 -
ambari HDP 删除卸载脚本(可用需要修改)
cat del.ship_array=("10x.30.5.180" "10x.30.5.181" "10x.30.5.182" "10x.30.5.183" "10x.30.5.184" "10x.30.5.185" "10x.30.5.186" "10x.30.5.187" "10x.30.5.188" "10x.3原创 2018-12-05 16:56:11 · 13564 阅读 · 0 评论 -
org.apache.hadoop.hive.serde2.SerDeException: java.io.IOException: Start of Array expected
建表语句api="TodayHot"hadoop dfs -mkdir /jzytest/hive${api}/ hive -e 'create external table if not exists jzy'$api'json( category string, description string, hotUrl string, addrlocal string, med...原创 2018-12-03 16:53:59 · 16130 阅读 · 0 评论 -
ambari2.7.3 安装 impala
1.下载ambari-impala-serviceVERSION=`hdp-select status hadoop-client | sed 's/hadoop-client - \([0-9]\.[0-9]\).*/\1/'`sudo git clone https://github.com/cas-bigdatalab/ambari-impala-service.git /var/l...原创 2019-05-22 16:56:49 · 286718 阅读 · 16 评论 -
关于CDH 因jdk更换导致hue cloudera-scm-server无法正常使用
更换正确的jdk官网推荐在/usr/java/jdk-<version>启动cloudera-scm-server 没有任何报错查看日志sudo tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log没有任何信息。一天都没搞定,原因就是同时更换了jdk没有告诉我我只想用hue 也是这个问题导致报错...原创 2019-04-03 15:49:37 · 281865 阅读 · 0 评论 -
本地IDEA中使用Spark SQL 连接服务器Hive
1. 复制hive-site.xml将Spark-Home/conf目录下的hive-site.xml复制到IDEA工程的resource目录下2. 修改入口Spark 2.x版本将SparkContext和HiveContext整合起来,统一使用SparkSession作为连接入口。所以建立连接需要使用如下代码val conf = new SparkConf()conf.setAp...原创 2019-02-19 16:46:43 · 285656 阅读 · 0 评论 -
Spark on Hive:入门
Spark on Hive:入门版本兼容性 spark安装 配置YARN 配置Hive 配置属性详细信息 配置Spark 调整细节 常见问题(绿色已解决,将从此列表中删除) 推荐配置 设计文件 Hive on Spark为Hive提供了利用Apache Spark作为其执行引擎的能力。<span style="color:#172b4d">设置...翻译 2019-01-08 15:06:40 · 671 阅读 · 0 评论 -
使用HDFS fsck api在页面上快速查找文件
目的因业务需求需要查找hfds上不合规的文件因无法登陆客户的服务器,但提供了vpn 可以访问hdfs50070端口使用fsck api即可访问url : http://1x.x.x.x:50070/fsck?ugi=hadoop&path=/hotyuqi/hivePublicOpinionList&files=1ugi后面跟的是参数,path是要查询的路径,fil...原创 2018-12-11 10:33:40 · 13618 阅读 · 0 评论 -
HDFS,HBASE部分优化——基于大数据的全球能源信息系统
HDFS优化 DataNode打开最大文件数配置 操作场景一个HDFS Datanode同时打开的文件数量是有上限的,该上限是通过参数dfs.datanode.max.transfer.threads设置的,默认值为4096。根据集群的数据量和操作相应调高此值。操作步骤参数入口:在Ambari系统中,选择“服务 > HDFS > 配置”,通过过滤框搜索相应的参数配置...原创 2018-12-10 15:18:47 · 13333 阅读 · 0 评论 -
使用hive客户端的hdfs权限认证org.apache.hadoop.security.AccessControlException: Permission denied: user=root...
原因:hdfs上没有root用户,也没有对应的文件夹/user/root会默认以root身份去将作业写入hdfs文件系统中,对应的也就是 HDFS 上的/user/xxx , 我的为/user/root, 由于 root用户对hdfs目录并没有写入权限,所以导致异常的发生。而hdfs才有权限创建/user/root解决方法:1、第一种在hdfs的配置文件中,将dfs.permi...原创 2018-12-14 15:52:30 · 33630 阅读 · 2 评论 -
MongoDB WARNING: soft rlimits too low. rlimits set to 4096 processes, 65536 files.
[root@pc1 bin]# ./mongoMongoDB shell version v4.0.4connecting to: mongodb://127.0.0.1:27017Implicit session: session { "id" : UUID("5047276c-0682-464d-9bc0-4fa82ebbe63a") }MongoDB server version: ...原创 2018-12-03 18:07:10 · 16852 阅读 · 0 评论