- 博客(456)
- 资源 (31)
- 收藏
- 关注
原创 Greenplum6.19集群搭建
1、本次采用的是4台机器组成的集群:1台机器是master节点,1台机器是standby节点(这个节点相当于master的备用节点),2台机器是segment节点。2、集群的ip和hostname如下(都是虚拟机环境):192.168.0.31 mdw(master节点)192.168.0.32 smdw (standby节点)192.168.0.33 sdw1 (segment节点)192.168.0.34 sdw2 (segment节点)
2025-03-06 11:13:23
1094
翻译 Hive Transactions (Hive 事务)
ACID代表了数据库事务的四个特征:原子性(一个操作要么完全成功,要么失败,绝不会留下部分数据) 、一致性(一旦应用程序执行了一个操作,该操作的结果在它以后的每个操作中都是可见的)、隔离性(一个用户未完成的操作不会对其他用户造成意外影响),以及持久性(一旦一个操作完成,它将保持下来,即便面对机器故障或系统故障)。一直以来,这些特性被认为是数据库系统事务功能的一部分。截止到 0.13,Hive都只提供分区级别的原子性、一致性和持久性。可以通过打开一种可用的锁机制(Zookeeper或内存)来提供隔离性。
2023-12-18 19:16:00
546
原创 Flume采集埋点数据
(3)./configure --without-http_redis2_module --with-http_iconv_module #选择需要的插件启用, --with-Components 激活组件,–without 则是禁止组件。(6)export PATH=$PATH:/usr/local/openresty/nginx/sbin/ #加入的内容。修改配置文件/opt/bi/flume/apache-flume-1.9.0-bin/conf。local mess='链接过期'
2023-12-14 15:32:04
820
原创 Flume自定义拦截器解决数据零点漂移问题
在大数据业务采集场景中,经常会通过Flume把Kafka中的数据落地到HDFS进行持久保存和数据计算。为了数据计算和运维方便,通常会把每天的数据在HDFS通过天分区独立存储。在数据落入HDFS 天分区目录的过程中,会出现数据跨天存储的问题,本来是2023年11月30日的数据,结果存储到了2023年12月1日的目录。这就是数据漂移。下面就来分析一下数据漂移产生的原因和解决办法。2.
2023-12-01 10:20:10
922
原创 重置mariadb数据库密码
开启ha的txsql和kundb类似,my.cnf文件地址和登录数据库命令不同。所以在以下两种情况时会报数据库密码错误的问题,需要重置manager数据库的密码。
2023-08-13 08:15:31
1146
原创 大量删除hdfs历史文件导致全部DataNode心跳汇报超时为死亡状态问题解决
【调整active的NN堆内存大小重启并刷新节点】于是猜想是不是现在active的NN的堆内存不足了,导致大量的rpc请求被阻塞,于是尝试调大active的NN的堆内存大小,停止可能影响NN性能的JobHistoryServer、Balancer和自身的agent监控服务,重启,重启后发现active的DN节点列表已恢复正常,但是stanby的DN节点列表还都是dead,尝试再次刷新节点,发现有刷新成功和刷新失败的rpc连接重置的日志,观察节点列表仍然还不能恢复正常。
2023-08-07 16:14:11
1285
原创 jdk1.7与jdk1.8中String.split()方法问题
split切割字符串的坑,会有索引越界的风险。在jdk1.7中,同样的代码。在sql中结果也不同。
2023-08-07 15:58:36
362
原创 重启namenode速度慢,耗时很久加载fsimage问题解决办法
用户的操作是一个事务,每个操作NN都要先将操作记录到edits log中,如果给NN指定了多个目录,则在多个目录中都存在edits log文件,用户的操作要在多个目录中都写完成,才让NN同步数据到内存中。NameNode在内存中有文件系统的元数据,当edits log记录结束后,就更新内存中的元数据。-rw-r--r-- 1 root root 42 10月 9 14:49 edits_0000000000000000048-0000000000000000049。
2023-05-04 20:11:10
1182
1
原创 数据开发常见问题
登录集群的Master节点,详情请参见登录集群。进入配置模板的目录。本示例以HUE为例:HUE表示服务的目录。4.4.0.3.1为Hue的版本。hue.ini为配置文件。执行以下命令,添加您需要的配置。当配置项已存在时,您可以根据时间情况修改参数值。在E-MapReduce控制台,重启服务以生效配置。
2023-05-04 20:06:55
1506
原创 K8S常见异常事件与解决方案
比如容器的内存限制值配置了1Gi,而容器的内存随着容器内进程内存使用量的增加超过了1Gi,就会导致容器被操作系统Cgroup Kill。发生容器被Kill之后,容器已经被停止,所以后续会出现应用实例被重启的情况。集群中的coredns组件发生重启(重新创建),一般是由于coredns组件压力较大导致oom,请检查业务是否异常,是否存在应用容器无法解析域名的异常。检查应用进程内存配置,如Java的jvm参数,对比应用监控-基础监控中的内存指标,判断是否是参数设置低导致进程内存不够用,适当进行参数优化。
2023-05-04 20:00:48
3172
原创 Hbase 性能问题排查思路
③rs节点是否存在GC情况,可以jstat gcutil或使用grep -i “JvmPause” | grep WARN 查看对应时间段的gc情况。①对应表是否正常,hbase hbck检查,是否存在RIT或inconsitencies ,如有用dstools修复。⑤提前预分region,一般一个region 5-10G最佳,若数据量较大,考虑使用bulkload方式(插入)②是否存在读写热点,可去60010界面查看对应表的region分布情况和rs的请求是否均匀。
2023-04-14 22:00:15
255
原创 Nvidia GPU 驱动部署指南
如果之前已经安装过nvidia驱动,并且驱动已经在使用中,下面在启动安装程序时会报错(驱动正在使用),需要在执行完 nvidia-uninstall 后重启系统,再部署NVIDIA驱动。操作系统可能自带了与 NVIDIA 驱动冲突的 nouveau 驱动,需要提前禁用相关模块。安装过程(根据提示选择下一步)
2023-04-14 21:47:27
997
原创 节点 Not Ready 排查思路
b. kubelet日志报错:Unable to register node "" with API server: nodes "" is forbidden:failed to create node due to license error: (1)license节点数不够,tdc环境中,需要license的节点数>=实际节点数*apiserver个数, 重新申请个节点数大于等于后者个数的license eg:SLA-7216。
2023-04-14 21:43:05
844
原创 Harbor-registry 使用 NFS 做后端存储实现高可用
TOS 集群默认会有 3 个 master,拷贝上面 registry.manitest 到第二台 master 节点的 /opt/kubernetes/manifests-multi/ 目录下。待 harbor-registry 正常启动后,手动通过 docker push 命令把相关 images 上传到 harbor 镜像仓库。通过原来的 registry manifest 文件可以发现,原有 registry 相关镜像都存在 /registry-data 目录下。保存配置后,重启 NFS 服务。
2023-04-14 21:40:31
288
原创 kubelet 证书过期问题
如果想要调整证书有效期可以通过设置 kube-controller-manager 的 --experimental-cluster-signing-duration 参数实现,该参数默认值为。此时执行 openssl x509 -in /var/lib/kubelet/pki/kubelet-server-current.pem -noout -text | grep ‘Not' 查看kubelet证书时间。没有在重启kubelet服务之前删除/var/lib/kubelet/pki。
2023-04-14 21:38:41
975
原创 TOS etcd ca 及相关证书续签
续签 ca 证书需要对应的 ca-key 文件,默认环境部署完成 etcd-ca.key 及 transwarp-warpdrive-ca-key.pem 会不存在,需要从安装包拷贝 gencerts 目录,没有安装包的可以从本文最后下载,上传到第一台 master 节点上,后续续签及生成证书的操作默认都在第一台 master 节点。到此 etcd-ca.pem 证书续期完毕,此时依赖于 etcd-ca.pem 的其他证书(etcd.pem)的有效期即为使用 openssl 命令查看的有效期。
2023-04-14 21:33:35
660
原创 TOS warpdrive ca 及相关证书续签
续签 ca 证书需要对应的 ca-key 文件,默认环境部署完成 etcd-ca.key 及 transwarp-warpdrive-ca-key.pem 会不存在,需要从安装包拷贝 gencerts 目录,没有安装包的可以从本文最后下载,上传到第一台 master 节点上,后续续签及生成证书的操作默认都在第一台 master 节点。transwarp-warpdrive 证书每个节点只需要填写自己节点的 hostname,所以集群有多少节点,transwarp-warpdrive 证书就需要生成多少次。
2023-04-14 21:32:38
286
原创 TOS 证书续签[WIP]
续签 ca 证书需要对应的 ca-key 文件,默认环境部署完成 etcd-ca.key 及 transwarp-warpdrive-ca-key.pem 会不存在,需要从安装包拷贝 gencerts 目录,没有安装包的可以从本文最后下载,上传到第一台 master 节点上,后续续签及生成证书的操作默认都在第一台 master 节点。到此 etcd-ca.pem 证书续期完毕,此时依赖于 etcd-ca.pem 的其他证书(etcd.pem)的有效期即为使用 openssl 命令查看的有效期。
2023-04-14 21:31:36
177
原创 TCOS 3.0以及之前版本如何通过iptables设置安全规则
但是由于代码不完善。存在一些考虑不到的点,如会定期全局刷新整个iptables filter表。导致我们此时额外添加的iptables 端口安全防护规则都被刷新掉了。有的时候客户使用安全扫描工具对平台进行端口安全扫描,需要对部分特殊的端口做安全防护,此时,我们可以使用iptables规则来设置规则到到端口安全防护的效果。我们一般设置的安全规则都是习惯设置的iptables filter表中。由于上述规则是临时添加上去的,重启节点会被刷新掉。可以不使用filter表来做安全规则加固。
2023-04-14 21:30:30
78
原创 TCOS 安装包替换 zk licence
因 tdh 的 zk licence 是3个月过期,每隔 3 个月就需要重新申请下 licence,目前 tdh licence 存在于 TCOS 安装包,三个月打包一次 TCOS 安装包不现实,所以准备此文档,可以在部署之前手动替换 licence。2. 上传 tdh licence 到 TCOS 安装包同一节点,手动替换,替换 licence 路径。1. 上传 TCOS 安装包到节点的对应目录,然后解压。3. 开始按安装文档 安装 TCOS 集群。适用版本:TCOS2.x 及之前版本。
2023-04-14 21:29:08
85
原创 TOS 3.0.x master 节点迁移(WIP)
本文讲解在特殊情况下需要把 TOS 集群的 master 节点迁移到其他节点的过程,因过程较为琐碎,暂时将全部通过手动的方式操作。
2023-04-14 21:28:31
125
原创 集群超配设置
若是想要配置超配,使用 kubectl edit cm ratio -n kube-system 编辑 ratio 的 data 域对应参数项的值,如下所示,除了 cpu,memory,还有 tosdisk,tosdisk-pv,这 2 个参数项是 warpdrive 相关的,其中 tosdisk 表示临时存储超配,tosdisk-pv 表示 pvc 超配。ratio 配置完成后,还需要通过修改 venus-controller-manager 和 warpdrive 的配置才能开启对应的超配。
2023-04-14 21:27:36
126
原创 K8s 组件启动参数整理
tcos3.2.0 版本之前在集群节点异常后 30min 才会对异常节点上的 pod 开始驱逐,当集群一节点真的异常,比如宕机时,这种情况对异常节点上的应用影响就很大了,针对这种情况,tcos3.2.0 版本进行了优化,修改这个超时时间为 5min,当在出现节点异常时,5min 后就开始进行 pod 的驱逐。net.ipv4.tcp_max_syn_backlog = 1024 #表示SYN队列的长度,默认为1024,加大队列长度为8192,可以容纳更多等待连接的网络连接数。
2023-04-14 21:23:05
457
原创 0.98 HBASE集群修复
脚本监控hbase hbck -details,发现现在有2000多个inconsistence, region状态不一致.这样的情况会影响到查询以及集群的稳定性.问题原因:在merge region中存在空region ,hbase本身并没有修复,所以去hdfs上找到对应的region 目录观察是否都为空.四,使用dstools 在线修复(不要整体关闭HBASE集群) runDstools.sh 表名,依次单张表修复.最终修复成功,最后 整体执行 hbase hbck -一,确认HDFS上表数据存在.
2023-03-26 10:34:14
150
原创 Kafka3.x生产调优手册
100 万日活,每人每天 100 条日志,每天总共的日志条数是 100 万 * 100 条 = 1 亿条。1 亿/24 小时/60 分/60 秒 = 1150 条/每秒钟。每条日志大小:0.5k - 2k(取 1k)。1150 条/每秒钟 * 1k ≈ 1m/s。高峰期每秒钟:1150 条 * 20 倍 = 23000 条。每秒多少数据量:20MB/s。
2023-03-21 20:28:56
124
转载 Elasticsearch调优
es的默认配置是一个非常合理的默认配置,绝大多数情况下是不需要修改的,如果不理解某项配置的含义,没有经过验证就贸然修改默认配置,可能造成严重的后果。比如max_result_window这个设置,默认值是1W,这个设置是分页数据每页最大返回的数据量,冒然修改为较大值会导致OOM。ES没有银弹,不可能通过修改某个配置从而大幅提升ES的性能,通常出厂配置里大部分设置已经是最优配置,只有少数和具体的业务相关的设置,事先无法给出最好的默认配置,这些可能是需要我们手动去设置的。
2023-03-17 22:18:03
1768
原创 solr开发文档
由于搜索引擎功能在门户社区中对提高用户体验有着重在门户社区中涉及大量需要搜索引擎的功能需求,目前在实现搜索引擎的方案上有集中方案可供选择:基于以述的几种方案的综合分析,对于我们公司的搜索引擎方案,采用solr来实现比较合适。Apache Solr 是一个开源的搜索服务器,Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现。定制 Solr 索引的实现方法很简单,用 POST 方法向 Solr 服务器发送一个描述所有 Field 及其内容的 XML 文档就可以了。定制搜
2023-03-13 22:30:46
828
原创 MongoDB手册
{ "_id" : ObjectId("56064886ade2f21f36b03134"), "title" : "MongoDB 教程", "description" : "MongoDB 是一个 Nosql 数据库", "by" : "菜鸟教程", "url" : "http://www.runoob.com", "tags" : [ "mongodb", "database", "NoSQL" ], "likes" : 100 }
2023-03-02 20:48:37
1714
原创 Hadoop参数汇总
默认实现是 org.apache.hadoop.security.JniBasedUnixGroupsMappingWithFallback, 若是JNI有效,它将发挥做用,使用Hadoop的API去获取user的groups列表。在有些场景下,特别是对一些大的,而且不可能重用的数据,缓存在操做系统的缓存区是无用的。可使用8进制数字也可使用符号,例如:"022" (8进制,等同于以符号表示的u=rwx,g=r-x,o=r-x),或者"u=rwx,g=rwx,o="(符号法,等同于8进制的007)。
2023-03-01 21:46:44
1005
1
原创 离线分析HDFS的FsImage查找集群小文件
统计中有两个重要参数parent_id和instr(path,'/',1,2)这两个参数主要表示指定统计的HDFS目录以及目录钻取深度,instr()函数中的最后一个参数即为目录钻取深度(如果为parent_id=1为根目录“/”,钻取深度则为2,即根目录下所有的数据目录,需要钻取根深的目录则依次递增)。如下统计方式主要基于Hive库和表的统计分析,统计Hive中所有库存的数据文件数、Block数量、文件总大小(bytes)及平均文件大小(bytes)。2.使用hdfs oiv命令解析FsImage文件。
2023-03-01 20:21:41
485
原创 Hadoop调优思路
HDFS 上每个文件都要在 NameNode 上创建对应的元数据,这个元数据的大小约为 150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用 NameNode 的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。这里我们发现所有的文件块都是存储在 DISK,按照理论一个副本存储在 RAM_DISK,其他副本存储在 DISK 中,这是因为,我们还需要配置“dfs.datanode.max.locked.memory”,“dfs.block.size”参数。
2023-02-28 21:43:40
1274
原创 sqoop job
sqoop job可以将执行的语句变成一个job,并不是在创建语句的时候执行,你可以查看该job,可以任何时候执行该job,也可以删除job,这样就方便我们进行任务的调度。将sqoop.metastore.client.record.password参数的注释去掉 或者再添加一下。发现当我们执行hdfs_job的时候,需要输入数据库的密码,怎么样能不输入密码呢?# 执行job 会提示输入mysql root用户密码。配置sqoop-site.xml即可解决。
2023-02-25 20:35:28
216
原创 Dockerfile详解
如果我们在Dockerfile种同时写了ENTRYPOINT和CMD,并且CMD指令不是一个完整的可执行命令,那么CMD指定的内容将会作为ENTRYPOINT的参数。如果我们在Dockerfile种同时写了ENTRYPOINT和CMD,并且CMD是一个完整的指令,那么它们两个会互相覆盖,谁在最后谁生效。3.Dockerfile中一定要惜字如金,能写到一行的指令,一定要写到一行,原因是分层构建,联合挂载这个特性。容器使用的是AUFS,这种文件系统不能持久化数据,当容器关闭后,所有的更改都会丢失。
2023-02-22 22:19:12
505
转载 k8s功能
KubeSphere 是国内一家青云(QingCloud)公司在 Kubernetes 之上构建的面向云原生应用的容器混合云,支持多云与多集群管理,提供全栈的 IT 自动化运维的能力,简化企业的 DevOps 工作流。KubeSphere 旨在解决 Kubernetes 在构建、部署、管理和可观测性等方面的痛点,提供全面的服务和自动化的应用供应、伸缩和管理,让研发更专注于代码编写。云控制器管理器允许您链接集群到云提供商的应用编程接口中, 并把和该云平台交互的组件与只和您的集群交互的组件分离开。
2023-02-21 22:06:23
373
转载 docker CIG
cAdvisor 是一个运行中的守护进程用来收集、聚合、处理和导出运行容器相关的信息,每个容器保持独立的参数、历史资源使用情况和完整的资源使用数据。grafana是用于可视化大型测量数据的开源程序,他提供了强大和优雅的方式去创建、共享、浏览数据。grafana有热插拔控制面板和可扩展的数据源,目前已经支持Graphite、InfluxDB、OpenTSDB、Elasticsearch。grafana最常用于因特网基础设施和应用分析,但在其他领域也有机会用到,比如:工业传感器、家庭自动化、过程控制等等。
2023-02-21 21:58:36
149
转载 RocketMQ
DLedger是一套基于Raft协议的分布式日志存储组件,部署 RocketMQ 时可以根据需要选择使用DLeger来替换原生的副本存储机制。本文档主要介绍如何快速构建和部署基于 DLedger 的可以自动容灾切换的 RocketMQ 集群。对RocketMQ的Topic资源访问权限控制定义主要如下表所示,分为以下四种权限含义DENY拒绝ANYPUB 或者 SUB 权限PUB发送权限SUB订阅权限字段取值含义全局IP白名单accessKey字符串Access Key。
2023-02-20 22:05:04
821
hadoop-eclipse-plugin
2017-10-23
hadoop_dll_winutil_2.7.1.zip
2017-10-20
机器学习实战
2017-10-11
python基础教程
2017-10-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人