
大数据
文章平均质量分 64
Lion...
攒点C币不容易
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HDFS, DataNode数据扫描
序HDFS数据文件由blocks组成, 每个块复制为3份 (默认副本数3)存储在不同的DataNode每个block对应1个数据文件(blk_xxx) 和1个元文件(blk_xxx.meta), 元文件记录数据文件的校验信息, 用于验证数据文件的完整性DataNode通过block reports向NameNode报告块的状态ll current/finalized/subdir111/subdir111/总用量 152-rw-r--r-- 1 hdfs hadoop 52888 9月 29原创 2022-05-26 09:49:33 · 476 阅读 · 0 评论 -
HDFS, NameNode堆内存计算
1. 问题NameNode Heap size配置多大合适?2. 分析2.1. 前提以后标准引用自cloudera ( Sizing NameNode Heap Memory | 5.16.x | Cloudera Documentation), 供参考, 准确性请自行考究In HDFS, data and metadata are decoupled. Data files are split into block files that are stored, and replicated,原创 2022-05-25 10:06:48 · 1175 阅读 · 0 评论 -
HDFS, 配置项清单
1 数据存储dfs.namenode.name.dirfsimage和edits存储目录Determines where on the local filesystem the DFS name node should store the name table(fsimage). If this is a comma-delimited list of directories then the name table is replicated in all of the directories, f原创 2022-05-18 09:46:06 · 932 阅读 · 0 评论 -
ambari2.6, HDP集群删除
1 问题工作中往往因为一些魔幻操作, 导致HDP集群部署失败, 与其解决一个个奇怪的问题, 不如卸载重装但是ambari UI页面不支持删除HDP集群, 如何操作呢?2 分析既然ambari不支持删除, 那就手动删除 (程序干的活, 无非是把人的行为有序的排列, 并一一执行)删除HDP集群需要考虑如下几点停止HDP组件服务清除ambari配置卸载HDP组件rpm包 (根据hdp版本号匹配)删除HDP组件目录 (日志/var/log, 运行/var/run, 配置/etc, 库/var/l原创 2022-04-24 13:47:55 · 3224 阅读 · 0 评论 -
ambari2.6 blueprint, HA集群
1 问题生产环境大数据集群一般采用多节点HA形式, 确保高可用那么通过blueprint如何实现多节点HA的部署呢?2 分析HA本质还是在指定主机上部署规划组件创建HA, 需要知道组件对应的服务名称, 如HDFS组件(NameNode, JOURNALNODE, ZKFC)同时添加组件HA配置不知道如何配置时, 可以先通过UI部署HA集群, 再使用API接口GET /api/v1/clusters/<集群名称>?format=blueprint导出集群信息, 保留必要的配置项原创 2022-04-24 11:24:11 · 2341 阅读 · 0 评论 -
ambari2.6 blueprint, 创建单节点集群
1 blueprint介绍blueprint通过API方式实现集群的部署, 相较于可视化部署, 可以轻松实现静默安装, 进一步简化部署步骤Ambari Blueprints provide an API to perform cluster installations.You can build a reusable “blueprint” that defines which Stack to use, how Service Components should be laid out acros原创 2022-04-22 17:29:56 · 2547 阅读 · 0 评论 -
Hadoop 3.X, 纠删码
1. 问题HDFS 2.X默认使用3副本, 造成200%的磁盘消耗, 以及带宽消耗纠删码(Erasure Coding)技术, 在保障数据容灾性的同时, 减少数据的的膨胀Replication is expensive – the default 3x replication scheme in HDFS has 200% overhead in storage space and other resources (e.g., network bandwidth). However, for war原创 2022-03-28 09:31:42 · 554 阅读 · 0 评论 -
hive, count统计与列表不一致
1. 问题同一张表, 单独查询字段时有数据, 但是使用count查询显示02. 分析count查询走的是hive元数据, 找到hive元数据库的partition_params表, 查看numFiles, numRows, rawDataSize等属性3. 方案同步元数据统计信息analyze table <table_name> COMPUTE STATISTICS;...原创 2022-03-24 11:58:01 · 2665 阅读 · 0 评论 -
hive/beeline, 关闭console日志
1. 需求执行hive/beeline时, 控制台输出日志太多, 影响输出结果查看, 如何关闭控制台日志呢?2. 方案2.1. 关闭操作日志hive.server2.logging.operation.enabled设置为false2.2. 调整日志级别可直接修改hive-site.xml文件的hive.server2.logging.operation.level属性, 永久生效也可以通过命令参数临时修改hive --hiveconf hive.server2.logging.operat原创 2022-03-24 11:44:51 · 5836 阅读 · 0 评论 -
Kafka 0.10, 清空数据
1 问题如何清空kafka数据?文中配置项的含义, 请参考: Kafka 0.10, 配置项清单_Lion…的博客-优快云博客2 对策2.1 方案一(饥饿法)默认情况下, kafka旧数据保留期限为一周所以, 如果一周内不向topic写入数据, 数据会全部清空缺点:一周太久, 等不起2.2 方案二(重生法)设置delete.topic.enable=true手动删除topic, 然后重建缺点:需要修改kafka集群配置, 并重启2.3 方案三(最优法)设置topi原创 2022-02-24 16:36:54 · 1757 阅读 · 0 评论 -
Kafka 0.10, 配置项清单
kafka完整配置项, 请参阅官网: kafka doc1 broker级配置通过配置文件server.properties修改zookeeper.connect, zk连接信息advertised.listeners, broker监听auto.create.topics.enable, 允许自动创建topic, 默认值truecompression.type, topic数据压缩方式 (gzip, snappy, lz4), 默认值producer, 表示压缩方式与生产者.原创 2022-02-17 15:38:53 · 1107 阅读 · 0 评论 -
Yarn日志 - Log Aggregation
1. 概述大数据任务的日志,首先保存于本地,但本地存储能力有限,且检索时需要切不同服务器,不够方便Yarn Log Aggregation的主要功能,是将本地日志移动到HDFS或者云存储日志的重要性错误定位历史分析2. 聚合开关yarn.log-aggregation-enable,yarn日志聚合功能开关true表示开启3. 存储路径3.1. 本地存储yarn.nodemanager.local-dirs,本地化文件存储目录,如JAR包、配置文件,参考值/hado原创 2022-01-19 17:08:50 · 4524 阅读 · 0 评论 -
本地测试Spark任务
1. 背景在Linux下安装Ambari或者CDH并不复杂,但考虑到环境的维护、组件(尤其是Spark)版本的变更,以及测试数据的污染等因素,希望有一种解决方案能减弱这些困扰。之所以选择本地执行:环境独享,不被他人干扰使用Jmockit,实现局部自定义改造结合Testng,方便单元测试用例编写与执行甚至可以通过Intellij IDEA实现代码调试2. 环境搭建2.1 POM文件在Intellij IDEA创建新的Maven Project,并配置pom.xml<depende原创 2022-01-07 09:10:54 · 926 阅读 · 0 评论 -
Elasticsearch非停机状态下线节点
对于集群的扩容, 我们得心应手; 但遇到需要缩减集群时, 就有点难受节点的数据如何迁移 (虽然有复本, 但不同索引的复本数不同, 且复本数限制了下线的节点数量)下线节点, 业务程序相应的配置项也要考虑修改下线节点可能还涉及到discovery.zen.minimum_master_nodes, discovery.zen.ping.unicast.hosts等参数调整如果保证正在使用es的业务程序不出错1. exclude api类似于HDFS的exclude操作, elasticsearc原创 2022-01-07 09:09:21 · 730 阅读 · 0 评论 -
HDFS 磁盘写及balance
1. HDFS写策略第一复本写本地, 第二复本写其他机架, 第三复本写其他机架的不同节点目的: 尽可能地容灾, 不仅防止单台机器宕机, 也防止整个机架异常; 同时保证写的速度 (本地更快)The class is responsible for choosing the desired number of targets for placing block replicas.The replica placement strategy is that if the writer is on a d原创 2022-01-07 09:08:51 · 546 阅读 · 0 评论 -
Kerberos,安装
1. 安装kerberos基于client-server模式, 所以每台服务器都需要安装client, server挑一台服务器即可yum -y install krb5-server krb5-libs krb5-workstation配置文件/etc/krb5.conf/var/kerberos/krb5kdc/kdc.conf/var/kerberos/krb5kdc/kadm5.acl2. 配置krb5.confvi /etc/krb5.conf kerberos可以原创 2022-01-07 09:01:08 · 1542 阅读 · 0 评论 -
Kerberos,初识
1. 问题在使用大数据组件时, 会遇到一些奇怪的问题1.1 HDFS: Failed to find any Kerberos tgt1.2 Kafka: Could not login…asked for a password1.3 Yarn: cannot perform operation MODIFY_APP on application…1.4 Hive: No valid credentials provided…2. Kerberos介绍它的形象是地狱三头犬, 在希腊神话原创 2022-01-07 09:00:26 · 291 阅读 · 0 评论