曾阿伦-优快云博客

例如门牌 1017 需要依次粘贴字符 1、0、1、7，即需要 1 个字符 0，2 个字符 1，1 个字符 7。小蓝制作门牌的方法是先制作 0 到 9 这几个数字字符，最后根据需要将字符粘贴到门牌上，请问要制作所有的 1 到 2020 号门牌，总共需要多少个字符 2？这条街一共有 2020 位住户，门牌号从 1 到 2020 编号。小蓝要为一条街的住户制作门牌号。【题目来自算法技能树】

2023-12-15 17:30:52 188

原创基础算法编程-大衍数列

中国古代文献中，曾记载过“大衍数列”, 主要用于解释中国传统文化中的太极衍生原理。它的前几项是：0、2、4、8、12、18、24、32、40、50 …其规律是：对偶数项，是序号平方再除2，奇数项，是序号平方减1再除2。打印出了大衍数列的前 100 项。【题目来自算法技能树】

2023-12-15 14:51:12 236

原创基础算法编程-切面条

如果连续对折2次，中间切一刀，可以得到5根面条。那么，连续对折10次，中间切一刀，会得到多少面条呢？如果先对折1次，中间切一刀，可以得到3根面条。一根高筋拉面，中间切一刀，可以得到2根面条。【题目来自算法技能树】

2023-12-15 14:47:36 282

模拟集群中hadoop2数据节点故障（datanode节点数量应该大于dfs.replication设置的文件块复制数，否则在删减datanode时不会成功，一直处于Decommission in process的状态）模拟hadoop集群中其中一台datanode数据节点宕机故障，验证是否影响文件系统和hbase的使用？模拟hadoop集群中其中一台datanode数据节点硬盘故障，验证是否影响文件系统和hbase的使用？（此方法有点类似第一种）集群中其中一台datanode数据节点硬盘故障。

2023-12-08 10:55:06 454

原创 rsync的核心算法：实现高效同步的秘密

rsync凭借其高效的同步算法Rsync算法，成为了许多系统管理员和开发人员的首选工具。通过只传输文件的差异部分、进行文件完整性校验以及支持增量同步等特性，rsync大大提高了文件同步的效率和可靠性。无论是在日常的系统维护中还是在开发过程中，rsync都是一个强大而实用的工具。

2023-12-08 10:31:19 534

原创单节点hadoop搭建

编辑文件etc/hadoop/hadoop-env.sh配置JAVA_HOME。添加配置etc/hadoop/hdfs-site.xml文件。添加配置etc/hadoop/mapred-site.xml。配置etc/hadoop/core-site.xml文件。添加配置etc/hadoop/yarn-site.xml。

2023-12-08 10:26:41 312

原创敏捷管理宣言与12原则

敏捷管理宣言（Agile Manifesto）是敏捷管理领域的核心价值观和原则的总结，它为组织和个人提供了指导，以实现更高效、更灵活和更具适应性的工作方式。原则是敏捷方法论的基础，指导团队在项目中如何更好地进行协作、管理变更、持续改进，以及提升软件开发的效率和效果。

2023-12-06 17:25:45 383

原创 rsync高效文件传输工具

【代码】rsync高效文件传输工具。

2023-12-06 17:10:51 242

原创 Windows下python多环境管理(poetry)安装配置

可以 poetry shell 进入虚拟环境后用 pip 安装报错的包。

2023-11-27 16:39:50 2413 2

原创 sparkrdd写入avro报空指针异常排查解决详细步骤

avro格式不允许值为null，为null的数据可以设置默认值如空字符串，但是有时候几百个字段可能有一两个可能从输入就是null，导致很难一下从众多代码中一下排查出来，日志就成了快速排除的利器。下面记录一次详细的排查步骤。从上面的日志可以看出写入的数据中的map中有一个value是null,但是并没有提示是哪个key的value，这需要自己遍历map排查。步骤三：选择一个executor的stderr日志进去，找到输出的日志。这个日志是不会在yarn的stderr中显示的，查看日志的步骤如下，

2023-08-03 19:20:34 312

原创 HUE集成apach hadoop

如果集群使用MR1提交job则配置mapred_clusters，否则配置yarn_clusters（MR2），二者选其一。fs_defaultfs=hdfs://hadoop01:9000 #对应core-site.xml。#对应yarn-site.xml中的 yarn.resourcemanager.webapp.addres。--------------------------- 启动-----------------submit_to=False #标明不使用MR1提交job。

2023-07-10 09:10:46 142

原创 HUE集成

需要同时启动hive的metastore和hiveserve2。

2023-07-10 09:09:54 122

原创 HUE编译部署

缺少依赖：yum install gcc libffi-devel python-devel openssl-devel。编译过程中可能会出现错误，基本都是依赖安装的不到位，根据错误提示重新安装相应依赖即可。secret_key=allenzhang #任意值，越复杂越好，用来加密用的。原因是 /opt/hue/desktop/desktop.db 只有读权限。原因是包含desktop.db的文件夹对hue用户也是只能读不能写的。启动报错# build/env/bin/supervisor。

2023-07-10 09:08:42 209

原创 pandas DataFrame通过字段值快捷的刷选所在行的方法

如果要筛选多个条件的数据，可以使用逻辑运算符 &（与）、|（或）和 ~（非）进行组合。注意，如果DataFrame非常大，则需要使用更高效的方法来处理数据，如使用查询（query）方法或使用NumPy的布尔索引技术。2、使用DataFrame的loc方法选择要筛选的列，并将筛选条件作为布尔表达式传递给该方法。如果要选择特定列中具有特定值的行，可以使用isin()方法.例如需要name为b和f的行。筛选多个条件，可以使用括号将每个条件括起来，并使用逻辑运算符（如&和|）组合起来。

2023-07-07 15:54:21 185

原创 hdp2.5升级phoenix版本为4.8+

升级其他版本亦可用如下的操作方式。23、将修改后的/usr/hdp/2.5.0.0-1245/phoenix拷贝到其他所有节点中/usr/hdp/2.5.0.0-1245目录下。4、解压tar -zxvf apache-phoenix-4.8.2-HBase-1.2-bin.tar.gz。15、将上级目录以phoenix-pherf-4.8.2-HBase-1.1开头的jar包拷贝到当前目录。6、修改apache-phoenix-4.8.2-HBase-1.2-bin目录名为phoenix。

2023-06-01 10:06:04 232

原创 spark rdd写入es索引报错

Caused by: org.elasticsearch.hadoop.EsHadoopException: Could not write all entries for bulk operation [370/370]. Error sample (first [5] error messages):org.elasticsearch.hadoop.rest.EsHadoopRemoteException: mapper_parsing_exception: failed to parse field

2023-05-30 18:52:30 551

原创 python读取csv文件报错

Traceback (most recent call last): File "D:\pywork\ZT_DataTeamMember\zhanglh\python\knowledge_base\esi_rank.py", line 82, in csv_2_mdb(mdbPath) File "D:\pywork\ZT_DataTeamMember\zhanglh\python\knowledge_base\esi_rank.py", line 69, in csv_2

2023-05-23 19:18:01 1347

原创 python依赖包管理及打包工具poetry

Poetry 是 Python 中用于依赖管理和打包的工具。它允许您声明项目所依赖的库，并将为您管理（安装/更新）它们。Poetry 提供了一个锁文件来确保可重复安装，并且可以构建您的项目以进行分发。需要python3.7+

2023-05-23 11:31:32 1033

原创 hbase集群部分异常问题解决

连不上zookeeper，查看zookeeper的日志文件有报too many connections from host - max is 10 的错误，因为hbase连接zookeeper的连接数太多，默认zookeeper给每个客户端IP使用的连接数为10个，目前每个regionserver有三百个region，stop zookeeper修改zoo.cfg：maxClientCnxns=300，重启zookeeper。就是有节点的标识可能重复。3).还有可能是防火墙的限制集群间的互相通信。

2023-05-23 09:24:44 800

空空如也

空空如也