- 博客(8)
- 收藏
- 关注
原创 python离线安装依赖库-matplotlib
#windows环境离线安装python版本3.6.5##下载地址https://pypi.org/##离线安装方式pip install xxx.whl##安装matplotlib-3.3.4安装过程和所需其他依赖(base) D:\develop\pylib-package>pip install matplotlib-3.3.4-cp36-cp36m-win_amd64.whlProcessing d:\develop\pylib-package\matplotlib-3.3.
2022-07-18 11:32:29
3043
1
转载 logistics实现信用卡反欺诈案例-基础实践(转载)
《Python数据分析与机器学习实战-唐宇迪》读书笔记第6章–逻辑回归项目实战 ——信用卡欺诈检测https://www.cnblogs.com/downmoon/p/12654324.html引用如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,继续你的创作。...
2020-09-08 18:51:31
215
原创 生产测试kafkaMirrorMaker同步效率
生产测试kafkaMirrorMaker同步效率背景:由于需要跨机房迁移kafka集群,进行数据同步的效率测试kafka版本源端和目的端同为0.9版本kafka环境准备目的端搭建测试kafka单节点一台机器配置信息:CPU=8;内存=15GMIRRORMAKER消费者参数配置vi mirror-consumer.propertieszookeeper.connect=...
2020-04-30 10:40:35
800
4
转载 CDH版本HBase生产环境Memstore刷写配置
CDH版本HBase生产环境Memstore刷写配置参数说明Memstore级别:Region中任意一个MemStore达到了 hbase.hregion.memstore.flush.size控制的上限(默认128MB),会触发Memstore的flush。Region级别:Region中Memstore大小之和达到了hbase.hregion.memstore.block.mul...
2020-04-20 16:14:58
497
原创 spark解决数据倾斜,shuffle优化的几种方案(链接)
spark解决数据倾斜,shuffle优化的几种方案https://www.jianshu.com/p/6a8c3ee72285
2020-01-15 15:05:34
202
1
原创 spark任务java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE
crash:“Caused by: java.lang.RuntimeException: java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE”这是 spark 的一个经典错误,很有可能就是 shuffle 的时候有太大的 key 或 value 造成的(当然,此 crash 也有可能涉及 序列化、反序列化、cac...
2019-12-27 17:11:21
3549
原创 通过unclean.leader.election解决offset out off range
通过unclean.leader.election配置解决offset out off rangekafka集群突然有一个broker退出查看日志报如下内容ERROR [ReplicaFetcherThread-3-4], Current offset 3381428 for partition [cmsps,4] out of range; reset offset to 3501150...
2019-12-05 17:01:35
460
原创 解决cdh中HDFS检查点状态不良问题
web界面不良信息: 文件系统检查点已有 13天,23 小时,59分钟。占配置检查点期限 1 小时的 3,860.33%。 临界阈值:400.00%。 自上个文件系统检查点以来已发生 ***个事务。查看secondnamenode日志 ; 我们可以看到出现两个不同的clusterID查看nn和snn的current目录下的version文件 ;namenode所在主机version...
2019-10-14 11:36:33
4319
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人