- 博客(526)
- 收藏
- 关注

原创 【Flink metric(2)】chunjun的metric系统是怎么设计的:如何注册metric、如何同步metric
【Flink-源码分析】chunjun的metric系统是怎么设计的:如何注册metric、如何同步metric
2024-06-24 22:50:22
1115

原创 【Flink metric(1)】Flink指标系统的系统性知识:获取metric以及注册自己的metric
【Flink metric】Flink指标系统的系统性知识:以便我们实现特性化数据的指标监控与分析
2024-06-23 22:39:31
2088
1

原创 【源码分析】chunjun实现flink sql连接器的顶层思想:通过实现InputFormatSourceFunction来串起flink sql 连接器的生命周期
【源码分析】chunjun实现flink sql连接器的顶层思想:通过实现InputFormatSourceFunction来串起flink sql 连接器的生命周期
2024-06-23 22:15:00
1097

原创 【源码分析】一个flink job的sql到底是如何执行的(一):flink sql底层是如何调用connector实现物理执行计划的
【源码分析】一个flink job的sql到底是如何执行的(一):flink sql底层是如何调用connector实现物理执行计划的
2024-01-11 23:12:46
1823

原创 【深度学习】hello tensorflow:安装TensorFlow(on mac m3)、tensorflow集成到idea、第一个tensorflow程序(以及tf2适配版本tf1)
【机器学习】hello tensorflow:安装TensorFlow(on mac m3)、tensorflow集成到idea、第一个tensorflow程序(以及tf2适配版本tf1)
2023-12-15 13:39:30
2745
5

原创 【源码解析】flink sql执行源码概述:flink sql执行过程中有哪些阶段,这些阶段的源码大概位置在哪里
本文大致分析了flink sql执行过程中的各个阶段的源码逻辑,这样可以在flink sql执行过程中, 能够定位到任务执行的某个阶段的代码大概分布在哪里,为更针对性的分析此阶段的细节逻辑打下基础,比如create 的逻辑是怎么执行的,select的逻辑是怎么生成的,优化逻辑都做了哪些,而这些是接下来的文章要分析的。
2023-12-13 23:20:18
2303
1

原创 【性能调优】【离线任务】flink处理离线任务(8000个小文件?200多亿数据量?)稳定性与性能调优探索
【性能调优】【离线任务】flink处理离线任务(8000个小文件?200多亿数据量?)稳定性与性能调优
2023-01-09 23:43:41
2179

原创 【性能|优化】TB级flink任务报错分析:Could not compute the container Resource
【性能|优化】TB级flink任务报错分析:Could not compute the container Resource
2022-11-29 00:29:17
2109
2

原创 【shuffle/内存模型】spark(七)超详细mareduce shuffle和spark Shuffle讲解、以及spark比mapreduce快在哪些方面
【shuffle/内存模型】超详细mareduce shuffle和spark Shuffle讲解、以及spark比mapreduce快在哪些方面
2022-09-30 23:06:36
1665

原创 【修改源码】hadoop 3.3.1 failed with status code 401 Response message: Authentication required
本文主要通过修改源码解决hadoop内部通讯鉴权的问题。
2022-09-19 16:00:07
1682
4

原创 【运维/安装】Flink + MinIO:实现light-weighting思路下的集群(集群、高可用&&POC、快速搭建)
本文通过使用flink+MinIO安装实现flink standalone的集群模式,实现“轻量化集群”flink集群本身作为计算资源,去执行flink jobMinio 用于存储Flink job产生checkpoint和savepoint、以及存储flink HA的一些信息,也就是作为分布式存储系统。
2022-09-14 21:23:55
6010
19

原创 【分析思路】hadoop 3.3.1 bug修复:failed with status code 401 Response message: Authentication required
为了支持国产化,hadoop需要安装3.3.1版本,而客户这边需要安全认证,所以对于hadoop需要做的事是升级到3.3.1版本、支持HA模式、安全认证。本文关注hadoop升级过程、启动中出现的401权限问题。
2022-09-05 21:37:18
1474
原创 【机器学习实战【七】】机器学习特征选定与评估
本文介绍了四种主流特征选择方法及其应用场景:1)单变量特征选择(SelectKBest)通过统计检验筛选与目标最相关的特征;2)递归特征消除(RFE)通过迭代训练模型逐步剔除不重要特征;3)主成分分析(PCA)通过线性变换降维保留最大方差方向;4)特征重要性基于树模型或置换法评估特征贡献。文章详细阐述了卡方检验和F检验的原理差异,并通过代码示例展示了SelectKBest和RFE的具体实现流程,强调特征工程对机器学习效果的决定性作用。
2025-07-17 18:04:17
582
原创 【机器学习【6】】数据理解:数据导入、数据审查与数据可视化方法论
本文系统介绍了机器学习数据准备的关键技术和方法。首先详细对比了三种数据导入方式,指出Pandas在类型推断、缺失值处理等方面的优势。然后提出"六维数据画像"方法,从数据结构、质量、目标变量等维度进行全面分析。最后通过五种可视化技术(直方图、箱线图等)揭示数据分布特征和异常模式,为后续算法选择提供依据。文章强调数据理解应遵循"从宏观到微观"的认知规律,并展示了如何将数据特征映射到合适的算法选择,构建了完整的数据分析决策链条。
2025-07-16 22:35:31
1251
原创 【机器学习基础【5】】Python数据科学三件套:从数据创建到处理再到可视化实战
【机器学习基础【5】】Python数据科学三件套:从数据创建到处理再到可视化实战
2025-07-16 00:07:43
375
原创 【Python虚拟环境【一】】PyCharm虚拟环境配置:不同虚拟环境的配置策略
如果你的项目涉及NumPy、Pandas、Jupyter等科学计算工具,Conda能提供预编译的优化版本,避免编译问题。对于学习Python或快速原型开发,Virtualenv的简洁性是优势,配置简单,不会引入额外复杂性。虚拟环境告诉PyCharm这个项目需要什么版本的Python,安装了哪些库。Conda环境的配置相对复杂,因为它管理的不仅是Python包,还有。系统中安装了多个Python版本,PyCharm选择了错误的版本。Poetry的配置相对自动化,PyCharm会自动识别项目中的。
2025-07-15 00:31:01
873
原创 【学习线路】机器学习线路概述与内容关键点说明
通过数据驱动让计算机自动学习规律,无需显式编程(Arthur Samuel)。核心公式:程序通过经验(E)提升任务(T)性能(P)(Tom Mitchell)。
2025-07-03 23:45:27
1157
原创 【Weaviate底层】Weaviate写数据之两阶段提交:cannot reach enough replicas的判断
【Weaviate底层】Weaviate写数据之两阶段提交:cannot reach enough replicas的判断
2025-06-22 13:06:06
846
原创 【Weaviate源码】数据写入之:LSM树Flush机制:从内存到磁盘的原子转换
【Weaviate源码】数据写入之:LSM树Flush机制:从内存到磁盘的原子转换
2025-06-22 12:33:25
898
原创 【Weaviate底层机制】分布式一致性深度解析:Raft算法与最终一致性的协同设计
【Weaviate底层机制】分布式一致性深度解析:Raft算法与最终一致性的协同设计
2025-06-21 23:31:36
936
原创 【Flink实战】 Flink SQL 中处理字符串 `‘NULL‘` 并转换为 `BIGINT`
【Flink实战】 Flink SQL 中处理字符串 `'NULL'` 并转换为 `BIGINT`
2025-06-20 21:52:54
397
原创 【系统设计【1】】系统设计面试方法论:从0到百万用户的需求到架构的推演
从简到繁:先实现最小可行架构,再逐步解决扩展性问题数据驱动:根据流量模型(如读多写少)选择合适的技术方案问题拆解:将复杂系统分解为可独立设计的模块权衡意识:任何设计都是Trade-off,需明确优先级演进思维:架构不是一蹴而就的,需考虑未来3-5年的扩展空间通过结构化的思考方法、清晰的表达逻辑以及对系统演进的深入理解,技术人才能够在系统设计面试中脱颖而出,展现从工程师到架构师的思维跃迁。参考:《搞定系统设计》
2025-06-11 23:13:27
1303
原创 【Go语言基础【16】】结构体:方法接受者、组合(代码复用)、内存对齐、json序列化
【Go语言基础【16】】结构体:方法接受者、组合(代码复用)、内存对齐、json序列化
2025-06-08 15:37:03
918
flink on yarn 模式下,flink 1.12.5版本运行所需完整lib包
2022-08-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人