自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 范式建模和维度建模

范式建模是一种数据建模方法,旨在减少数据冗余和提高数据一致性。它遵循一系列的范式规则,通常从第一范式(1NF)开始,逐步达到第三范式(3NF)甚至更高。维度建模是一种数据建模方法,主要用于数据仓库和商业智能系统。它将数据分为事实表(Fact Tables)和维度表(Dimension Tables),以便于进行多维分析和查询。范式建模目标:减少数据冗余,提高数据一致性。适用场景:OLTP系统,实时交易处理。特点:规范化程度高,数据冗余少,但查询可能较复杂。维度建模目标:简化查询,支持多维分析。

2025-03-14 23:40:20 515

原创 pom文件编写基础

POM(Project Object Model)是Maven项目的核心配置文件,位于项目的根目录下,名为pom.xml。它包含了项目的元数据、依赖关系、构建配置等信息。

2025-03-12 22:35:38 834

原创 正则表达式入门

正则表达式(Regular Expression,简称regex、regexp或RE)是一种强大的文本处理工具,用于描述、匹配和操作字符串模式。它广泛应用于文本搜索、替换、表单验证等多个领域。本教程将帮助你入门并使用正则表达式。

2025-03-11 11:03:28 364

原创 scala针对复杂数据源导入与分隔符乱码处理

如,无固定格式的日志文件(如 Apache 日志)。2.4 流式数据(Kafka)导入 MySQL。JSON 数据跨越多行,标准解析器无法识别。2.3 复杂 XML 导入 MySQL。三、多格式文件导入 MySQL 方案。深层嵌套的 XML 结构解析困难。2.1 CSV 导入 MySQL。2.2 json导入mysql。2. 各格式文件导入示例。1. 多行 JSON。

2025-03-11 10:24:28 292

原创 sparkML入门,通俗解释机器学习的框架和算法

1. 确定目标 | 想做什么菜(红烧肉/沙拉) | 明确任务 (分类/回归/聚类)分类 判断邮件是垃圾邮件吗?| 逻辑回归、决策树 | 垃圾分类(干/湿/有害)回归 预测房价 | 线性回归、随机森林回归 | 根据经验估算装修费用。3. 设计食谱 | 决定烹饪步骤和调料 | 选择算法和模型设计。2. 准备食材 | 买菜、洗菜、切菜 | 数据收集与预处理。4. 试做并尝味道 | 调整火候和调味 | 模型训练与调参。5. 最终成品 | 端上桌的菜 | 模型部署与应用。

2025-03-09 23:19:40 1330

原创 Spark数据倾斜的原因

**原理**:通过给 Key 添加随机前缀,将倾斜的 Key 分散到多个分区。- **原理**:将小表广播到所有 Executor,避免 Shuffle 操作。- **原理**:将倾斜的 Key 单独处理,避免影响其他 Key。- **原理**:通过增加分区数,将数据分散到更多分区中。- **适用场景**:GroupBy、Join 等操作。适用场景:大表和小表 Join 时,小表数据量较小。- **适用场景**:某些 Key 数据量特别大。- **适用场景**:数据倾斜不严重时。

2025-03-08 15:37:48 372

原创 sparkML 回归算法案例

trainingSummary.residuals.show() 显示每个样本的残差(实际值 - 预测值)。·trainingSummary.objectiveHistory 返回每次迭代的目标函数值(损失函数值)。·trainingSummary.totalIterations 返回模型训练的实际迭代次数。·fit(training) 使用训练数据 training 训练线性回归模型。·setMaxIter(10) 设置模型训练的最大迭代次数为 10。如果模型在 10 次迭代内未收敛,训练将停止。

2025-03-08 11:15:04 610

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除