
数据湖
文章平均质量分 82
大数据领域相关组件使用,数据入湖,数据湖分层,数据查询以及机器学习和人工智能算法等
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
贾斯汀玛尔斯
点赞、收藏加关注,追fun不迷路
展开
-
Hadoop 3.x中的zookeeper和JournalNode的作用
在Hadoop 3.x版本中,和的作用有所变化和增强,尤其是在HDFS高可用性(HA)架构和其他Hadoop组件的协作方面。继续在Hadoop 3.x中为集群提供协调服务,尤其是在HDFS的高可用性和YARN资源管理器的管理中,保证了集群节点之间的一致性和故障切换的顺利进行。主要用于为HDFS提供高可用性支持,确保NameNode的操作日志可以高效、可靠地同步和存储,使得在NameNode发生故障时,Standby NameNode能够快速恢复并接管工作。原创 2025-03-20 18:33:31 · 131 阅读 · 0 评论 -
调研报告:Hadoop 3.x Ozone 全景解析
Hadoop 3.x 中的 Ozone 以其全新的对象存储设计和分布式架构,从根本上解决了传统 HDFS 在处理海量小文件、元数据瓶颈以及云原生环境下的诸多问题。通过引入分布式 OM、容器化存储、数据副本与纠删编码机制,Ozone 不仅实现了高性能、高可用与可扩展性,而且在运维管理、安全性和生态集成方面展现出极大优势。面对未来数据量持续攀升及多样化应用场景的挑战,Ozone 正在不断优化自身设计,并与云原生技术、智能运维手段深度融合,为大数据存储和处理开辟出一条全新的发展路径。原创 2025-03-20 16:24:24 · 159 阅读 · 0 评论 -
机器学习之距离度量方法
机器学习值度量方法原创 2025-03-13 15:45:59 · 610 阅读 · 0 评论 -
Apache Hudi 性能测试报告
针对亿级数据量,对比 Bulk Insert 和 Upsert 两种写入方式,使用不同索引方式,对COW 和 MOR写入效率表类型写入类型索引类型是否排序是否去重适用数据量适用场景高MOR/COWNNN>1 亿一次性全量入库,但需其他组件保证数据唯一较高MOR/COWBucketYY<5 亿批量入库一般MORUpsertBucketNY<1 亿流式增量入库一般MOR/COWBucketNY<5 亿批量入库较低MORUpsert。原创 2025-03-11 16:51:19 · 536 阅读 · 0 评论 -
datax-coud部署
datax-cloud的web部署原创 2025-03-11 15:11:24 · 244 阅读 · 0 评论 -
ollama的docker 使用教程
通过 Docker,你可以快速而简洁地运行和管理 `Ollama` 容器化的 AI 模型。无论是开发、测试,还是生产环境,Docker 提供了隔离、灵活的环境来高效地部署 `Ollama` 模型。原创 2025-02-19 15:28:50 · 366 阅读 · 0 评论 -
ollama操作命令
Ollama 提供了一个强大而简单的命令行工具来管理和运行 AI 模型。通过这些命令,你可以轻松地安装、启动、停止、删除模型,或者与模型进行交互。根据你的需求,可以根据具体命令来执行各种任务。原创 2025-02-19 15:24:04 · 237 阅读 · 0 评论 -
语言大模型qwen2.5的理解与分析
Qwen 2.5的发布,也显示出阿里巴巴在人工智能、尤其是大语言模型领域的强大实力。它的应用不仅限于基础的自然语言处理,还可以在商业、教育、娱乐等多个领域提供解决方案。原创 2025-02-11 15:06:24 · 161 阅读 · 0 评论 -
es的join是什么数据类型
`join` 数据类型用于在同一个索引中建立父子文档之间的关系,允许你在一个索引内表示层级结构或关联关系。通过 `join` 字段,你可以定义不同类型的文档(如父文档和子文档),并指定它们之间的关系。原创 2024-12-11 14:52:58 · 301 阅读 · 0 评论 -
在Elasticsearch (ES) 中,integer 和 integer_range的区别
在Elasticsearch (ES) 中,integer和是两种不同的字段类型,它们用于存储和查询不同类型的数据。integergtelteinteger如果你只需要存储和查询单个整数值,应该使用integer类型。而如果你需要表示和查询整数范围,则应选择类型。在Elasticsearch (ES) 中创建和索引integer和类型的字段,你需要首先定义一个映射(mapping),然后使用这个映射来创建索引,并最终向索引中添加文档。原创 2024-12-11 14:49:47 · 740 阅读 · 0 评论 -
es有string类型字段吗
虽然旧版本的 Elasticsearch 可能仍然支持 `string` 类型,但强烈建议使用 `text` 和 `keyword` 类型来替代 `string`,以获得更好的性能和更清晰的数据模型。原创 2024-12-11 14:46:39 · 277 阅读 · 0 评论 -
机器学习之量子机器学习(Quantum Machine Learning, QML)
量子机器学习(Quantum Machine Learning, 简称 QML)是一门结合了量子计算和机器学习的前沿学科,它利用量子计算的特性(如量子叠加、量子纠缠和量子并行性)来解决机器学习中的复杂问题或加速传统算法的计算过程。QML 有潜力在大规模数据处理、优化和建模领域实现突破。原创 2024-11-21 15:05:45 · 694 阅读 · 0 评论 -
为什么hbase在大数据领域渐渐消失
HBase 在过去为大数据存储提供了可靠的分布式解决方案,但随着数据处理需求的多样化和复杂化,企业在实时查询、多模型支持、易用性和维护成本等方面有了更高的要求。HBase 的运维复杂性和实时性限制使其在应对新兴业务需求上略显不足,逐渐被性能更优、支持更丰富的数据模型和 SQL 查询的新型数据库替代。因此,HBase 的使用逐渐减少,但在一些特定的批处理、历史数据归档和结构化数据存储场景中,HBase 仍然具有优势和应用价值。原创 2024-11-14 14:02:16 · 536 阅读 · 0 评论 -
Apache Paimon、Apache Hudi、Apache Iceberg对比分析
开源数据湖产品对比原创 2024-11-14 14:00:28 · 937 阅读 · 0 评论 -
hbase未来的发展趋势
HBase 未来的发展趋势将围绕 **高性能、云原生、支持实时和多模型处理** 以及 **智能化运维** 进行拓展和优化。通过增强与云服务、AI、边缘计算、事务支持和数据安全等方面的结合,HBase 将会更加适应多样化的数据处理场景。原创 2024-11-14 13:57:23 · 669 阅读 · 0 评论 -
redis和mongodb等对比分析
选择 redis 还是 MongoDB取决于具体的使用场景和需求。如果需要高速缓存、低延迟,选择 Redis;如果需要存储大规模的文档数据并执行复杂的查询,MongoDB 会是更好的选择。原创 2024-11-13 13:53:13 · 460 阅读 · 0 评论 -
kv数据库
KV 数据库是一种非常简单高效的数据库类型,适合于高性能、低延迟的数据存储和快速检索。它广泛应用于缓存、会话存储和配置管理等场景。虽然 KV 数据库提供了很高的读写性能,但它不适合进行复杂查询操作,因此在需要复杂查询或事务支持的场景下,可能需要考虑其他类型的数据库。原创 2024-11-13 13:51:52 · 266 阅读 · 0 评论 -
flink sql + kafka + mysql 如何构建实时数仓
Kafka:作为流数据平台,负责接收和传输来自不同源系统(如应用日志、传感器数据、交易系统等)的数据。Flink SQL:使用 Apache Flink 提供的 SQL 引擎进行流式数据处理、转换、聚合和窗口计算等操作。Flink SQL 使得实时数据流的处理变得更简单。MySQL:作为下游持久化存储,存储数据仓库的结构化数据,并支持实时查询和分析。通过 Kafka 实现 ODS、DWD 和 DWS 分层架构,每一层都通过 Kafka 作为数据传输管道,利用 Flink SQL 进行数据处理。原创 2024-11-13 12:02:36 · 1082 阅读 · 0 评论 -
seatunnel常用集群操作命令
SeaTunnel Engine 提供了一个命令行工具,用于管理 SeaTunnel Engine 的作业。您可以使用命令行工具提交、停止、暂停、恢复、删除作业,查看作业状态和监控指标等。原创 2024-11-12 14:36:15 · 279 阅读 · 0 评论 -
解决seatunnel集群脑裂
SeaTunnel Engine 是一个由社区开发的用于数据同步场景的引擎,作为 SeaTunnel 的默认引擎,它支持高吞吐量、低延迟和强一致性的数据同步作业操作,更快、更稳定、更节省资源且易于使用。原创 2024-11-12 14:33:17 · 515 阅读 · 0 评论 -
DataX任务:同步mysql数据到Elasticsearch,且Elasticsearch索引带有分词器
在使用 DataX 将 MySQL 数据同步到 Elasticsearch 时,可以为目标 Elasticsearch 索引配置 IK 分词器和拼音分词器,从而支持更丰富的查询需求,比如全文搜索和拼音模糊搜索。原创 2024-11-08 16:54:35 · 418 阅读 · 0 评论 -
Elasticsearch的数据类型
Elasticsearch的数据类型原创 2024-11-08 16:47:10 · 1215 阅读 · 0 评论 -
mysql之批量修改表名前缀
批量修改表名前缀原创 2024-11-07 10:59:38 · 353 阅读 · 0 评论 -
mysql批量生成修改数据库中字段类型的语句
批量修改数据库字段类型原创 2024-11-07 10:51:44 · 197 阅读 · 0 评论 -
sql之count()函数解析
COUNT(*):统计所有行。COUNT(column_name):统计某列的非 NULL 值。COUNT(DISTINCT column_name):统计某列中不重复的非 NULL 值。原创 2024-11-07 10:34:02 · 537 阅读 · 0 评论 -
监控工具之Prometheus与Zabbix和Nagios对比分析
Prometheus、Zabbix 和 Nagios 是三种广泛使用的监控工具,它们在监控方法、架构设计、扩展性和使用场景等方面存在明显差异。下面对这三者进行详细的对比分析,帮助你更好地选择适合的工具。原创 2024-10-12 10:28:19 · 530 阅读 · 0 评论 -
systemd实现seatunnel自动化启停
通过创建一个 `systemd` 服务单元文件,我们可以轻松管理 SeaTunnel 进程的启动和自动重启。如果 SeaTunnel 进程因任何原因崩溃或退出,systemd 将按照配置自动重新启动它。这种自动重启机制对于生产环境中确保 SeaTunnel 的高可用性非常有用。原创 2024-10-12 10:21:55 · 590 阅读 · 0 评论 -
实时数据湖paimon 维表点查
维表点查是数据查询中的一种操作方法,主要用于从维度表中快速获取特定行的数据。原创 2024-09-12 15:23:21 · 187 阅读 · 0 评论 -
大数据开发:可视化组件Redash安装部署
Redash 是一个开源的数据可视化和仪表盘平台,主要用于帮助团队更轻松地查询、可视化和分享数据。它支持与多种数据源的集成,如 SQL 数据库、NoSQL 数据库、API 等,用户可以通过简单的 SQL 查询来获取数据,并将结果以图表和仪表盘的形式展示。原创 2024-09-06 17:12:31 · 472 阅读 · 0 评论 -
数据分析中的上钻、下钻、切片和切块
上钻”、“下钻”、“切片”、“切块”是数据分析和数据展示中的常见概念,尤其是在处理多维数据或数据仓库时。原创 2024-08-27 16:42:42 · 1187 阅读 · 0 评论 -
apache huidi 时间旅行Time Travel)机制
Apache Hudi 的时间旅行功能主要依赖于提交日志、基础文件与增量日志的结合,以及通过合并与压缩来管理数据的多个版本。索引机制则进一步提高了查询的效率。通过这些机制,Hudi 能够实现高效的时间旅行查询,允许用户访问数据的历史版本。原创 2024-08-15 14:20:35 · 621 阅读 · 0 评论 -
mysql存储过程原理及实现
MySQL 存储过程是数据库管理系统中一种非常有用的工具,允许你在服务器端编写和存储一组 SQL 语句,以便在需要时调用。存储过程不仅能封装业务逻辑,还能减少客户端与服务器之间的交互次数,从而提高性能。原创 2024-08-09 16:31:31 · 377 阅读 · 0 评论 -
mysql主键自增原理
MySQL 中的主键自增(Auto Increment)是一种用于在插入新记录时自动生成唯一标识符(即主键)的机制。自增字段通常用于唯一标识表中的每一行记录,尤其在主键列中非常常见。原创 2024-08-09 16:27:28 · 537 阅读 · 0 评论 -
如何判断机器学习模型的好坏之正则化
L1、L2正则化和弹性网络各有其适用的场景和优缺点,选择时需要结合数据特征和实际需求进行权衡。通过合理使用正则化技术,可以有效提高模型的泛化能力,避免过拟合。原创 2024-08-05 14:30:17 · 353 阅读 · 0 评论 -
如何判断机器学习模型的好坏之LIME和SHAP
LIME(Local Interpretable Model-agnostic Explanations)和SHAP(SHapley Additive exPlanations)是两种广泛使用的模型可解释性技术,旨在帮助理解复杂机器学习模型的决策过程。原创 2024-08-05 14:24:27 · 314 阅读 · 0 评论 -
如何判断机器学习模型的好坏之留出法
留出法(Holdout Method)是一种简单且常用的模型评估方法,通过将数据集随机划分为两个互斥的子集——训练集和测试集,分别用于模型训练和性能评估。留出法的基本思想是用训练集来拟合模型,用测试集来评估模型的泛化能力。原创 2024-08-05 14:24:14 · 96 阅读 · 0 评论 -
如何判断机器学习模型的好坏之交叉验证
交叉验证(Cross-Validation)是一种评估模型性能的统计方法,尤其适用于样本量较小或数据集不均衡的情况。通过交叉验证,可以有效地利用所有数据,避免过拟合或欠拟合。原创 2024-08-05 14:24:05 · 124 阅读 · 0 评论 -
如何判断机器学习模型的好坏之回归模型
将数据集分为多个子集,轮流使用每个子集作为验证集,其余子集作为训练集,以评估模型的性能。均方误差是预测值与实际值之间差值的平方和的平均数,用于衡量模型预测的平均误差。平均绝对百分比误差是预测值与实际值之间差值的绝对值占实际值的比例的平均数。将数据集随机分为训练集和测试集,使用训练集训练模型,使用测试集评估模型性能。残差是实际值与预测值之间的差值,通过分析残差的分布,可以诊断模型的拟合情况。均方根误差是均方误差的平方根,保持了与原始数据相同的单位。平均绝对误差是预测值与实际值之间差值的绝对值的平均数。原创 2024-08-05 14:23:57 · 99 阅读 · 0 评论 -
如何判断机器学习模型的好坏之分类模型
判断机器学习模型的好坏通常通过多种指标和方法,这些方法可以分为模型性能评估、模型稳定性和模型可解释性等方面。原创 2024-08-05 14:23:50 · 119 阅读 · 0 评论 -
mysql中的二进制数据类型
在MySQL中,二进制数据类型用于存储二进制数据,例如图片、音频、视频文件等。MySQL提供了几种不同的二进制数据类型,每种类型适用于不同的用途。原创 2024-07-12 14:26:00 · 237 阅读 · 0 评论