- 博客(237)
- 收藏
- 关注
原创 DataX 抽取 MySQL 数据教程
通过本教程,你已经学会了如何使用 DataX 从 MySQL 数据库中抽取数据,并将结果输出到控制台。DataX 支持多种数据源和目标,你可以根据需要配置不同的 reader 和 writer 来实现更复杂的数据同步任务。如果你有任何问题或需要进一步的帮助,请参考DataX 官方文档或在社区中寻求帮助。
2025-02-23 16:55:01
674
原创 Spark + HBase 大数据处理实战(下):性能优化篇
我们的目标是从 MySQL 数据库中提取大量数据(约3亿条记录),并根据特定规则计算每个客户的商品限购数量,最终将结果存储到 HBase 数据库中。为了实现这一目标,我们经历了三次重要的性能优化。
2024-11-26 23:03:42
724
原创 Spark + HBase 大数据实战指南(上)
针对上述挑战,项目团队决定采用 HBase 作为存储解决方案,利用其优秀的列式存储特性来应对大规模数据存储的需求;同时,采用 Spark 作为数据处理框架,借助其强大的分布式计算能力加速数据处理流程。通过以上介绍,我们已经详细探讨了如何利用 Spark 和 HBase 解决大规模数据处理的问题。希望本篇文章能够为您提供有价值的参考和启示,如果您有任何疑问或建议,欢迎随时交流讨论。1、目前星球内,环境一键安装教程文章、主流大数据组件专栏、模拟面试小程序、企业级课程内训、求职辅导等内容已经非常丰富。
2024-11-26 22:56:59
830
原创 MongoDB 快速入门教程:高效数据管理和查询
通过本文的学习,你已经掌握了 MongoDB 的基本操作,包括数据的增删改查、流式聚合操作、复制集和分片集群的配置、数据备份与恢复以及访问控制的设置。希望本文的内容能够帮助你在实际项目中更好地应用 MongoDB。如果你有任何问题或需要进一步的帮助,请随时提问。关注gzh【数舟】回复【群聊】加入数舟大型网友交流群,可获取大数据免费课程内容,以及后续全部文章PDF版本资料,与大家一起探索沟通大数据相关技术知识。
2024-11-25 21:30:16
446
原创 Python编程快速上手 — 处理Excel电子表格
Python的openpyxl模块为Excel自动化提供了强大的支持。通过本文的介绍和案例,读者应该能够掌握基本的Excel文档操作技巧,并能够将其应用到实际工作中,实现办公自动化。关注gzh【数舟】回复【群聊】加入数舟大型网友交流群,可获取大数据免费课程内容,以及后续全部文章PDF版本资料,与大家一起探索沟通数据相关技术知识。
2024-11-25 21:24:24
773
原创 Spark 自定义聚合函数实战:多维度数据分析
引言项目背景技术栈示例数据生成生成示例数据将数据写入 Kafka实现方案数据读取与预处理自定义聚合函数数据聚合与结果输出总结接下来,我们将定义一个自定义聚合函数MyAgg2,该函数将处理inputCol字段中的数据,计算出多个统计指标。// 输入数据类型// 中间结果数据类型// 输出数据类型// 初始化中间结果// 初始化所有统计指标// 更新中间结果buffer.update(0, value) // 更新最小值。
2024-11-25 21:16:57
437
原创 Linux 常用命令大汇总
在日常的运维、开发或测试工作中,掌握 Linux 常用命令是必不可少的技能。本文将详细介绍 Linux 中的常用命令,包括文件目录操作、用户管理、权限管理、磁盘管理等,帮助读者熟悉并掌握这些基本操作。
2024-11-19 23:29:56
1063
原创 解决 HBase Shell 启动时的 ServerNotRunningYetException 错误
在使用 HBase 时,可能会遇到启动 HBase Shell 并尝试列出表时出现的错误。本文将介绍如何通过修改配置文件来解决这个问题,确保 HBase 2.4.3 与 Hadoop 3.3.0 的兼容性。
2024-11-13 22:56:48
579
原创 Flink CDC(SQL Client)连接 MySQL 数据库教程
这篇文章将指导如何使用 Flink CDC 连接到 MySQL 数据库,并捕获数据变更。
2024-11-12 23:17:54
1885
1
原创 【建议收藏】大数据Flink入门专栏-v1.0,配套B站视频教程1小时速通
Apache Flink 是一个开源的流处理框架和分布式处理引擎,专门用于处理无边界和有边界的数据流。它能够在各种集群环境中运行,并且以高吞吐量和低延迟的方式进行数据处理。Flink 的设计目标是提供一个统一的流处理和批处理平台,使得用户能够用相同的 API 编写和执行流式和批量数据处理任务。
2024-10-23 22:37:41
894
原创 【建议收藏】大数据Hadoop实战入门手册,配套B站视频教程1小时速通
大数据技术是一组用于处理、存储和分析大规模数据集的技术和工具。随着数字化时代的到来,数据量的爆炸性增长使得传统的数据处理和分析方法变得不够高效,因此大数据技术应运而生。处理海量数据:大数据技术能够有效地处理来自各种来源的海量数据,包括结构化数据(如关系型数据库中的数据)、半结构化数据(如XML、JSON格式的数据)、以及非结构化数据(如文本、图像、音频、视频等)。并行处理:大数据技术通常采用分布式计算的方式,利用多台计算机并行处理数据,以提高处理速度和性能。
2024-07-30 16:39:52
1288
原创 探索PostgreSQL的多模型世界:灵活存储,无限可能
无论是地理信息系统的空间数据,还是多变的JSON数据,或是有序集合的数组数据,PostgreSQL都能轻松应对,是数据存储和分析的强大工具。在数据库的世界里,有一种神器,它以其无与伦比的灵活性和强大的功能,赢得了全球开发者的青睐。:虽然PostgreSQL是一个关系数据库,但它提供了对某些NoSQL数据类型的原生支持,例如对XML和HStore(一种特殊的键值存储)的支持。:这是PostgreSQL的核心,支持传统的关系数据库操作,使用表格、行和列来存储数据,并支持SQL查询语言。
2024-06-09 12:45:20
607
原创 新型数据库技术一览
新型数据库技术是信息技术领域中不断发展和创新的一部分,它们旨在解决传统数据库系统面临的挑战,如大数据量的处理、实时分析、云服务集成、数据安全性和多模型支持等。NoSQL数据库种类比较庞大,例如有Redis(Key-Value)键值数据库用于缓存,Apache Cassandra列式存储数据库适用于需要处理大量数据的场景,如时间序列数据存储、物联网数据等。例如TiDB,它是一个开源的NewSQL数据库,适用于需要高并发和水平扩展的场景,如金融交易系统、在线游戏等。
2024-06-09 12:43:56
1128
1
原创 开启数据之旅:零基础十分钟,快速入门数据分析与机器学习
本教程内容,主要目的是帮助数据分析和机器学习的新手玩家快速了解开发流程,并运用于实战。整体讲解数据分析的整体流程,并结合一个极简案例——信用卡审批,快速上手数据分析,使用机器学习算子,完成结果的预测。开发语言使用Python3,数据处理使用Numpy、Pandas,机器学习使用Sklearn,可视化绘制使用Matplotlib。本次分享,主要以最小案例进行讲解,演示在数据分析工作中,使用机器学习算子进行预测的基本流程。
2024-06-06 17:00:47
1579
原创 如何快速入门和高效学习Python数据分析:实战为王
大家好,今天我要和大家分享的是如何快速入门并高效学习Python数据分析。在这个过程中,我们要学会避免一个常见的陷阱——过度沉迷于细节的学习。下面是我的一些建议和心得,希望能帮助到大家。
2024-06-06 16:47:29
1020
原创 MySQL压力测试最佳实践(16/16)
sysbench是一个模块化的、跨平台、多线程基准测试工具,主要用于评估测试各种不同系统参数下的数据库负载情况。项目地址:http://github.com/akopytov/sysbench。
2024-04-11 10:15:37
699
原创 MySQL高负载排查方法最佳实践(15/16)
top 是一款 Linux 系统下经常被用来做性能分析的工具,它可以实时动态的展示进程,线程的资源使用情况,在 top 工具展示监控指标里,运维人员最关心的是 cpu 和 mem 的使用情况。当服务器有特别多的 CPU 核,有时候看 CPU 汇总信息,发现 CPU 的 idle 很高,但是上面跑的应用程序却很慢,这个时候就需要看看每个核的资源试用情况了。可以很清楚看到是 10850 线程消耗了 CPU 资源,剩下的就根据操作系统的里线程 ID,去 MySQL 数据库里排查,此线程正在执行的操作。
2024-04-11 10:14:24
2008
原创 MySQL分区表(14/16)
分区表是数据库中一种用于优化大型表数据管理和查询性能的技术。它将一个表的数据根据特定的规则或条件分割成多个部分,每个部分称为一个分区。每个分区可以独立于其他分区进行存储、管理和查询,这样可以提高数据处理的效率,尤其是在处理大量数据时。数据分散存储:分区表将数据分散存储在不同的物理区域,这有助于减少单个数据文件的大小,提高I/O性能。查询优化:通过只查询相关的分区而不是整个表,可以减少数据扫描的范围,从而加快查询速度。分区表对于业务来说是透明的,不需要修改业务代码即可实现数据的分区管理。维护便捷。
2024-04-11 10:13:09
1059
原创 MySQL数据导出导出的三种办法(13/16)
使用mysqldump工具优点简单易用,只需一条命令即可完成数据导出。可以导出表结构和数据,方便完整备份。支持过滤条件,可以选择导出部分数据。生成的文件可以用于跨平台、跨版本的数据迁移。缺点导出的数据包含额外的INSERT语句,可能导致导入速度较慢。不能使用复杂的JOIN条件作为过滤条件。推荐场景需要备份和迁移表结构和数据。需要导出部分数据到其他系统或进行数据分析。导出CSV文件优点CSV格式通用,易于在不同应用程序间交换数据。可以利用文本编辑器查看和编辑数据。
2024-04-11 10:12:18
13056
原创 Mysql内存表及使用场景(12/16)
星球内目前包含300+精品文章,内容涵盖大数据、MySQL、运维、Python、调优、经验分享、数据分析等方向内容,会根据大家的学习需求更新更多方向的内容。Memory引擎的数据和索引分开存储,数据以数组形式存放,主键索引(hash索引)存储数据位置,称为堆组织表(Heap Organized Table)。我们在知识星球等您,一起探索MySQL的深层次世界!关注公众号【数舟】,获取作者最新动态,公众号后台回复【mysql2024】,即可免费领取这份包含16篇文章的完整的PDF专栏!
2024-04-11 10:11:22
770
原创 MySQL连接数过多问题(11/16)
星球内目前包含300+精品文章,内容涵盖大数据、MySQL、运维、Python、调优、经验分享、数据分析等方向内容,会根据大家的学习需求更新更多方向的内容。本文是《MySQL实战与优化》专栏中的一篇精选文章,该专栏共包含16篇文章,旨在为您提供实战中可直接应用的宝贵知识。状态的线程,如果确定它们没有处于任何事务中,可以优先考虑断开这些连接。长期来看,应该优化应用程序的连接管理策略,比如使用连接池、设置合理的超时时间、确保及时释放不再需要的连接等,以减少这类问题的发生。,可能会回滚事务,导致数据不一致。
2024-04-11 10:10:24
1211
原创 MySQL随机读取数据优化(10/16)
随着单词表的增大,随机选择单词的逻辑变得越来越慢,影响了首页的加载速度,可以有以下优化算法。星球内目前包含300+精品文章,内容涵盖大数据、MySQL、运维、Python、调优、经验分享、数据分析等方向内容,会根据大家的学习需求更新更多方向的内容。本文是《MySQL实战与优化》专栏中的一篇精选文章,该专栏共包含16篇文章,旨在为您提供实战中可直接应用的宝贵知识。关注公众号【数舟】,获取作者最新动态,公众号后台回复【mysql2024】,即可免费领取这份包含16篇文章的完整的PDF专栏!
2024-04-11 10:09:37
583
原创 MySQL排序原理与优化方法(9/16)
*磁盘临时表排序:**如果排序操作需要处理的数据量超过了内存的限制,或者无法在内存中完成排序,MySQL会将数据溢写到磁盘上的临时表中进行排序。这种情况下,MySQL会创建一个磁盘临时表,并可能涉及到磁盘I/O操作,这会增加排序操作的时间。磁盘临时表的排序过程与内存临时表有所不同,可能会采用优先队列排序算法,减少了对临时文件的依赖。**内存临时表排序:**在MySQL中,使用InnoDB引擎执行排序操作时,当处理的数据量较小,可以在内存中完成排序时,MySQL会优先使用内存进行排序操作。
2024-04-11 10:07:25
1015
原创 MySQL表空间管理与优化(8/16)
一个表单独存储为一个文件更容易管理,而且在你不需要这个表的时候,通过 drop table 命令,系统就会直接删除这个文件。而如果是放在共享表空间中,即使表删掉了,空间也是不会回收的。星球内目前包含300+精品文章,内容涵盖大数据、MySQL、运维、Python、调优、经验分享、数据分析等方向内容,会根据大家的学习需求更新更多方向的内容。本文是《MySQL实战与优化》专栏中的一篇精选文章,该专栏共包含16篇文章,旨在为您提供实战中可直接应用的宝贵知识。在进行表重建操作时,需要考虑操作对业务的影响。
2024-04-11 10:04:44
1129
原创 MySQL脏页刷写时机(7/16)
InnoDB引擎在处理更新语句时,会先写入redo log(重做日志),然后更新内存,最后将内存中的数据写入磁盘。星球内目前包含300+精品文章,内容涵盖大数据、MySQL、运维、Python、调优、经验分享、数据分析等方向内容,会根据大家的学习需求更新更多方向的内容。参数的重要性,建议将其设置为磁盘的IOPS(每秒输入/输出操作次数),以确保InnoDB能够根据实际的磁盘能力来控制刷脏页的速度。🔗 立即扫描下方二维码,加入知识星球,与行业精英共同成长,开启您的专属学习之旅!
2024-04-11 10:03:38
496
原创 MySQL一些特殊功能的索引(6/16)
星球内目前包含300+精品文章,内容涵盖大数据、MySQL、运维、Python、调优、经验分享、数据分析等方向内容,会根据大家的学习需求更新更多方向的内容。本文是《MySQL实战与优化》专栏中的一篇精选文章,该专栏共包含16篇文章,旨在为您提供实战中可直接应用的宝贵知识。关注公众号【数舟】,获取作者最新动态,公众号后台回复【mysql2024】,即可免费领取这份包含16篇文章的完整的PDF专栏!🔗 立即扫描下方二维码,加入知识星球,与行业精英共同成长,开启您的专属学习之旅!
2024-04-11 10:00:52
560
原创 MySQL哪些情况优化器会放弃索引(5/16)
星球内目前包含300+精品文章,内容涵盖大数据、MySQL、运维、Python、调优、经验分享、数据分析等方向内容,会根据大家的学习需求更新更多方向的内容。本文是《MySQL实战与优化》专栏中的一篇精选文章,该专栏共包含16篇文章,旨在为您提供实战中可直接应用的宝贵知识。关注公众号【数舟】,获取作者最新动态,公众号后台回复【mysql2024】,即可免费领取这份包含16篇文章的完整的PDF专栏!对索引字段进行函数操作、隐式类型转换或字符编码转换都可能导致MySQL优化器放弃使用索引,从而影响查询性能。
2024-04-11 10:00:13
676
原创 MySQL自动索引选择机制与优化方法(4/16)
分别在两个字段上建索引,布尔型字段索引会把数据分成两部分,枚举型会把数据分成十份,根据索引查找的时候,布尔型选择了一个排除了一半,枚举型选一个会排除9/10,所以枚举型区分度更好。基数指的是索引值的唯一性的度量,即索引列中不同值的数量。当索引基数比较大的时候,要不要走这个索引,还得看扫描行数,回表,子查询等等,最后优化器根据预估的成本决定是否走这个索引。采样统计的时候,InnoDB 默认会选择 N 个数据页,统计这些页面上的不同值,得到一个平均值,然后乘以这个索引的页面数,就得到了这个索引的基数。
2024-04-11 09:58:21
1166
原创 MySQL前缀索引(3/16)
注意:在使用覆盖索引的情况下,正常可以不需要回表,因为覆盖索引中已经包含所需数据,但使用了前缀索引时,如果select中包含前缀索引所选字段的数据(因为数据不完整),例如email,会导致回表降低性能。星球内目前包含300+精品文章,内容涵盖大数据、MySQL、运维、Python、调优、经验分享、数据分析等方向内容,会根据大家的学习需求更新更多方向的内容。关注公众号【数舟】,获取作者最新动态,公众号后台回复【mysql2024】,即可免费领取这份包含16篇文章的完整的PDF专栏!
2024-04-11 09:57:26
614
原创 MySQL选择普通索引还是唯一索引(2/16)
普通索引(Non-Unique Index),也称为非唯一索引,它允许索引中的条目具有重复的键值。普通索引的主要目的是加快查询速度,它并不关心数据的唯一性。可以包含重复的索引键值。适用于快速查找具有相同索引值的多个记录的场景。不保证数据的唯一性。唯一索引(Unique Index)是一种数据库索引,它要求索引中的所有键值都是唯一的。如果尝试插入或更新记录以产生重复的索引键值,数据库将拒绝这种操作。保证索引中的键值是唯一的。适用于确保数据表中某一列或列组合的唯一性,例如身份证号、用户名等。
2024-04-11 09:56:33
941
原创 MySQL索引优化方法(1/16)
MySQL中有几种索引:主键索引(Primary Key Index):每个表都有一个主键,主键索引是自动创建的唯一索引。它通常是聚簇索引(在索引树的叶子结点中存储的是需要查找的数据)。二级索引:指除了主键索引以外的所有索引,它们可以是基于单个列(单列索引)或多个列(组合索引)的索引。二级索引在InnoDB存储引擎中被称为非聚簇索引(Non-Clustered Index),二级索引的叶子节点通常包含索引列的值和一个指向数据行的引用(在InnoDB中通常是主键的值)。
2024-04-11 09:53:52
703
原创 MySQL中使用 普通索引 or 唯一索引?
也称为非唯一索引,它允许索引中的条目具有重复的键值。普通索引的主要目的是加快查询速度,它并不关心数据的唯一性。唯一索引(Unique Index)是一种数据库索引,它要求索引中的所有键值都是唯一的。如果尝试插入或更新记录以产生重复的索引键值,数据库将拒绝这种操作。
2024-04-03 14:34:39
607
原创 SQL简单优化思路
在编写SQL查询时,优化查询性能是一个重要的考虑因素,特别是在处理多表连接(JOIN)和子查询时。通过上述技巧和最佳实践,你可以在编写多表JOIN和子查询时提高SQL查询的性能。使用相关子查询:当子查询依赖于外部查询的结果时,使用相关子查询可以提高性能,因为它们可以更有效地利用外部查询的结果。避免在WHERE子句中使用子查询:子查询通常会导致数据库执行额外的扫描,如果可能,尝试使用JOIN来替代子查询。使用数据库提供的查询执行计划分析工具(如EXPLAIN)来检查查询的执行计划,找出性能瓶颈并进行优化。
2024-04-03 09:46:38
616
原创 Linux高负载排查最佳实践
在Linux系统中,经常会因为负载过高导致各种性能问题。那么如何进行排查,其实是有迹可循,而且模式固定。本次就来分享一下,CPU占用过高、磁盘IO占用过高的排查方法。
2024-03-14 15:54:35
2422
1
原创 HDFS(Hadoop分布式文件系统)具有高吞吐量特点的原因
此外,HDFS还支持数据本地性(移动计算而非移动数据),即尽量在存储数据的节点上进行数据处理,减少数据传输的网络开销,提高数据访问速度。数据分块和分布式存储:HDFS将大文件分割成多个数据块,并通过数据块的复制和分布式存储在集群中的多台机器上存储这些数据块。这样,可以利用多台机器的并行处理能力,并同时读取或写入多个数据块,从而提高整体的吞吐量。水平扩展性:HDFS具有良好的水平扩展性,可以随着集群规模的增大而线性扩展,从而可以处理大规模数据并发访问的需求,提高系统的整体吞吐量。
2024-03-11 14:39:11
683
原创 路由跟踪命令tracert
但如果你确定链上没有服务器会阻止Traceroute,那么当你尝试连接网站或服务器时,它就是诊断网站或服务器故障的好方法。即使有阻止的中间服务器,但是数据包只要最终能达到你要求的网址,那也算是排查了一半的问题——至少你的路由“路线”问题不大。Traceroute具体原理,就是为数据包设置一个生存时间(TTL),开始TTL=1,即只访问一台路由后结束,然后TTL依次递增(TTL=2,3…与ping命令不同,tracert主要打印与目标服务器之间的路径,让你查看数据包在网络中的流动情况。
2024-01-09 10:51:05
3376
原创 vbox虚拟机导出减少体积:压缩VDI文件
网上找了一些virtualBox虚拟机压缩方法,做了测试。虚拟机导出体积有了明显减少。参考文档:https://blog.youkuaiyun.com/mr__bai/article/details/129147223里面有一些注意事项,包括我在实践时遇到的一些问题,在这里统一做个汇总。
2023-11-04 16:00:42
1943
原创 谁懂?这23个关于大数据的灵魂拷问!
也就是DWD、DWS、DIM、ADS层构建,这些任务在运行时,一般使用的是全量数据,或者当天的增量数据,使用Hive、Spark SQL一次性将它们计算完成。例如数据中台中有数据商城对数据进行流通,数据资产目录对数据进行分类组织,数据脱敏解决数据安全问题,数据质量管理提升数据质量等。至于Oracle支持的快速的OLTP增删改查,以及快速OLAP分析,Hive、Spark SQL效率是比较低的,这不是它们擅长的场景,并且底层是海量的数据,以及复杂的调度。会的,数据孤岛一般的解决方案是建立数据湖。
2023-10-18 09:54:41
219
原创 分布式ETL工具Sqoop实践
7、将testdb.ts表中所有数据全量导入到hdfs的/tmp/sqoop/testdb/ts目录中。3、在/root/sqoop_file目录编写配置文件list_dbs.conf,减少重复参数配置。9、使用append增量方式将新增数据导入到/tmp/sqoop/testdb/ts/目录中。2、在/root目录下新建sqoop_file目录用于存放作业配置文件。5、查看testdb中所有表,使用非明文方式,手动输入密码。6、在Mysql中执行SQL并将结果展示在控制台。2、新建数据库testdb。
2023-09-18 10:15:17
539
原创 产品图鉴:Greenplum
所以总结起来,Greenplum是一个老牌MPP数据仓库,整体比较均衡,适合中小规模数据的OLAP分析(MPP数据库在架构上注定会有扩展上限),在6.0版本之后,能够同时支持OLTP处理,成为OTAP数据仓库。,主要面向结构化数据OLAP计算,Greenplum在6.0版本大大的提高了对OLTP的支持,tpcb性能提升60倍,单节点查询达到80000TPS(Transactions Per Second,数据库每秒处理事务数),插入操作达到18000TPS,更新操作约7000TPS。
2023-06-30 10:30:39
503
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人