自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 CentOS扩容磁盘大小

第一步:先在VMware上点击扩容原磁盘扩容 图第二步:在系统中扩容使用 df -PT 和 lsblk 命令查看当前空间分配情况可以看到,当前总空间20G,sda磁盘分配了2个主分区(sda1,sda2),其中sda2分区的centos-root逻辑卷挂载的是 / 目录,已经快满了,需要对centos-root逻辑卷扩容。我采用了这篇博客的解决方法中提到的,

2025-03-04 22:31:12 409

原创 在Linux上启动elasticsearch报错

在使用root权限启动ElasticSearch的时候,会出现开篇所示的错误信息,这是出于系统安全考虑设置的条件。处理方法:使用ES自带的jdk,修改elasticsearch-7.8.0/bin/elasticsearch-env文件中的这行配置即可。(修改完别忘记分发!处理方法:创建一个普通用户,将ElasticSearch安装目录权限修改一下,切换至普通用户运行ElasticSearch。这不算错误,而是个提示。这是因为ES默认是使用你自己的jdk1.8,它嫌弃版本太低,想让你更新jdk11版本。

2024-12-25 18:56:06 251

原创 ERROR (org.apache.spark.executor.Executor:logError) - Exception in task 0.0 in stage 2.0 (TID 8)

我分别查看了业务数据与日志数据的生成器配置文件发现,在日志数据中,我设置的会员最大值是1000 > 在业务数据中,我设置的生成新用户的数量是100,才造成redis在读uid的时候报空指针异常的。向上推理,如果160行中提取性别为空的话,那说明158行Json字符=>Json对象就没有转换成功,所以才get不到gender的;1.在redis中没做(用户信息表user_info的)历史数据的全量同步。修改成,日志数据中会员最大值 <= 业务数据中生成新用户的数量,问题解决。所以,我应该是第二个原因。

2024-12-22 15:43:57 626

原创 如何保证业务数据实时计算的顺序性

2.通过运行SparkRDD代码,将原始业务数据根据表名分为事实数据(需要记录操作类型)和维度数据,分别将事实数据分流到Kafka的Topic中,维度数据分流到Redis中。我们依次审视一下,在实时处理的各个环节中,是否能保证数据的顺序?在实时计算中,对业务数据的计算,要考虑到数据处理的顺序, 即能否依照数据改变。已经完成了业务数据的采集与分流基本工作量,业务数据分事实数据(事实表)和维度数据(维度表)。是在哪个环节出的问题,最终导致存储的结果不正确。通过分析,目前我们的计算过程中,只有可能在。

2024-12-21 15:32:39 412

原创 Maxwell全量同步历史数据报错Connections could not be acquired from the underlying database!

重新启动Maxwell、 maxwell-bootstrap(重新启动maxwell-bootstrap之前需要先启动maxwell,不然会报数据阻塞)删除jdk.tls.disabledAlgorithms后面的TLSv1和TLSv1.1,然后保存退出。解决方法:修改jdk的jre目录下配置文件。#进入到自己jdk安装目录。

2024-12-21 13:56:23 235

原创 kafka消息发送缓冲区问题解决

针对Kafka漏消费与重复消费问题,已经采用后置提交offset+幂等方案,解决Kafka漏消费与重复消费。自定义一套offset管理方案,手动提交offset,将kafka的offset保存到Redis中存储。但是手动提交offset的话又会出现kafka消息发送缓冲区问题。问题描述Kafka 消息的发送分为同步发送和异步发送。Kafka默认使用异步发送的方式。Kafka的生产者将消息进行发送时,会先将消息发送到缓冲区中,待缓冲区写满或者到达指定的时间,才会真正的将缓冲区的数据写到。

2024-12-17 19:17:49 267

原创 Kafka漏消费与重复消费的解决方法

已经完成了(实时计算)日志数据采集和分流,采用方式2的方法直接将模拟生成的数据传入Kafka的Topic1中,然后通过跑Scala代码将原始数据进行分流,分成5类数据并写入对应5个Topic中。这样就做到前面的成功,如果后面做失败了,就回滚前面那么就达成了原子性,这种情况先存数据还是先修改偏移量没影响。出现丢失或者重复的问题,核心就是偏移量的提交与数据的保存,不是原子性的。话虽如此,在实际的开发中手动提交偏移量其实不难,难的是幂等性的保存,有的时候。处理数据较多,或者数据保存在不支持事务的数据库上。

2024-12-17 13:46:17 701

原创 区块链技术学习笔记

像比特币这样的数字货币,依靠已经写好的程序代码自动发行的,对于区块链,比特币每10分钟就会挖出来一个新区块,程序代码就会奖励比特币给挖出这个新区块的人,从2009年1月3日年开始是一个区块给50,经过四年折半依次,在2020是第三次减半,每个块区奖励6.25个比特币。比特币的定位就是一个点对点的电子现金系统,比特币和区块链技术出现之后,实现了分布式的点对点(P2P)的双方直接交易,打破了以前线上交易必须依赖于第三方中心数据库的弊端,具备安全、隐私、可追溯、交易不可篡改的特性。公共数据运营平台如何构建?

2024-12-09 19:24:05 644

原创 数据沙箱技术Sandbox

‌‌数据沙箱是一种用于隔离和管理数据分析环境的虚拟环境‌。数据沙箱是一种隔离环境,它允许用户在其中运行程序和处理数据,而不会影响到外部系统或数据的安全性。通过使用虚拟化技术、访问控制技术和防躲避技术,数据沙箱能够确保可疑文件或程序在隔离环境中运行,从而保护主机和操作系统免受病毒和未知威胁的侵害。利用虚拟化技术在本地或云端构建数据隔离环境(即“数据沙箱”),允许用户在沙箱内对数据进行分析处理,但原始数据始终保持在安全边界内。沙箱是一种用于隔离和管理网络环境的虚拟环境。

2024-12-09 19:05:11 3871

原创 推荐一款JAVA企业级超轻量大数据计算平台

至轻云是一款超轻量级、企业级大数据计算平台。具有一键部署,开箱即用特色。无需额外大数据组件安装,即可快速实现企业级大数据离线ETL、实时计算、作业定时调度等场景。项目持续更新迭代,源码永久开源免费。助力企业快速处理海量数据,获得更多商业价值。

2024-12-09 17:23:02 617

原创 (参考案例)腾讯天穹 SuperSQL:统一大数据自适应计算平台技术解析

本节首先介绍一下大数据普惠时代的业务困扰。首先,因历史原因,不同业务部署到不同的数据库(如 Hive、MySQL 等)上,异构数据源逐渐成为各公司数据孤岛形成的原因。其次公司内不同的数据中心有不同的集群,会存在不同版本的数据源。因为业务的发展,数据中心会部署很多不同的大数据处理引擎,但每个引擎适用的业务场景和技术特性不一样,这导致只能人工做数据搬迁和查询调优,数据安全和效率都难以保证。另外,不同的大数据引擎语法不一样,这导致切换引擎的成本升高,会造成一定的资源浪费。

2024-12-09 17:16:30 913

原创 大数据计算引擎原理和架构

随着互联网技术的广泛应用,5G以及物联网和云计算的迅猛发展,带动了全球数据爆发式增长,随之而来的是不断增长的数据规模和数据的动态快速产生,这对大数据计算引擎带来了极大的挑战,离线批处理、实时计算和高吞吐量催生了新技术的发展和旧技术的革新,计算引擎出现了百花齐放的景象。计算引擎大致分两类,离线计算和实时计算,下面为大家介绍几个主流的大数据计算引擎。

2024-12-09 17:03:33 1512

原创 大数据平台之数据存储

我们都知道,采集数据之后,得到数据是原始的和杂乱的,必须经过专门的清洗、 关联、规范化和精心的组织建模,而且要通过数据质量检测后才能进行后续的数据分析或用于提供数据服务,而这就是数据平台构建的关键环节-->数据存储处理而我们今天要聊的是大数据平台是如何去存储海量数据呢?在之前,我们聊过,大数据的数据采集并存储的数据流程,如下图所示:在整个大数据生态圈里,数据存储可以分为两大类:1、是直接以文件形式存放在分布式文件系统上,处理工具可以直接读写 (Hive 和SparkSQL 都是这类)。

2024-12-09 16:37:03 1702

原创 大数据平台之数据计算

离线处理和批处理是大数据计算中,非常必要的两条腿。也是大数据平台的核心所在。因此,学好大数据计算组件的重要性不言而喻。由于工作原因,一直在接触flink的流批一体计算建设,所以我在自己的大数据平台研发中,思考过是否用flink来完成流批一体的数据开发模块。祝各位终有所成,收获满满!

2024-12-09 15:44:47 774

原创 流式计算系统设计与实现:大数据平台核心技术详解

流式计算是一种针对连续数据流的处理技术,能够实现对数据的实时分析和处理。与传统批处理相比,流式计算具有低延迟、高吞吐量的特点。流式计算作为大数据平台的核心技术,其系统设计与实现是提高数据处理能力的关键。通过本文的讲解,希望大家能够掌握流式计算的基本概念、系统架构、引擎选择及实现方法,为实际应用打下坚实基础。

2024-12-09 15:31:56 448

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除