- 博客(48)
- 收藏
- 关注
原创 大数据技术之HBase操作归纳
步骤一:先点击绿色的小锤子,然后再点击Edit Configurations的选项。Java借助于HBase的API接口来操作HBase。步骤二:进行信息的配置。
2025-02-20 17:09:18
537
原创 【Python】Pandas详解
Pandas详解一、Pandas介绍数据分析三剑客之一的Pandas,是基于Numpy构建的,专门用于【数据处理和分析】的库。它提供了两种主要的数据结构:Series(一维数据结构)和DataFrame(二维数据结构,类似于表格),使得数据的清洗、转换、分析和可视化变得更加容易。DataFrame与Series的联系数据结构关系:【DataFrame可以看作是由多个Series组成的】。其中,DataFrame的每一列都可以视为一个Series,这些Series共享相同的索引。相互转换
2025-01-16 10:04:40
1725
原创 【Python】Numpy详解
数据分析三剑客之一的Numpy,是一个用于处理数组的 Python 包【基于数组对象的科学计算库】。 其全名为 “Numeric Python”,是一款开源的Python库。Numpy相当于Python中的列表(List),但只能存放相同的数据类型。引入Numpy的目的是可以计算大型的多维数组和矩阵操作,其计算能力强,运行的速度快。列表(List)需要先寻找元素的地址,再访问到元素;而Numpy的数组被存储在内存中的一个连续的位置【物理地址连续性】,可以非常有效地访问和操作它们。【功能侧重】:主要专注于数值
2025-01-15 10:50:15
1039
原创 【Python】Matplotlib详解
plot()函数的基本格式x和y:【必要参数】,分别是横坐标和纵坐标的数据,可以是列表、数组等可迭代对象。如果只提供y,则x默认是从0开始的整数序列。:【可选参数】,用于指定线条的格式,包括颜色、线型、标记等。例如,'r-'表示红色实线,'bo'表示蓝色圆点标记。**kwargs:【可选参数】,用于更详细地设置线条的属性,如线宽、标记大小、颜色等。在实际应用中,常见的参数类型主要有以下几种【额外配置】:color:设置线条颜色,默认为蓝色。linestyle:设置线条样式,默认为实线。
2025-01-14 13:05:44
3234
1
原创 Flink CDC
CDC全称是Chanage Data Capture(其核心原理就是,将这些,并将**【捕获到的数据】**写入到消息中间件中。如mysql、kakfa(最为典型)等都能实现CDC的功能。在中,通常使用**Flume(面向文件系统)CDC工具(面向关系型数据库组件)**这两个来实现数据采集和ETL功能。
2024-11-20 21:17:41
1117
原创 Kafka-Eagle(可视化监控平台)安装教程
具体路径:vim /opt/software/kafka_2.12-2.8.0/bin/kafka-server-start.sh。命令:vim /opt/software/efak-web-3.0.1/conf/system-config.properties。将安装包放入master01的/opt/download中,解压缩【在download目录下执行下面两个命令即可】官网地址:https://www.kafka-eagle.org/启动的前提条件是先启动Zookeeper、Kafka。
2024-10-26 10:57:29
792
原创 Flink加载维度数据
在我们构建实时数仓时,不能光有事实数据,也需要加载维度数据来标明这些事实数据的具体含义。若只含有事实数据的话,就相当于只有数据本身在不断地变化,而并不知道这些数据具体表示什么意思。因此,我们应当加载维度数据进来。
2024-09-23 21:26:25
599
原创 Python爬虫(一文通)
Python爬虫(基本篇)一:静态页面爬取Requests库的使用1)基本概念+安装+基本代码格式应用领域:适合处理**静态页面数据和简单的 HTTP 请求响应**。Requests库的讲解含义:requests 库是 Python 中一个非常简单且强大的库,相当于urllib的升级版(此处不对urllib进行讲解),在Cookie,登录验证,代理设置等操作更加的便利。请求头(UA)UA介绍:UA全名是User Agent,中文名为用户代理。它是一个特殊字符串头,使得服务器能够识
2024-08-29 21:24:41
6947
3
原创 Prometheus & Grafana安装及使用教程
Prometheus和Grafana是两个在监控和数据分析领域非常流行的开源工具。PrometheusGrafanaClickHouse V20.1.2.4中内置了 Prometheus 的访问接口(需开启),直接配置 Prometheus 的 Endpoint服务,会自动将metrics,events,aysnchronous_metrics 三张系统表的数据发送给 Prometheus。
2024-08-14 19:09:56
1617
1
原创 Kafka实战(Scala操作)
版本:具体依赖:2、创建生产者(Producer)一:生产者相关配置讲解::批处理数量,消息为大小,生产者才会发送消息:延迟时间,如果消息大小迟迟不为大小,则可以在指定的时间后发送:重试次数,消息发送失败时,生产者可以再重试次数:ack机制,生产者需要等待个副本成功写入消息后,才认为消息发送成功acks一共有三个选项:键序列化:值序列化二:ProducerRecord讲解:异步发送的普通生产者在异步发送模式下,生产者调用方法发送消息后,不会立即等待服务器的响应,而是继续执行后续操作。异步发送的带
2024-08-03 16:52:38
1132
原创 Kafka基本讲解
Kafka是,主要设计用于高吞吐量的数据处理和消息传输,适用于日志处理、实时数据管道等场景。,用于收集、缓存和分发实时数据流,支持复杂的实时数据处理,实时需求分析,实时报表等应用。
2024-08-02 11:09:47
1609
原创 虚拟机处理yum缓存堆积问题
虚拟机用的时间长了,网络不好,yum显示无法安装。此时我们因考虑到Yum软件包管理器的仓库配置文件地方对方太多而导致的问题。一:首先检查虚拟机设置:确保设备状态中的“✔”都打钩上,并且IOS映射文件没有问题。
2024-08-02 09:30:01
416
原创 Hive之扩展函数(UDF)
此处创建的UDF业务功能介绍:给定三个参数,参数一和参数二为日期,参数三为不同维度(年,季度,月,周,日)。根据不同维度计算两日期之间相差的值。UDF基本接口定义//校验:若无法匹配,则抛异常 public interface UDFCom {//校验传参的数量与元素 default void validateArgs(Object [ ] args , int size) throws UDFArgumentException {
2024-07-29 10:00:04
648
原创 调度器——DolphinScheduler讲解及安装教程
因 SPRING_DATASOURCE_URL 配置中追加 createDatabaseIfNotExist=true,所以无需手动建库。初始密码:dolphinscheduler123。初始用户:admin。
2024-07-22 19:45:44
666
原创 大数据采集工具——Flume简介&安装配置&使用教程
Flume 是一个的,主要用于将大量的数据从(如日志文件、数据库、本地磁盘等)采集到(主要为)中,用来处理日志数据,并支持在数据流中可靠、高效地移动数据。
2024-07-18 21:37:27
2208
1
原创 Docker基本讲解及演示
Docker是一个开源的应用容器引擎,允许开发者将应用程序及其依赖项打包成一个轻量级、可移植的容器,然后发布到任何支持 Docker 的环境中运行,无论是开发机、测试机还是生产环境。Docker基于沙箱技术,每个容器都有自己的独立运行环境,包括操作系统、库文件、配置等,实现了资源隔离和轻量级迁移。
2024-07-16 09:35:15
900
原创 Docker的安装【虚拟机】
官网地址:https://cr.console.aliyun.com/cn-hangzhou/instances/mirrors?:从阿里云的镜像站点下载 CentOS 7 的 yum 仓库配置文件,并将其保存到 /etc/yum.repos.d/ 目录下。:当安装docker仓库时,输入命令:yum -y install yum-utils。若出现以下信息,表示安装docker成功!
2024-07-15 19:35:17
672
原创 Hive的基本操作(查询)
查询字段的【数量】与【类型】必须相同,字段名是以【第一张表为准】。union all:合并后保留重复项 ✔。union:合并后删除重复项(去重)
2024-07-15 10:59:50
1025
原创 Scala之OOP讲解
泛型的定义类型参数化,主要用于【集合不同于 Java ,scala中泛型被定义在 [] 中。/*泛型边界定义上边界:T<:A 泛型为某个类型的子类下边界:T>:A 泛型为某个类型的父类*/// 1.只能是比Father小的类型// 2.只能是比Son大的类型。
2024-07-14 14:10:52
1307
原创 Hive表【汇总】
因此分区表将文件切割成更小的粒度,当需要针对局部数据进行检索、聚合等处理时只需要加载对应的粒度即可,从而提高了处理的效率。在开发中,数据量大的情况下,我们为了针对开发做测试,就可以采用分桶来进行数据采样,采样得到的结果是一个具有代表性的查询结果,可以达到快速开发的目的。外部表允许在 Hive 中定义一个表结构,并对外部存储系统中的数据进行查询和分析,而不会对数据本身进行移动或修改。:最后获取的数据是在每个分区【文件夹】内随机抽取指定数量【如:四分之一]的数据[桶]】=> 抽到的数据[桶]是具有。
2024-07-13 10:47:35
1338
原创 Mysql数据库学习
Mysql是一个具体的关系型数据库管理系统(RDBMS),其支持使用SQL来进行数据的增删改查等操作。Mysql具有许多的优势,包括可移植性,安全性,可跨平台等,适用于各个规模的应用和项目。此处所展示的是MySQL数据库基本的系统库注意:当你初次打开MySQL服务时,会看见mysql,performance_schema,sys,information_schema这四个基本的系统库【不可进行删除修改等操作,即:不要动着四个系统库】。2.1解释别名就是非表的原始部分2.2基本语法[as] 表达式别名说明。
2024-06-24 13:52:01
878
原创 错误:case-to-case inheritance is prohibited
不采用case,而是老老实实的构造参数和伴生对象。:样例类不可以作为继承链路中的叶子结点。
2024-04-28 16:46:15
246
原创 大数据之Hadoop(HDFS读文件)
客户端向NameNode请求下载a.txt文件NmaeNode会通过逻辑映射关系来找到a.txt所对应的block1与block2所对应的id随后通过物理映射关系来确认每个id所对应的存储在DN的全路径并返还给客户端一个较近较闲置的DN(先返还DN1所对应的全路径,DN1操作完后,再返回DN2所对应的全路径,以此类推,具有先后顺序)客户端拿到block1在DN1对应的全路径后,读取数据块block1将数据传回客户端客户端将block1的数据传入本地文件。
2024-04-18 13:54:40
557
1
原创 VMware虚拟机安装Linux(CentOS7)
今日,将为个位读者讲解一下虚拟机Linux安装步骤!此处,我们先将Linux装好后再进行系统的配置版本的选项,根据自己情况自行安排。此处,我装的是此处进行命名操作,存储位置建议选个磁盘大点的盘,建议不要选择默认存储的c盘处理器配置:选【处理器数量】和【内核数量】建议根据自身处理器情况来:一般处理器数量为一半,内核数量固定为2即可。但保险起见,这里我先选个4,2。若后期需要,可以进行修改。内存配置:一般选为内存的一半。网络类型:选择“NAT”。I/O控制器类型:选择“LSI Logic(L) (推荐)”。磁盘
2024-04-12 12:30:00
1821
原创 HBase架构
HBase采用形式,主要组成:HMaster,HRegionServer,HRegion,ZooKeeper,DFS Client。
2024-03-27 13:06:21
1287
原创 HBase伸缩性和可用性
随着数据的增加,当Region达到阈值【阈值可以配置】时,会进行**分裂(split)**操作。当HRegionServer死了,HMaster会将HLog迁移到另一台服务器上,进行恢复。200之间的进入Region2中,主键在201~300之间的进入Region3中】,这样数据进入Region中时会均匀的分配。**1.**由于HBase的数据会存储于HDFS中,因此大文件(合并后文件)也是有上限的,即:一个大文件最多为128M。当进行数据迁移的时候,写数据会处于堵塞状态,从而产生一定的延迟。
2024-03-09 21:32:04
473
原创 Vue2之常用指令
若不阻止,点击子盒子时,弹窗会同时弹出“父盒子”。而我们想要的效果是:点击子盒子时,只弹出“子盒子”。:v-show = “表达式” 表达式值 true表示显示,false表示隐藏。:v-if = “表达式” 表达式值 true表示存在,false表示不存在。:动态设置html中的标签属性,如src,href,title…:不频繁进行切换的场景,即:要么存在,要么不存在。:多次渲染整个元素,可以是数组,对象,数字…:v-html=“表达式”:v-model=“变量”
2024-02-17 10:30:00
762
1
原创 Java设计模式之合成复用原则
若不使用合成复用原则,则需要汽车类ColoredCar 来继承 类型类Type,在此基础上添加颜色这一属性。这导致了ColoredCar类 与 Type类 存在紧耦合关系,同时在为其他车添加不同颜色的同时需要创建大量的类,显得十分的繁琐而又无意义。总体思路:汽车类ColoredCar复用了 类型类Type 和 颜色类Color,实现了对汽车类型和颜色的分离,可以轻易的改变汽车类型和颜色,无需改动原有的代码。此处,我们以汽车这一案例来讲解合成复用原则。这是一辆红色的迈凯伦。
2024-02-05 20:35:23
396
1
原创 Java设计模式之迪米特法则
若不按照迪米特法则,则需要领导TeamLeader与员工TeamEmplotyee和Price产生联系,在领导TeamLeader内部计算金额数(领导自己计算金额),会显得繁琐且显得不合理。而通过运用迪米特法则,领导TeamLeader直接与员工TeamEmployee交接,就可直接获取金额。整体思路:员工通过add方法添加价格,再通过PriceCount方法来进行计算,得出总金额,交给领导,领导就可直接调用PriceCount这一方法获得金额,无需知道其内部计算原理。TeamLeader类:领导。
2024-01-30 15:23:24
399
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人