- 博客(46)
- 收藏
- 关注
原创 初识Hadoop-概述与关键技术
高速发展的信息时代,新一轮科技革命和变革正在加速推进,技术创新日益成为重塑经济发展模式和促进经济增长的重要驱动力量,而“大数据”无疑是核心推动力。那么,什么是“大数据”呢?如果从字面意思来看,大数据指的是巨量数据。那么可能有人会问,多大量级的数据才叫大数据?不同的机构或学者有不同的理解,难以有一个非常定量的定义,只能说,大数据的计量单位已经越过TB级别发展到PB、EB、ZB、YB甚至BB来衡量。
2024-01-11 14:48:21
1463
原创 大数据处理与分析
MapReduce核心函数:MapReduce之策略:计算向数据靠拢而不是数据向计算靠拢要完成一次数据分析时,选择一个计算节点,把运行数据分析的程序放在计算节点上运行然后把它所涉及的数据,全部从各个不同节点上面拉过来,传输到计算发生的地方。
2023-12-20 17:57:06
1282
原创 大数据处理与分析-Spark
第一阶段:Spark最初由美国加州伯克利大学( UC Berkelcy)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序第二阶段:2013年Spark加入Apache孵化器项日后发展迅猛,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一( Hadoop磁盘MR离线式、Spark基于内存实时数据分析框架、Storm数据流分析框架 )
2023-12-20 17:53:49
1735
原创 从传统型数据库到非关系型数据库
数据库顾名思义保存数据的仓库,其本质是一个具有数据存储功能的复杂系统软件,数据库最终把数据保存在计算机硬盘,但数据库并不是直接读写数据在硬盘,而是中间隔了一层操作系统,通过文件系统把数据保存为本地文件系统的数据文件;我们讲过Hadoop,分布式文件系统HDFS的数据块本质上也是本地文件系统的普通数据文件。二传统关系型数据库为什么行,又为什么不行了?讲HBase之前,我们先从关系数据库讲起,再从逻辑上一步步推导出为什么要使用HBase1 关系数据库为什么行?从一个关系数据库。
2023-12-13 17:28:45
1359
原创 分布式数据库HBase
HBase是一个分布式的、面向列的开源数据库HBase是Google BigTable的开源实现HBase不同于一般的关系数据库, 适合非结构化数据存储HBase是一种分布式、可扩展、支持海量数据存储的 NoSQL数据库。HBase是依赖Hadoop的。为什么HBase能存储海量的数据?因为HBase是在HDFS的基础之上构建的,HDFS是分布式文件系统。HBase在HDFS之上提供了高并发的随机写和支持实时查询,这是HDFS不具备的。
2023-12-06 19:35:13
2049
1
原创 分布式文件系统之HDFS
HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。
2023-11-29 17:40:54
1433
2
原创 大数据预处理技术
简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。平时我们俗称的”网址“,其实就是 URL(Uniform Resource Locator),翻译为统一资源定位符互连网上的每个文件都有一个唯一的 URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它协议:通常是https或者http。表示通过何种方式获取该资源。你可能还见过其他协议类型,比如ftp或者file,协议后面跟着://
2023-11-22 16:13:39
2681
1
原创 大数据技术平台
大数据定义定义:大数据主要解决,海量数据的采集、存储、分析计算问题。Volume(大量) Velocity(高速) Variety(多样) Value(低价值密度)1.2、Hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。
2023-11-15 17:42:22
234
原创 Hadoop之MapReduce
定义 : 是一个分布式运算程序的编程框架,是 Hadoop 内部编写的。功能 : 用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 大致流程:
2023-10-09 16:23:26
176
原创 Hadoop之HDFS
HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。适合一次写入,多次读出的场景,不支持文件修改,可以过来做数据分析。优点:(1)容错性高:主要有多个副本(2)适合处理大数据:数据规模 可达到 PB级别,文件量能够处理百万这个量级(3)可构建在廉价机器上缺点:(1)数据访问有延时,做不到毫秒级别的。
2023-10-09 14:10:21
161
原创 nginx
nginx(发音同engine x)是一款高性能、轻量级、高并发的Web服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器,并在一个BSD-like协议下发行。nginx由俄罗斯的程序设计师Igor Sysoev所开发,最初供俄国大型的入口网站及搜寻引擎Rambler使用。第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布,因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名。2011年6月1日,nginx 1.0.4发布。
2022-09-04 00:06:38
219
原创 keepalived实现lvs高可用
keepalived起初是为LVS设计的专门用来监控集群系统中各个服务节点的状态如果某个服务节点出现异常或者工作出现故障,keepalived将检测到,并将出现故障的服务节点从集群系统中剔除,而在故障节点恢复正常后,keepalived又可以自动将该服务节点重新加入集群中,这些工作全部自动完成。这部分功能类似于nginx 等反向代理的应用探活功能实现后端服务高可用。后来又加入了VRRP的功能,VRRP(Virtual Router Redundancy Protocol),虚拟路由协议出现的目的是为了解决
2022-08-31 10:43:10
657
原创 tomcat部署
下载tomcat# 下载tomcat软件包 [ root@localhost ~ ] # wget https : //archive.apache.org/dist/tomcat/tomcat-9/v9.0.65/bin/apache-tomcat-9.0.65.tar.gz #解压 [ root@localhost ~ ] # ls。
2022-08-17 23:19:19
348
原创 sed高级应用
D命令即是删除行 (delete lines)是对sed的输出流里的数据进行删除而不是直接作用到文件本身。n 1到512之间的数字,表示文本模式第n次出现的情况进行替换。w 将模式空间的内容写到文件file中。使用大括号惊醒分组使其用于同一个地址。g 对匹配的结果进行全局替换。p 打印替换后的内容。......
2022-08-02 21:57:17
346
原创 自定义监控 -mysql主从-MySQL延迟
2.搭建mysql主从配置主库配置主库文件配置从库文件测试从库查看自定义监控mysql主从状态编写脚本测试脚本配置文件配置zabbix网页添加监控项添加监控参数添加触发器填写参数测试查看 打印为1编写脚本测试修改文件配置zabbix网页添加监控项添加触发器测试...
2022-07-12 01:01:17
152
原创 自定义监控
系统方面的指标zabbix监控配置一般包括以下几步Linux-agent端安装zabbix-agent自定义监控httpd进程准备工作编写脚本测试脚本运行脚本服务端测试添加触发创建触发器测试优化修改文件服务器测试网页修改监控项修改httpd自定义监控mysql添加触发器查看测试关闭mysql服务准备工作测试脚本配置文件添加监控配置触发器测试备份时间短但是恢复数据需要按顺序差异备份:和上一次备份做对比 备份发生变化的文件 恢复数据时只需要对第一次全量备份 和最后一次差异备份进行恢复**mysql数据恢复删除school库恢复所有库删除表差异备份与恢复mysql 差异备份完全备份删除数据库刷新创建新的二进制日志恢复完全备份恢复差异备份...
2022-06-30 22:45:00
145
原创 mysql 联合查询
什么是多表联合查询前面所讲的查询语句都是针对一个表的,但是在关系型数据库中,表与表之间是有联系的,所以在实际应用中,经常使用多表查询。多表查询就是同时查询两个或两个以上的表。在 MySQL 中,多表查询主要有交叉连接、内连接、外连接、分组查询与子查询等5种。交叉连接(CROSS JOIN)3.2.1 笛卡尔积集合 A×B 和 B×A 的结果集分别表示为:以上 A×B 和 B×A 的结果就叫做两个集合的笛卡尔积。并且,从以上结果我们可以看出3.2.2 交叉连接交叉连接的语法格式如下:或语法说明
2022-06-30 00:23:01
2116
原创 mysql进阶
二、解压MySQL 安装包设置环境变量建立数据存放目录生成配置文件配置服务启动脚本启动mysql启动发现报错解决方案:再次登录验证密码:
2022-06-29 01:22:16
414
原创 时间同步角色和SELinux角色
二、时间同步角色时间同步角色示例配置清单和ansible.cfg文件查看受控主机的chrony.conf文件受控机查看SELinux角色查看受控主机selinux状态执行playbook查看受控主机
2022-06-15 00:16:59
191
原创 管理变 机密和事实
1.1 Ansible变量简介Ansible支持利用变量来存储值,并在Ansible项目的所有文件中重复使用这些值。这可以简化项目的创建和维护,并减少错误的数量。通过变量,可以轻松地在Ansible项目中管理给定环境的动态值。例如,变量可能包含下面这些值:变量的名称必须以字母开头,并且只能包含字母、数字和下划线。无效和有效的Ansible变量名称示例可以在Ansible项目中的多个位置定义变量。不过,这些变量大致可简化为三个范围级别:全局范围:从命令行或Ansible配置设置的变量Play范围:在pl
2022-06-05 22:35:44
170
原创 playbook
连接[root@control httpd]# ssh web01.example.comroot@web01.example.com's password: Activate the web console with: systemctl enable --now cockpit.socket This system is not registered to Red Hat Insights. See https://cloud.redhat.com/To register this syst
2022-05-29 21:31:35
88
原创 ansible常见模块
系列文章目录文章目录系列文章目录前言一、1.ansible常用模块使用详解2.ansible常用模块之ping3.ansible常用模块之command4. ansible常用模块之raw5. ansible常用模块之shell6. ansible常用模块之script7. ansible常用模块之template8. ansible常用模块之yum9.ansible常用模块之copy10. ansible常用模块之group11. ansible常用模块之user12. ansible常用模块之serv
2022-05-25 22:02:55
355
原创 部署Ansible
文章目录前言一、安装ansible二、部署ansible三.管理Ansible配置文件前言一、安装ansible环境:centos8#配置阿里源[root@localhost ~]# curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-vault-8.5.2111.repo[root@localhost ~]# yum makecache [root@localhost ~]#
2022-05-24 22:35:27
293
原创 podman容器的开机自启
前言一、podman拉取busybox镜像作测试[root@localhost ~]# podman pull busyboxResolved "busybox" as an alias (/etc/containers/registries.conf.d/000-shortnames.conf)Trying to pull docker.io/library/busybox:latest...Getting image source signaturesCopying blob 6.
2022-05-10 21:11:24
358
原创 Podman
系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、podman详解二、Podman和Docker的主要区别是什么?**Podman的使用与docker有什么区别?**安装podmanpodman加速器podman的基础操作设置别名前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这
2022-05-09 23:08:24
531
原创 docker存储卷
docker存储卷文章目录docker存储卷前言一、COW机制什么是存储卷使用存储卷的好处为什么要用存储卷存储卷管理方式二、存储卷分类容器数据管理三.在容器中使用数据卷1.准备工作数据卷容器总结前言一、COW机制Docker镜像由多个只读层叠加而成,启动容器时,Docker会加载只读镜像层并在镜像栈顶部添加一个读写层。如果运行中的容器修改了现有的一个已经存在的文件,那么该文件将会从读写层下面的只读层复制到读写层,该文件的只读版本依然存在,只是已经被读写层中该文件的副本所隐藏,这就是“写时复制(
2022-05-04 20:28:08
95
原创 docker容器网络
docker容器网络文章目录docker容器网络前言一、docker容器网络二、docker的4种网络模式三、bridge模式四.container模式五.host模式六.none模式前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、docker容器网络Docker在安装后自动提供3种网络,可以使用docker network
2022-04-29 00:20:22
141
原创 docker容器网络配置
docker容器网络文章目录docker容器网络前言一、Linux内核实现名称空间的创建ip netns命令创建Network Namespace操作Network Namespace转移设备veth pair创建veth pair实现Network Namespace间通信veth设备重命名二、四种网络模式配置bridge模式配置none模式配置container模式配置host模式配置三.容器的常用操作查看容器的主机名在容器启动时注入主机名手动指定容器要使用的DNS手动往/etc/hosts文件中注
2022-04-28 22:53:27
433
原创 docker容器的虚拟化
docker容器的虚拟化文章目录docker容器的虚拟化前言一、虚拟化网络二、单节点容器间通信三.不同节点容器间通信前言一、虚拟化网络Network Namespace 是 Linux 内核提供的功能,是实现网络虚拟化的重要功能,它能创建多个隔离的网络空间,它们有独自网络栈信息。不管是虚拟机还是容器,运行的时候仿佛自己都在独立的网络中。而且不同Network Namespace的资源相互不可见,彼此之间无法通信。假如我们的物理机有4块物理网卡,我们要创建4个名称空间,而这些设备是可以单独关联至某
2022-04-27 22:13:29
133
原创 基于容器编译安装apache制作镜像
基于容器编译安装apache制作镜像文章目录基于容器编译安装apache制作镜像一、docker安装二、准备工作三.编译安装四.优化容器五、制作镜像六.运行脚本一、docker安装[root@bogon ~]# cd /etc/yum.repos.d/[root@bogon yum.repos.d]# wget https://mirrors.tuna.tsinghua.edu.cn/docker-ce/linux/centos/docker-ce.repo[root@bogon yum.re
2022-04-27 22:02:50
815
原创 基于容器编译安装apache
系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、环境部署准备工作二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供
2022-04-27 00:16:09
109
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人