僖僖cc-优快云博客

原创初识Hadoop-概述与关键技术

高速发展的信息时代，新一轮科技革命和变革正在加速推进，技术创新日益成为重塑经济发展模式和促进经济增长的重要驱动力量，而“大数据”无疑是核心推动力。那么，什么是“大数据”呢？如果从字面意思来看，大数据指的是巨量数据。那么可能有人会问，多大量级的数据才叫大数据？不同的机构或学者有不同的理解，难以有一个非常定量的定义，只能说，大数据的计量单位已经越过TB级别发展到PB、EB、ZB、YB甚至BB来衡量。

2024-01-11 14:48:21 1617

原创大数据处理与分析

MapReduce核心函数：MapReduce之策略：计算向数据靠拢而不是数据向计算靠拢要完成一次数据分析时，选择一个计算节点，把运行数据分析的程序放在计算节点上运行然后把它所涉及的数据，全部从各个不同节点上面拉过来，传输到计算发生的地方。

2023-12-20 17:57:06 1343

第一阶段：Spark最初由美国加州伯克利大学( UC Berkelcy)的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序第二阶段：2013年Spark加入Apache孵化器项日后发展迅猛，如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一( Hadoop磁盘MR离线式、Spark基于内存实时数据分析框架、Storm数据流分析框架）

2023-12-20 17:53:49 1819

原创从传统型数据库到非关系型数据库

数据库顾名思义保存数据的仓库，其本质是一个具有数据存储功能的复杂系统软件，数据库最终把数据保存在计算机硬盘，但数据库并不是直接读写数据在硬盘，而是中间隔了一层操作系统，通过文件系统把数据保存为本地文件系统的数据文件；我们讲过Hadoop，分布式文件系统HDFS的数据块本质上也是本地文件系统的普通数据文件。二传统关系型数据库为什么行，又为什么不行了？讲HBase之前，我们先从关系数据库讲起，再从逻辑上一步步推导出为什么要使用HBase1 关系数据库为什么行？从一个关系数据库。

2023-12-13 17:28:45 1480

原创分布式数据库HBase

HBase是一个分布式的、面向列的开源数据库HBase是Google BigTable的开源实现HBase不同于一般的关系数据库, 适合非结构化数据存储HBase是一种分布式、可扩展、支持海量数据存储的 NoSQL数据库。HBase是依赖Hadoop的。为什么HBase能存储海量的数据？因为HBase是在HDFS的基础之上构建的，HDFS是分布式文件系统。HBase在HDFS之上提供了高并发的随机写和支持实时查询，这是HDFS不具备的。

2023-12-06 19:35:13 2212 1

原创分布式文件系统之HDFS

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

2023-11-29 17:40:54 1536 2

原创大数据预处理技术

简单来讲，爬虫就是一个探测机器，它的基本操作就是模拟人的行为去各个网站溜达，点点按钮，查查数据，或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。平时我们俗称的”网址“，其实就是 URL（Uniform Resource Locator），翻译为统一资源定位符互连网上的每个文件都有一个唯一的 URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它协议:通常是https或者http。表示通过何种方式获取该资源。你可能还见过其他协议类型，比如ftp或者file，协议后面跟着://

2023-11-22 16:13:39 3010 1

原创大数据技术平台

大数据定义定义：大数据主要解决，海量数据的采集、存储、分析计算问题。Volume(大量) Velocity(高速) Variety(多样) Value(低价值密度)1.2、Hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中。

2023-11-15 17:42:22 303

原创大数据与人工智能物联网和云计算之间的关系

任何物品与互联网相连接，进行信息交换，以实现智能化。

2023-11-08 18:39:35 1373

原创 Hadoop之MapReduce

定义：是一个分布式运算程序的编程框架，是 Hadoop 内部编写的。功能：用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。大致流程：

2023-10-09 16:23:26 212

原创 Hadoop之HDFS

HDFS(Hadoop Distributed File System)，它是一个文件系统，用于存储文件，通过目录树来定位文件;其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。适合一次写入，多次读出的场景，不支持文件修改，可以过来做数据分析。优点：（1）容错性高：主要有多个副本（2）适合处理大数据：数据规模可达到 PB级别，文件量能够处理百万这个量级（3）可构建在廉价机器上缺点：（1）数据访问有延时，做不到毫秒级别的。

2023-10-09 14:10:21 191

原创大数据导论面试习题汇总一

大数据导论通识课程。

2023-10-08 11:09:28 417

原创 nginx

nginx（发音同engine x）是一款高性能、轻量级、高并发的Web服务器/反向代理服务器及电子邮件（IMAP/POP3）代理服务器，并在一个BSD-like协议下发行。nginx由俄罗斯的程序设计师Igor Sysoev所开发，最初供俄国大型的入口网站及搜寻引擎Rambler使用。第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名。2011年6月1日，nginx 1.0.4发布。

2022-09-04 00:06:38 272

原创 keepalived实现lvs高可用

keepalived起初是为LVS设计的专门用来监控集群系统中各个服务节点的状态如果某个服务节点出现异常或者工作出现故障,keepalived将检测到,并将出现故障的服务节点从集群系统中剔除,而在故障节点恢复正常后,keepalived又可以自动将该服务节点重新加入集群中，这些工作全部自动完成。这部分功能类似于nginx 等反向代理的应用探活功能实现后端服务高可用。后来又加入了VRRP的功能，VRRP(Virtual Router Redundancy Protocol)，虚拟路由协议出现的目的是为了解决

2022-08-31 10:43:10 724

原创 tomcat部署

下载tomcat# 下载tomcat软件包 [ root@localhost ~ ] # wget https : //archive.apache.org/dist/tomcat/tomcat-9/v9.0.65/bin/apache-tomcat-9.0.65.tar.gz #解压 [ root@localhost ~ ] # ls。

2022-08-17 23:19:19 397

原创 sed高级应用

D命令即是删除行 (delete lines)是对sed的输出流里的数据进行删除而不是直接作用到文件本身。n 1到512之间的数字，表示文本模式第n次出现的情况进行替换。w 将模式空间的内容写到文件file中。使用大括号惊醒分组使其用于同一个地址。g 对匹配的结果进行全局替换。p 打印替换后的内容。......

2022-08-02 21:57:17 406

原创自定义监控 -mysql主从-MySQL延迟

2.搭建mysql主从配置主库配置主库文件配置从库文件测试从库查看自定义监控mysql主从状态编写脚本测试脚本配置文件配置zabbix网页添加监控项添加监控参数添加触发器填写参数测试查看打印为1编写脚本测试修改文件配置zabbix网页添加监控项添加触发器测试...

2022-07-12 01:01:17 197

原创自定义监控

系统方面的指标zabbix监控配置一般包括以下几步Linux-agent端安装zabbix-agent自定义监控httpd进程准备工作编写脚本测试脚本运行脚本服务端测试添加触发创建触发器测试优化修改文件服务器测试网页修改监控项修改httpd自定义监控mysql添加触发器查看测试关闭mysql服务准备工作测试脚本配置文件添加监控配置触发器测试![在这里插入图片描述](https://img-blog.csdnimg.cn/ac733e9eb92d4a4b

2022-07-10 23:25:24 418

原创 zabbix监控配置

zabbix监控指标监控指标：“指标即需要监控的单位”这些指标一般有：zabbix监控配置流程添加主机或主机组添加监控项添加触发器添加媒介为用户选择要使用的媒介添加动作手动触发并验证准备工作server端已经安装了zabbix的server和agent配置zabbix_agentd.conf文件配置服务端填好各项后单击下面的add客户端效果图添加监控项zabbix如何查看key单击后的页面就能看到key打开后单击create item单击查看添加添加触发创建触发器单击页面

2022-07-08 00:16:14 675

原创监控服务zabbix部署

zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix能监视各种网络参数，保证服务器系统的安全运营；并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。zabbix由2部分构成，zabbix server与可选组件zabbix agent。zabbix server可以通过SNMP，zabbix agent，ping，端口监视等方法提供对远程服务器/网络状态的监视，数据收集等功能，它可以运行在Linux，Ubuntu，Solaris，HP-UX，

2022-07-06 22:28:02 153

原创 lamp部署

例如：第一章 Python 机器学习入门之pandas的使用例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。部署httpd服务安装apr源包安装apache的依赖apr时报rm: cannot remove ‘libtoolT’: No such file or directory的错安装apr-util源码包安装httpd源码包配置httpd服务·配置环境变量配置man文件关闭防火墙和selinux开启httpd

2022-07-05 23:32:00 413

原创 MySQL 主从

主从简介在现代企业中，数据显得尤为重要，而存储数据的数据库选择又五花八门，但无论是何种数据库，均存在着一种隐患。想几个问题：用一台数据库存放数据，若此数据库服务器宕机了导致数据丢失怎么办？业务量大了，数据多了，访问的人多了，一台数据库无法保证服务质量了怎么办？主从作用实时灾备，用于故障切换读写分离，提供查询服务备份，避免影响业务主从的形式一主一从主主复制一主多从—扩展系统读取的性能，因为读是在从库读取的多主一从—5.7开始支持联级复制主从复制原理主从复制步骤：主从复制配置主从复制配置步骤：需求

2022-07-03 23:31:09 181

原创 mysql多实例部署

`MySQL的多实例就是在一台机器上开启多个不同的服务端口，运行多个MySQL服务进程，使用不同的socket来监听这多个不同的端口以此提供服务，这一点和Oracle的多实例类似。这些MySQL的实例共用相同的MySQL但是使用的参数文件是不一样的，相应的数据文件也不同。提供服务的时候从逻辑上看各自独立，各自获取的硬件资源可以灵活设定？如何部署MySQL多实例部署的方式有两种：1.使用mysqld_multi工具，用单独的配置文件实现多实例配置复杂但是管理方便。2.设置多个配置文件启动，这样启动不同进程实

2022-07-03 22:37:04 540

原创 mysql 数据库备份与恢复

数据库备份方案：**全量备份：把所有数据或应用都备份一遍数据恢复快但是备份时间长增量备份：当备份或增量备份后在进行增量备份，只会备份和上次不同的数据（增加修改的数据）备份时间短但是恢复数据需要按顺序差异备份：和上一次备份做对比备份发生变化的文件恢复数据时只需要对第一次全量备份和最后一次差异备份进行恢复**mysql数据恢复删除school库恢复所有库删除表差异备份与恢复mysql 差异备份完全备份删除数据库刷新创建新的二进制日志恢复完全备份恢复差异备份...

2022-06-30 22:45:00 168

原创 mysql 联合查询

什么是多表联合查询前面所讲的查询语句都是针对一个表的，但是在关系型数据库中，表与表之间是有联系的，所以在实际应用中，经常使用多表查询。多表查询就是同时查询两个或两个以上的表。在 MySQL 中，多表查询主要有交叉连接、内连接、外连接、分组查询与子查询等5种。交叉连接(CROSS JOIN)3.2.1 笛卡尔积集合 A×B 和 B×A 的结果集分别表示为：以上 A×B 和 B×A 的结果就叫做两个集合的笛卡尔积。并且，从以上结果我们可以看出3.2.2 交叉连接交叉连接的语法格式如下：或语法说明

2022-06-30 00:23:01 2192

原创 mysql进阶

二、解压MySQL 安装包设置环境变量建立数据存放目录生成配置文件配置服务启动脚本启动mysql启动发现报错解决方案：再次登录验证密码：

2022-06-29 01:22:16 456

原创时间同步角色和SELinux角色

二、时间同步角色时间同步角色示例配置清单和ansible.cfg文件查看受控主机的chrony.conf文件受控机查看SELinux角色查看受控主机selinux状态执行playbook查看受控主机

2022-06-15 00:16:59 222

原创管理变机密和事实

1.1 Ansible变量简介Ansible支持利用变量来存储值，并在Ansible项目的所有文件中重复使用这些值。这可以简化项目的创建和维护，并减少错误的数量。通过变量，可以轻松地在Ansible项目中管理给定环境的动态值。例如，变量可能包含下面这些值：变量的名称必须以字母开头，并且只能包含字母、数字和下划线。无效和有效的Ansible变量名称示例可以在Ansible项目中的多个位置定义变量。不过，这些变量大致可简化为三个范围级别：全局范围：从命令行或Ansible配置设置的变量Play范围：在pl

2022-06-05 22:35:44 210

原创使用playbook部署httpd

二、设置免密登录配置ansible为剧本添加其他任务修改host文件测试

2022-06-05 21:35:53 188

原创 playbook

连接[root@control httpd]# ssh web01.example.comroot@web01.example.com's password: Activate the web console with: systemctl enable --now cockpit.socket This system is not registered to Red Hat Insights. See https://cloud.redhat.com/To register this syst

2022-05-29 21:31:35 113

原创 ansible常见模块

系列文章目录文章目录系列文章目录前言一、1.ansible常用模块使用详解2.ansible常用模块之ping3.ansible常用模块之command4. ansible常用模块之raw5. ansible常用模块之shell6. ansible常用模块之script7. ansible常用模块之template8. ansible常用模块之yum9.ansible常用模块之copy10. ansible常用模块之group11. ansible常用模块之user12. ansible常用模块之serv

2022-05-25 22:02:55 395

原创部署Ansible

文章目录前言一、安装ansible二、部署ansible三.管理Ansible配置文件前言一、安装ansible环境：centos8#配置阿里源[root@localhost ~]# curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-vault-8.5.2111.repo[root@localhost ~]# yum makecache [root@localhost ~]#

2022-05-24 22:35:27 368

原创 podman容器的开机自启

前言一、podman拉取busybox镜像作测试[root@localhost ~]# podman pull busyboxResolved "busybox" as an alias (/etc/containers/registries.conf.d/000-shortnames.conf)Trying to pull docker.io/library/busybox:latest...Getting image source signaturesCopying blob 6.

2022-05-10 21:11:24 454

原创 Podman

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、podman详解二、Podman和Docker的主要区别是什么？**Podman的使用与docker有什么区别？**安装podmanpodman加速器podman的基础操作设置别名前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这

2022-05-09 23:08:24 729

原创 docker存储卷

docker存储卷文章目录docker存储卷前言一、COW机制什么是存储卷使用存储卷的好处为什么要用存储卷存储卷管理方式二、存储卷分类容器数据管理三.在容器中使用数据卷1.准备工作数据卷容器总结前言一、COW机制Docker镜像由多个只读层叠加而成，启动容器时，Docker会加载只读镜像层并在镜像栈顶部添加一个读写层。如果运行中的容器修改了现有的一个已经存在的文件，那么该文件将会从读写层下面的只读层复制到读写层，该文件的只读版本依然存在，只是已经被读写层中该文件的副本所隐藏，这就是“写时复制(

2022-05-04 20:28:08 122

原创 docker容器网络

docker容器网络文章目录docker容器网络前言一、docker容器网络二、docker的4种网络模式三、bridge模式四.container模式五.host模式六.none模式前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、docker容器网络Docker在安装后自动提供3种网络，可以使用docker network

2022-04-29 00:20:22 160

原创 docker容器网络配置

docker容器网络文章目录docker容器网络前言一、Linux内核实现名称空间的创建ip netns命令创建Network Namespace操作Network Namespace转移设备veth pair创建veth pair实现Network Namespace间通信veth设备重命名二、四种网络模式配置bridge模式配置none模式配置container模式配置host模式配置三.容器的常用操作查看容器的主机名在容器启动时注入主机名手动指定容器要使用的DNS手动往/etc/hosts文件中注

2022-04-28 22:53:27 484

空空如也

空空如也