- 博客(1450)
- 资源 (79)
- 收藏
- 关注

原创 大数据学习指南从入门到精通
利用框架的力量,看懂游戏规则,才是入行的前提大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾选择才是拉差距关键,风向,比你流的汗水重要一万倍,逆风划船要累死人的为什么选择学习大数据开发,不选择Java开发?借棋弈做比喻,智商高的不要选择五子琪,要选择围棋,它能长久地吸引你。不都是在棋盘上一颗黑子一颗白子地下吗?因为围棋更复杂,能够掌握如此复杂的技艺、产生稳定输出的棋手、让我们更佩服。选择学习大数据开发也如此,能让你的职业生涯走得更远,少走弯路。
2022-05-21 15:57:40
22450
184
原创 大数据Spark(五十七):Spark运行架构与MapReduce区别
提供了更高级的编程接口,如 RDD(弹性分布式数据集)和 DataFrame,支持丰富的操作算子,使得开发者可以以更简洁的方式编写复杂的处理逻辑。:采用基于磁盘的处理方式,每个任务的中间结果需要写入磁盘,然后再读取进行下一步处理。:提供了相对低级的编程接口,主要包含 Map 和 Reduce 两个操作,开发者需要编写较多的代码来实现复杂的数据处理逻辑。Application运行前,为所有的Spark Job申请资源,所有Job执行完成后,统一释放资源。:主要用于批处理任务,不适合实时数据处理。
2025-04-05 14:51:47
675
原创 大数据Spark(五十六):Spark生态模块与运行模式
Spark Core 是 Spark 的核心模块,提供了基本的功能和 API,包括任务调度、内存管理、故障恢复等,它实现了弹性分布式数据集(RDD)的概念,支持对分布式数据集的并行操作,Spark其他模块都是基于 Spark Core 构建。在 Kubernetes 模式下,Spark 应用程序以容器的形式运行,Kubernetes 负责容器的调度和管理。MLlib 模块是 Spark 的机器学习库,提供了常用的机器学习算法和工具,如分类、回归、聚类、协同过滤等。下面分别介绍Spark各个模块功能。
2025-03-30 13:53:35
1107
原创 大数据Spark(五十五):Spark框架及特点
与 MapReduce 每个任务都需要将中间结果写入磁盘不同,Spark 能够将作业中间数据缓存于内存中,得益于内存计算和优化的查询执行方式,Spark 在内存中的运算速度比 Hadoop 的 MapReduce 快 100 倍,在磁盘上的速度也快 10 倍。Spark 可以在单机、小型集群甚至上千节点的分布式环境中高效运行。,与 MapReduce 不同,Spark 可以将作业中间结果缓存于内存中,减少对磁盘的读写操作,因此在需要多次迭代计算的数据处理场景(如数据挖掘和机器学习)中表现出色。
2025-03-29 23:14:17
1049
原创 云原生(六十) | Web源码迁移部署
PHP-FPM 是一个 PHP FastCGI 进程管理器,它可以与 Nginx 协同工作来处理 PHP 请求。第一步:安装 EPEL 仓库 与 Remi仓库。第二步:把 Nginx 服务添加到开机启动项。第四步:启动并开机启用 PHP-FPM。第三步:下载北京ECS实例中的配置文件。第三步:安装 PHP、PHP-FPM。把Nginx服务添加到开机启动项。第一步:安装 Nginx 软件。第二步:启用 Remi 仓库。配置完成后,启动Nginx。第四步:启动Nginx。
2025-03-02 23:00:40
987
原创 云原生(五十九) | 香港ECS云服务器购买与配置
我们采用非备案域名来为大家演示CDN全站加速,所以在注册域名之前,我们需要先购买一个香港的云ECS服务器。② 非备案域名(域名注册后,不需要备案,可以直接使用,但是只能解析到非中国内地的ECS云服务器)① 备案域名(域名注册后,需要提交各种材料,经过1-2周左右的审核期,才能完成备案,较为复杂)由于CDN只能针对域名实现对全站的加速操作,但是域名也分为两种形式:备案域名以及非备案域名。配置完成后,单击确认下单,完成ECS服务器的购买操作。
2025-03-02 15:29:40
395
原创 云原生(五十七) | 阿里云CDN基本概念
CDN将源站资源缓存到阿里云遍布全球的加速节点,当终端用户请求访问和获取源站资源时无需回源,可就近 获取CDN节点上已经缓存的资源,提高资源访问速度,同时分担源站压力。阿 里云CDN能分担源站压力,避免网络拥塞,确保在不同区域、不同场景下加速网站内容的分发,提高资源访问 速度。阿里云在全球拥有3200+节点。丰富的资源节点、资源可弹性扩展、精准调度系统、高效的缓存策略、降低您的IT成本、提供行业通用标准API。阿里云CDN具有广泛的应用场景,可实现图片小文件、大文件下载和视音频点播业务类型的加速。
2025-02-23 18:51:26
449
原创 云原生(五十六) | CDN概述
到目前这个阶段,由于项目刚刚部署上线,我们仅需管理一台ECS服务器和一台RDS服务器即可,技术成本低, 资金需求也较低。
2025-02-23 13:23:24
1230
原创 云原生(五十五) | ECS中自建数据库迁移到RDS
我们之前在部署WordPress博客项目时,是把项目代码 + 数据库都部署在同一台机器上,但是如果云ECS出现故障,则整个系统都无法使用了,数据也存在丢失、损坏等风险。第二步:在ECS服务器使用mysqldump命令导出自建数据库中的wordpress数据库。第一步:在RDS控制台完成数据库账号以及wordpress数据库的创建。第四步:修改WordPress系统中的配置文件,完成数据库的迁移操作。设置完成后,保存退出,重新访问WordPress博客地址,如下图所示。设置白名单,如下图所示。
2025-02-16 13:51:02
1001
1
原创 云原生(五十四) | RDS数据导入与导出
我们刚才的操作都是通过SQL语句实现的,如果我们要导入的文件是以SQL、CSV或Excel等形式存储,应该如何导入呢?提交申请后,等待导出完成。下载后得到一个压缩包,压缩包中就是我们导出的.sql文件了。如果我们希望把RDS上的数据导出到文件应该如何操作呢?
2025-02-11 00:03:33
542
原创 云原生(五十三) | SQL查询操作
案例:基于DMS在db_xxxx数据库中创建tb_students数据表,包含字段id、name、age、gender、mobile信息。案例3:一键可视化,在DMS中,我们不仅可以通过SQL对数据表中的数据进行分析,还可以对其结果进行可视化展示。单击SQL查询菜单,进入DMS控制台,刷新已登录实例。基于以上数据库,我们可以通过以下两种方式创建数据表。创建一个普通账号,用于实现数据库管理。案例2:使用SQL实现数据查询操作。单击数据库管理,单击SQL查询。案例1:使用SQL插入测试数据。
2025-02-02 14:09:46
374
原创 云原生(五十二) | DataGrip软件使用
快捷键使用:Ctrl+Enter(快速执行选择的SQL语句)2. 附加文件夹到项目中【重要】3. DataGrip配置。
2025-01-31 18:26:04
605
原创 云原生(五十一) | MySQL Client客户端连接服务器
DataGrip是JetBrains公司推出的管理数据库的产品(数据库客户端软件),功能非常强大,可以兼容各种数据库。它的设计符合数据库管理员、开发人员需要。注意:第一次使用DataGrip连接mysql时, 要根据提示点击下载mysql连接驱动文件。标识网络上的唯一一台设备(电脑)。标识一台设备上的一个网络程序。第一步:创建工程项目。
2025-01-30 18:13:22
500
原创 大数据Azkaban(三):Azkaban编译及报错问题解决
Azkaban官方并没有提供Linux系统的编译安装包,需要读者根据需求在官网选择指定版本的Azkaban源文件,然后进行编译打包。
2024-10-26 21:33:46
1524
1
原创 大数据Azkaban(二):Azkaban简单介绍
Azkaban工作流管理器由三个核心部分组成,分别是Relational Database(关系型数据库MySQL)、AzkabanWebServer(Web服务器)、AzkabanExecutorServer(执行服务器)。
2024-10-24 21:52:37
1439
原创 大数据Azkaban(一):工作流管理器概述
无论是在业务开发还是在大数据开发中,工作流管理是必不可少的,在初期可以使用Linux自带的crontab工具来定时调度任务,但是当业务规模变大并且需要可视化监控任务执行的时候,crontab显然已经满足不了需求。各任务单元之间存在时间先后及依赖关系,为了将这复杂的执行计划组织起来,需要一个工作流调度系统来调度执行。Azkaban是对job调度管理,而每个job任务都编写在一个后缀名为.job的文本文件中,在该文件中可定义job任务类型、将运行的任务、依赖的其他job及job运行的相关参数。
2024-10-24 21:40:25
534
原创 云原生(五十) | 阿里云RDS数据库介绍
它最早由瑞典MySQL AB公司开发,后被SUN公司收购,目前属于 Oracle 甲骨文公司旗下产品。常见产品:MySQL、Oracle、DB2、SQL Server等。MySQL 是目前最流行的关系型数据库管理系统(RDBMS)之一。常见产品:MongoDB、Redis、Hbase、Neo4j等。数据存储形式:键值对存储、文档存储、列式存储、图式存储。数据存储形式:数据以关系模型(有行有列)方式进行存储。问题:关系型数据库那么多?为什么要学习MySQL?问题:什么是数据库?商品数据如何进行存储和管理?
2024-10-15 23:48:51
1334
2
原创 云原生(四十九) | WordPress源码部署
上传wordpress-6.4.1-zh_CN.tar.gz到/root目录下,然后使用tar命令对其进行解压缩,然后把文件上传到/web/wordpress目录。单击安装WordPress,然后使用设置好的账号与密码登录WordPress,返回首页,如下图所示。打开浏览器,输入公网IP地址,访问http://公网IP/index.php。配置阿里云安全组,放行80、443、3306等常用软件端口。第四步:访问并配置WordPress。第二步:上传源码到项目目录。第一步:创建项目目录。
2024-10-07 23:00:00
1001
原创 云原生(四十八) | Nginx软件安装部署
第二步:把 Nginx 服务添加到开机启动项。把Nginx服务添加到开机启动项。第一步:安装 Nginx 软件。配置完成后,启动Nginx。第三步:配置 Nginx。第四步:启动Nginx。
2024-10-06 06:00:00
392
原创 云原生(四十七) | PHP软件安装部署
PHP-FPM 是一个 PHP FastCGI 进程管理器,它可以与 Nginx 协同工作来处理 PHP 请求。第一步:安装 EPEL 仓库 与 Remi仓库。第四步:启动并开机启用 PHP-FPM。第三步:安装 PHP、PHP-FPM。第二步:启用 Remi 仓库。
2024-10-05 15:53:44
1054
原创 云原生(四十六) | MySQL软件安装部署
注: 如果安装过程中报错Public key for mysql-community-icu-data-files-8.0.29-1.el7.x86_64.rpm is not installed。但是以上账号、密码都只能针对当前主机,如果想开启远程连接,可以 通过如下方式设置:创建远程访问root用户。第三步:启动MySQL,获取默认密码,登录MySQL。第四步:修改MySQL密码(创建账号设置密码并授权)第二步:下载MySQL源,安装MySQL软件。修改MySQL默认密码。为该用户授予全部权限。
2024-10-05 07:00:00
444
原创 云原生(四十五) | ECS服务器项目部署实战
案例:为了让大家更好的理解ECS服务器的使用场景,我们通过一个比较经典的WordPress博客部署案例来讲解 一下ECS的应用。在您安装WordPress之前,您需要检查您的Web主机托管提供商提供了必要的软件和安装条件。MySQL 5.6或更高版本,或MariaDB 10.1或更高版本。PHP 7.3或更高版本。
2024-10-04 12:00:00
790
原创 云原生(四十四) | 远程连接ECS服务器
因为我们购买的服务器都是云服务器,虽然阿里云本身自带了在线的管理控制台,允许我们在线对其进 行管理,但是使用起来还是不太方便,为了解决这个问题,我们可以使用远程连接工具,通过网络连接到我 们已经申请好的ECS云服务器。ECS服务器简单测试,使用yum install sl -y安装sl软件,查看服务是否可用。申请了ECS的小伙伴,肯定在思考,接下来我们要如何管理ECS服务器呢?单击实例菜单,更换区域为华北2(北京),找到我们已申请的ECS实例。答:目前有两种方式,阿里云自带远程连接 以及 远程连接工具。
2024-10-04 07:30:00
1773
原创 云原生(四十二) | 阿里云平台注册
由于需要购买阿里云相关组件,如ECS、RDS、SLB等等,所以我们需要先对账号进行充值操作。选择充值菜单,进行充值操作。注:首次充值不得少于100元,否则后期有些组件无法购买!
2024-10-03 16:40:37
517
原创 云原生(四十一) | 阿里云ECS服务器介绍
云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资 源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的 管理工作或与服务供应商进行很少的交互。公有云通常指云提供商(如阿里)为第三方用户提供能够使用的云,可以通过Internet使用,价格低廉,方便 用户使用,使用户能够访问和共享基本的计算机基础设备资源,包括但不限于硬件、存储和带宽等等。像水、电这种资源一样,用多少付多少钱。
2024-10-02 23:01:47
1152
原创 大数据实时数仓Hologres(四):基于Flink+Hologres搭建实时数仓
在Flink开发平台,新建名为DWD的SQL流作业,并将如下代码拷贝到SQL编辑器后,部署并启动作业。创建Catalog时可以设置默认的源表、维表和结果表的WITH参数,也可以设置创建Hologres物理表的默认属性,例如上方table_property开头的参数。a) 在Flink开发平台,新建名为ODS的SQL流作业(步骤与test作业相同,引擎一致),并将如下代码拷贝到SQL编辑器。创建作业后,将如下代码拷贝到test作业的SQL编辑器上,修改目标参数取值后,选中代码片段后单击左侧代码行上的运行。
2024-10-01 16:51:43
3434
2
原创 大数据实时数仓Hologres(三):存储格式介绍
行存表设置了Primary Key(PK)的场景,系统会自动生成一个Row Identifier(RID),RID用于定位整行数据,同时系统也会将PK设置为Distribution Key和Clustering Key,这样就能快速定位到数据所在的Shard和文件,在基于主键查询的场景上,只需要扫描一个主键就能快速拿到所有列的全行数据,提升查询效率。数据在底层存储时会存储两份,一份按照行存格式存储,一份按照列存格式存储,因此会带来更多的存储开销。
2024-09-29 11:12:21
1198
1
原创 大数据实时数仓Hologres(二):Hologres 快速入门
外部表在Hologres中不存储数据,只进行字段映射。通过外部表可以使用Hologres直接调用存储于MaxCompute公共空间MAXCOMPUTE_PUBLIC_DATA的数据。以下SQL语句用来创建名称分别为LINEITEM、ORDERS、PARTSUPP、PART、CUSTOMER、SUPPLIER、NATION和REGION的表,用于后续存储数据。
2024-09-28 20:21:09
577
原创 大数据实时数仓Hologres(一):Hologres 简单介绍
Hologres是阿里巴巴自主研发的一站式实时数仓引擎(Real-Time Data Warehouse),支持海量数据实时写入、实时更新、实时加工、实时分析,支持标准SQL(兼容PostgreSQL协议和语法,支持大部分PostgreSQL函数),支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving),支持多种负载的细粒度隔离与企业级安全能力,与MaxCompute、Flink、DataWorks深度融合,提供企业级离在线一体化全栈数仓解决方案。
2024-09-25 23:08:55
1897
原创 大数据Flink(一百二十四):案例实践——淘宝母婴数据加速查询
本场景中订单和婴儿信息存储在MySQL中,对于订单表,为了方便进行分析,我们让它关联上其对应的婴儿信息,构成一张宽表。在这个例子中,我们将创建三张数据表,其中一张orders_dataset_tmp是导入数据的临时表,其他两张作为源表,体验淘宝母婴订单实时查询。导入完成之后,在SQLConsole页签中,输入如下SQL,然后单击执行,将订单数据导入到订单源表orders_dataset 中。选中代码,点击左上角运行,完成表的创建。点击提交申请后,等待审批完成,点击执行变更,返回如下结果,数据导入完成。
2024-09-24 17:57:27
1506
原创 大数据Flink(一百二十三):五分钟上手Flink MySQL连接器
由于商品名称及商品价格数据存储在另一张维度表 dimension_table中,我们需要将结果视图和 dimension_table进行JOIN操作,并将「商品销售量」、「商品价格」相乘计算出「商品销售额」,并提取结果中的商品可读名称信息作为结果表。本场景将以阿里云实时计算Flink版为基础,使用Flink自带的MySQL Connector连接RDS云数据库实例,并以一个实时商品销售数据统计的例子尝试上手Connector的数据捕获、数据写入等功能。选中代码,点击调试,观察控制台的输出结果。
2024-09-21 20:09:20
1503
原创 大数据Flink(一百二十二):阿里云Flink MySQL连接器介绍
MySQL CDC源表在正则匹配表名时,会将您填写的 database-name,table-name 通过字符串 \\.(VVR 8.0.1前使用字符.)连接成为一个全路径的正则表达式,然后使用该正则表达式和MySQL数据库中表的全限定名进行正则匹配。MySQL的CDC源表,即MySQL的流式源表,会先读取数据库的历史全量数据,并平滑切换到Binlog读取上,保证不多读一条也不少读一条数据。在读完chunk的数据之前,chunk的数据会先缓存在内存中,因此chunk 太大,可能导致内存OOM。
2024-09-20 21:31:35
1985
1
原创 大数据Flink(一百二十一):Flink CDC基本介绍
Flink CDC 基于数据库日志的 Change Data Caputre 技术,实现了全量和增量的一体化读取能力,并借助 Flink 优秀的管道能力和丰富的上下游生态,支持捕获多种数据库的变更,并将这些变更实时同步到下游存储。目前,Flink CDC 的上游已经支持了 MySQL、MariaDB、PG、Oracle、MongoDB 等丰富的数据源,对 Oceanbase、TiDB、SQLServer 等数据库的支持也已经在社区的规划中。的技术,我们都可以称之为 CDC。
2024-09-19 00:40:44
2634
5
原创 大数据Flink(一百二十):Flink SQL自定义函数(UDF)
点击确定后,Flink开发控制台会解析UDF文件中是否使用了Flink UDF、UDAF和UDTF接口的类,并自动提取类名,填充到Function Name字段中。进入阿里云Flink开发平台,点击左侧导航栏SQL开发,点击左侧的函数页签,单击注册UDF,将udx.zip上传,如下图所示。其中udfs.py udafs.py udtfs.py分别对应了UDSF、UDAF、UDTF三个函数的示例。点击创建函数,可以看到函数页签下出现了udx目录,下面有三个自定义函数,此时自定义函数创建完成。
2024-09-17 22:48:30
2092
4
原创 大数据Flink(一百一十九):Flink SQL函数简单介绍
在目前1.15版本的 Flink 体系中,内置的系统函数没有像 Hive 内置的函数那么丰富,比如 Hive 中常见的 get_json_object 之类的,Flink 都是没有的,但是 Flink 提供了插件化 Module 的能力,能扩充一些 UDF,下一篇文章会进行介绍。由于精确函数应用一定会带上 Catalog 或者数据库名称,所以 Flink 中的精确函数引用一定是指向临时性 Catalog 函数或 Catalog 函数的。系统内置函数可以直接在 Flink 官网进行查询,这里就不多进行介绍。
2024-09-16 22:54:49
1373
原创 大数据Flink(一百一十八):Flink SQL水印操作(Watermark)
4.后面几个以此类推,直到Event Time为:1648197590000的数据进来的时候,前一条数据的WaterMark为1648197589000,于是更新当前的WaterMark为1648197590000,Flink认为1648197590000之前的数据都已经到达,且达到了窗口的触发条件,开始进行计算。但是由于网络、分布式等原因,会导致数据乱序的情况。通过watermark来解决,简单来说就是延迟窗口关闭的时间,等一会迟到的数据,窗口关闭不在依据数据的时间,而是到达的watermark的时间。
2024-09-14 08:30:58
2414
3
原创 大数据Flink(一百一十七):Flink SQL的窗口操作
在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次,但是有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。在这种情况下,我们必须定义一个窗口,用来收集最近一分钟内的数据,并对这个窗口内的数据进行计算。Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(window)就是从 Streaming 到 Batch 的一个桥梁。
2024-09-12 22:10:46
1648
原创 Elasticsearch基础(七):Logstash如何开启死信队列
在 Logstash 中,死信队列(Dead Letter Queue, DLQ)是用于处理无法写入 Elasticsearch 的失败事件的功能。当 Logstash 无法将某些事件正确地导入 Elasticsearch(例如因为字段映射问题、数据格式问题等),这些事件可以被捕获并存储到死信队列中,以便后续排查和处理。Logstash 会将死信队列存储为特定格式的文件。通过启用死信队列,可以捕获这些失败事件并深入分析问题所在,找到未成功导入 Elasticsearch 的数据。
2024-09-11 10:24:25
1259
1
NiFi文档资料与软件包下载
2023-02-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人