普通网友-优快云博客

原创最新DolphinScheduler海豚调度教程_海豚调度使用说明，2024年最新2024年百度大数据开发面试真题

dolphinscheduler-alert 告警模块，提供 AlertServer 服务。dolphinscheduler-api web应用模块，提供 ApiServer 服务。dolphinscheduler-common 通用的常量枚举、工具类、数据结构或者基类dolphinscheduler-dao 提供数据库访问等操作。dolphinscheduler-remote 基于 netty 的客户端、服务端。

2024-05-16 05:55:19 1933

原创最新DolphinScheduler2，面经解析

【代码】最新DolphinScheduler2，面经解析。

2024-05-16 05:54:44 1253

原创最新Docker快速部署RabbitMq教程，这一篇就够了！，从入门到真香

这个报错原因主要就是：在你启用docker的时候rabbitmq相关的端口并未放开，而 docker是在启动的时候才会向iptables注册一个链，这样就是让docker服务管理的容器所暴露的端口之间进行通信。所以，你在docker启动后，再放开相关端口的时候，这些新开的端口是没有注册上去的。出现这种情况基本上是因为你在安装的时候，是使用的该命令docker pull rabbitmq 拉取镜像的。上面也提到使用该命令拉取镜像的时候，是默认不开启后台管理功能的。那么，此时该如何解决这个问题就很清晰了。

2024-05-16 05:54:11 710

原创最新Docker初级：Docker常用命令总结_docker命令在官网哪里看(4)，2024年最新2024年最新大数据开发面试点梳理

docker容器后台启动时，必须有一个前台的进程，docker发现没有前台，就会自动停止。(img-3jVBpgBH-1715809996163)](img-hRrNM3xG-1715809996164)](img-ts72NN8c-1715809996164)]容器采用后台方式运行，需要进入容器修改一些配置。注意：正在运行的容器不能删除！在使用容器之前需要先下载镜像！方式二：进入正在运行的命令行。方式一：打开新的窗口。

2024-05-16 05:53:37 335

原创大数据最新机器学习概述(2)，大数据开发程序员怎么优雅迈过30K+这道坎

一行数据我们称为一个样本一列数据我们成为一个特征有些数据有目标值（标签值），有些数据没有目标值（如上表中，电影类型就是这个数据集的目标值）

2024-05-15 21:07:18 405

原创大数据最新机器学习_PySpark-3，2024年最新大数据开发黑科技实现原理揭秘

这里只是简单示例, 目的在于熟悉 Spark 中的随机森林回归使用方法, 无任何投资引导。通过预测Iris(鸢尾花)的。由于Iris(鸢尾花)的是的形式, 本例将使用pyspark.ml的模块将Iris(鸢尾花)的索引化。

2024-05-15 21:06:45 444

原创大数据最新斜说数据结构“树”，青年才俊告别网页pdf(1)，2024年最新干货整理

重要的事要说三遍，【F12】我们常常忽略它的存在，以为是程序员专用的东西，其实人人都可以用它为自己装一装，忙一忙。没有父节点的节点称为根节点；不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！把它叫做“树”是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。1）n>0时根结点是唯一的，不可能存在多个根结点，数据结构中的树只能有一个根结点。2）m>0时，子树的个数没有限制，但它们一定是互不相交的。

2024-05-15 21:06:12 459

原创大数据最新数据结构与算法之《二叉树》详解，2024年最新顺利收获Offer

定义结构体时，由上面的链式存储结构我们直到该结构体应该包含一个存储数据的变量，和指向左右分支节点的指针；我们看代码实现。}BTNode;首先我们自己要有一个二叉树，简单的二叉树即可。因为下面的操作都是在二叉树上进行的。

2024-05-15 21:05:38 312

原创大数据ELK（二）：Elasticsearch简单介绍_elk是什么时候开始流行的(3)

Elasticsearch 聚合可以对数十亿行日志数据进行聚合分析，探索数据的趋势和规律。盖了95%以上大数据知识点，真正体系化！Shay Banon （谢巴农）电商 / 门户 / 论坛。

2024-05-15 10:18:04 397

原创大数据ELK（二）：Elasticsearch简单介绍_elk是什么时候开始流行的(2)

统化资料的朋友，可以戳这里获取](https://bbs.youkuaiyun.com/topics/618545628)**Elasticsearch 聚合可以对数十亿行日志数据进行聚合分析，探索数据的趋势和规律。电商 / 门户 / 论坛。

2024-05-15 10:17:28 443

原创大数据ELK（二）：Elasticsearch简单介绍_elk是什么时候开始流行的(1)

Elasticsearch 聚合可以对数十亿行日志数据进行聚合分析，探索数据的趋势和规律。盖了95%以上大数据知识点，真正体系化！Shay Banon （谢巴农）电商 / 门户 / 论坛。

2024-05-15 10:16:52 309

原创大数据-MapReduce和Yarn技术原理_执行mapreduce的时候为什么首先请求yarn

将Map输出的记录进行排序。例如将（‘Hi’,‘1’）,(‘Hello’,‘1’)重新排序为（‘Hello’,‘1’）,(‘Hi’,‘1’)（3）组合（Combine）这个动作MR框架默认是可选的。例如将（‘Hi’,‘1’）,（‘Hi’,‘1’）,（‘Hello’,‘1’）,（‘Hello’，‘1’）进行合并操作（‘Hi’，‘2’），（‘Hello’，‘2’）（4）合并（spill）

2024-05-15 10:16:16 364

原创【云原生从零开始学Kubernetes】十六、k8s核心技术-Deployment深入使用_deployment 替换entrypoint(1)

查看 Deployment 下的 spec.template 字段，template 为定义 Pod 的模板，Deployment 通过模板创建 Pod。查看 Deployment 下的 spec.template.spec 字段。查看 Deployment 下的 spec.strategy 字段。查看 Deployment 资源对象由哪几部分组成。查看 Deployment 下的 spec 字段。

2024-05-15 01:39:39 521

原创【云原生从零开始学Kubernetes】十一、k8s污点、容忍度和pod状态_怎么查看节点是否打污点

未知状态，所谓 pod 是什么状态是 apiserver 和运行在 pod 节点的 kubelet 进行通信获取状态信息的，如果节点之上的 kubelet 本身出故障，那么 apiserver 就连不上kubelet，得不到信息了，就会 Unknown。我们在请求创建 pod 时，条件不满足，调度没有完成，没有任何一个节点能满足调度条件，已经创建了 pod 但是没有适合它运行的节点叫做挂起，调度没有完成，处于 pending的状态会持续一段时间：包括调度 Pod 的时间和通过网络下载镜像的时间。

2024-05-15 01:39:03 918

原创【云原生从零开始学Kubernetes】十一、k8s污点、容忍度和pod状态_怎么查看节点是否打污点(1)

还是显示 pending，因为我们使用的是 equal（等值匹配），所以 key 和 value，effect 必须和node 节点定义的污点完全匹配才可以，把上面配置 effect: "NoExecute"变成 effect: "NoSchedule"成,tolerationSeconds: 3600 这行去掉.可以看到都被调度到 node1 上了，因为 node2 这个节点打了污点，而我们在创建 pod 的时候没有容忍度，所以 node2 上不会有 pod 调度上去的。给 node1 也打上污点。

2024-05-15 01:38:27 962

原创【云原生从零开始学Kubernetes】六、Kubernetes核心技术Pod_从零开始学kubernetes 百度云

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

2024-05-15 01:37:51 864

原创 HiveSQL分区的作用及创建分区表案例演示(图解)_hive 动态分区sql(1)

3.1查询出所有的archer数据。

2024-05-14 16:17:03 472

原创 HBase完全分布式配置（上）hadoop篇保姆级教程（近乎零基础跟着配也能配对）

到此为止可以把这台虚拟机克隆两份了，分别叫node2和node3，注意要放到不同的文件夹下。node3同理。

2024-05-14 16:16:27 434

原创 HBase完全分布式配置（上）hadoop篇保姆级教程（近乎零基础跟着配也能配对）(3)

HADOOPHOMEbin主机映射名3主机映射名yarn```

2024-05-14 16:15:51 1132

原创 HBase完全分布式配置（上）hadoop篇保姆级教程（近乎零基础跟着配也能配对）(2)

HADOOPHOMEbin主机映射名3主机映射名yarn```

2024-05-14 16:15:15 887

原创 2024年最全数据仓库——聚集(5)，2024年最新2024年抓住金三银四涨薪好时机

理想的聚集对数仓用户是不可见的，每当需要时才默默地提供支持。理想的聚集也是免维护的，可以自动地建立和维护，不需要ETL开发人员介入。

2024-05-14 07:38:59 710

原创 2024年最全数仓实践：浅谈 Kimball 维度建模_kimball维度建模，2024-2024蚂蚁金服大数据开发面试真题解析

雪花架构是对星形架构维度表的规范化，比如上述的商品表例子，在雪花架构中，其每一行仅存储品牌 ID ，而品牌的所有其他信息（包括品牌名称、拥有者、注册地等所有描述信息）都存储在单独的品牌维度表内。星形架构中，每个维度都是均等的，所有维度表都是进入事实表的对等入口，用户可以从任一维度、任一维度属性或者任意多个维度组合、任意多个维度属性组合，方便地对数据进行过滤和聚合（汇总、均值、最大、最小等）操作，而且非常符合业务分析直觉。业务是多变的，模型的设计必须能够经受住业务多变的需求。

2024-05-14 07:38:24 846

原创 2024年最全数仓实践：企业级 CDP 数据工程实践经验_cdp系统中事件和属性，2024年最新IBM大面积辞退40岁+的员工

三方数据是其他来源的数据。通过对数据质量的评估，我们可以了解数据的可靠性和可用性，并为后续的数据处理和分析工作提供基础。通过了解客户的数据，以及评估数据的内容、关系和质量，我们可以确保在后续的数据工程实践中获得高质量和有价值的数据资源。CDP项目数据工程主要包括7个阶段，如下所示，在后面针对每个阶段的详细介绍中首先会给出每个阶段的输入和输出，再介绍每个阶段的工作内容和要点。通过对标签体系和口径数据的梳理，我们可以确保在后续的数据处理和分析过程中，能够基于准确和可靠的标签数据进行业务指标的衡量和分析。

2024-05-14 07:37:47 1203

原创 2024年最全探讨大数据、云计算与物联网的融合与发展，2024年最新三面美团大数据开发岗

趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！IT基础设施层：提供大数据处理的硬件和软件环境，如高性能计算、分布式存储等。

2024-05-14 07:37:11 422

原创 2024年大数据最新Knife4j实现微服务聚合API文档实战(1)，2024年最新大数据开发开发核心知识笔记共2100页

想要构建一个单体是的API文档其实非常简单。SpringBoot的其他配置就省略了，自行查阅。启动项目即可，访问http://localhost/doc.html，如下图。

2024-05-13 22:50:49 1000

原创 2024年大数据最新Keras—数据可视化工具：grapphviz和pydot，采坑记录(2)，2024最新网易大数据开发面试题目

感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！2.其次，下载graphviz这个软件。记住安装路径，并将路径添加到系统path中。1、首先，在Anconda Prompt终端或Pycharm终端输入命令。下载完.smi文件后，若嫌麻烦可以一路。Anconda Prompt终端。3.最后，在上述终端中输入。

2024-05-13 22:50:13 415

原创 2024年大数据最新Kafka数据丢失原因及解决方案_kafka消息丢失解决方案，大数据开发程序员必备

丢失原因：Kafka在Producer端的消息发送采用的是异步发送的方式(还有同步发送，但是同步发送会导致消息阻塞、需要等待)，丢失数据是因为消息没有到达Broker端，原因可能是网络波动导致没有回调和数据消息太大超出Broker承受范围，导致Broker拒收消息。解决方法：更换调用方式，不使用异步发送，使用带回调通知函数的方法进行发送消息，网络波动和消息过大，可以调整Producer端重试次数和消息大小。丢失原因：Kafka默认ack设置为1，会存在数据丢失问题。(ack为0也会存在丢数据问题)

2024-05-13 22:49:37 770

原创 2024年大数据最新Kafka数据丢失原因及解决方案_kafka消息丢失解决方案(2)，2024年最新美团大数据开发研发岗二面

丢失原因：数据从Producer端push过来后，Broker端需要将数据持久化存储到磁盘中，消息存储是异步存储的，即按照一定的消息数量和间隔时间进行存储，数据会先放在 PageCache 中，如果在存储的时候Broker宕机，此时选举了一个落后Leader Partition 很多的 Follower Partition 成为新的Lerder Partition，那么落后的消息就会丢失。友，可以戳这里获取](https://bbs.youkuaiyun.com/topics/618545628)**

2024-05-13 22:49:01 828

原创源码安装Python学会有用还能装逼解决各种坑_为什么 python 源码安装

对某个用户的.bash_profile中添加设置PYTHONHOME和PATH，把bin目录放在path的最前面（至少要在搜索python2，也就是/usr/bin目录之前）上面源码编译后二进制文件为python3，我们希望在任意目录输入python都能调用python3。PYTHONPATH是Python中一个重要的环境变量，用于在导入模块的时候搜索路径。PYTHONHOME为PYTHON的安装路径，默认设置为python的安装路径。直接报存下面的代码为install.sh，然后运行安装吧。

2024-05-12 19:53:58 791

原创源码安装Python学会有用还能装逼解决各种坑_为什么 python 源码安装(1)

切换为root用户安装。

2024-05-12 19:53:22 424

原创深度学习实验：Softmax实现手写数字识别_案例1 softmax实现手写数字识别

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！if name == ‘main’:# You can modify the hyerparameters by yourself.relu_cfg = {‘

2024-05-12 19:52:47 927

原创深度学习实验：Softmax实现手写数字识别_案例1 softmax实现手写数字识别(2)

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！if name == ‘main’:# You can modify the hyerparameters by yourself.relu_cfg = {‘

2024-05-12 19:52:10 815

原创大数据最新设计模式基础前奏（上）(2)，图文详解

类图(Class diagram)是显示了模型的静态结构，特别是模型中存在的类、类的内部结构以及它们与其他类的关系等。类图不显示暂时性的信息。类图是面向对象建模的主要组成部分。

2024-05-12 02:44:28 808 1

原创大数据最新论如何参与一个开源项目（中）：Fork仓库和编写代码_sync fork，2024年大数据开发高级面试题

这是论如何参与一个开源项目系列的第二篇文章，其他文章可以通过下面的链接访问本篇我们要讲的是如何开始向开源项目编写代码，没有看上篇的同学可以先去看一下上篇的内容噢！

2024-05-12 02:43:52 915

原创大数据最新计算机视觉项目实战-驾驶员疲劳检测_计算机视觉疲劳检测，大数据开发面试题大全

预处理breakwidth=1200# 创建68*2# 遍历每一个关键点# 得到坐标# 计算距离，竖直的# 计算距离，水平的# ear值return earreturn marobject_pts = np.float32([[6.825897, 6.760612, 4.402142], #33左眉左上角[1.330353, 7.122144, 6.903745], #29左眉右角。

2024-05-12 02:43:16 1118 2

原创大数据最新计算机网络-分组交换与电路交换_分组交换举例，大数据开发从入门到精通

在这个例子中，这条专用的端到端连接使用第一条链路中的第二条电路和第二条链路中的第四条电路。因为每条链路具有4条电路，对于由端到端连接所使用的每条链路而言，该连接在连接期间获得链路总传输容量的1/2。但与电路交换不同的是，该分组被发送进网路，而不预留任何链路资源之类的东西。当网络创建这种电路时，它也在连接期间在该网络链路上预留了恒定的传输速率（表示为每条链路传输容量的一部分）。因此，如果某源端系统或分组交换机经过一条链路发送一个L比特的分组，链路的传输速率为R比特/秒，则传输该分组的时间为L/R秒。

2024-05-12 02:42:40 671

空空如也

空空如也