
大数据开发
文章平均质量分 82
Samue1Zhu
这个作者很懒,什么都没留下…
展开
-
Docker上部署fastApi
project目录下新建requirements.txt和Dockerfile来进行配置用如下代码生成requirement内容Dockerfile3. 构建Docker镜像在terminal中输入:4.启动容器PS:由于本项目中要用到另外一个容器的mysql,因此要对network进行设置,配置一个bridge模式的网络,才可访问另外容器中的mysql。......原创 2022-06-21 18:10:22 · 843 阅读 · 0 评论 -
SparkCore基础知识总结
SparkCore基础知识1 Spark运行环境1) Local模式 不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学、调试、演示。2) StandAlone模式 StandAlone模式即独立部署模式,体现了经典的master-slave模式。在集群中选择一个节点作为Master,另外其他节点都可以作为Worker节点。3) Yarn模式 StandAlone模式由Spark自身提供计算资源,无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性,独立原创 2022-03-05 14:57:38 · 1753 阅读 · 0 评论 -
Kafka基础知识总结,附面试题
Kafka基础知识总结文章目录Kafka基础知识总结1 消息队列1.1 消息队列应用场景使用消息队列的好处:1.2 消息队列的两种模式2 Kafka基础架构2.1 Kafka工作流程及文件存储机制2.2 Kafka生产者2.2.1 分区策略2.2.2 数据可靠性保证2.2.3 Exactly Once语义2.3 Kafka消费者2.3.1 消费方式2.3.2 分区分配策略2.3.3 消费者offset的存储2.4 Kafka高效读写数据2.5 Zookeeper在Kafka中的之作用3 相关面试知识Ka原创 2022-02-28 18:20:39 · 1406 阅读 · 0 评论 -
HDFS、MapReduce、Yarn相关高频面试知识点
HDFS、MapReduce、Yarn相关高频面试知识文章目录HDFS、MapReduce、Yarn相关高频面试知识HDFS读写流程读流程写流程HDFS小文件处理MapRuduce工作流程Map阶段Reduce阶段Map后shuffle机制Shuffle 优化Yarn资源调度工作机制Yarn调度器Hadoop解决数据倾斜的方法HDFS读写流程读流程客户端(HDFS Client)通过Distributed FileSystem分布式文件系统向NameNode请求下载文件,由NameNode返回目原创 2022-02-26 16:06:58 · 1218 阅读 · 0 评论 -
Spark Streaming + Kafka 实现实时数据传输
Spark Streaming + Kafka 实现实时数据传输版本说明:Spark 3.0.0Kafka 2.12zookeeper 3.5.7文章目录Spark Streaming + Kafka 实现实时数据传输一、集群端二、IDEA端一、集群端前提:配置好并启动三台节点的zookeeper在三个结点分别配置Kafka①解压安装包,在安装目录/home/kafka-2.12下创建logs文件夹②修改./config/vi server.properties配置文件-----原创 2022-02-24 16:31:10 · 1988 阅读 · 0 评论