
大数据
文章平均质量分 81
大数据相关知识总结
天选之子123
此人一点都不懒,需要什么就留言,我现在写
展开
-
什么是flink
Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。Apache Flink 功能强大,支持开发和运行多种不同种类的应用程序。它的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink 不仅可以运行在包括 YARN、 Mesos、Kubernetes 在内的多种资源管理框架上,还支持在裸机集群上独立部署。原创 2025-03-03 15:27:30 · 1105 阅读 · 0 评论 -
Kibana
Kibana是一个开源的分析和可视化平台,提供用户界面对 Elasticsearch 数据进行可视化。可以用Kibana来搜索,查看,并和存储在Elasticsearch索引中的数据进行交互。可以轻松地执行高级数据分析,并且以各种图标、表格和地图的形式可视化数据。原创 2025-03-03 15:27:12 · 280 阅读 · 0 评论 -
ES集群部署
内网环境windows机器在同一局域网下可以配置为一个集群,本机模拟三节点的集群,在windows环境下设置不同的端口实现。重在体验。将windows下的安装包解压到三个文件夹下,并修改配置文件 elasticsearch.yml。原创 2025-02-18 09:57:42 · 284 阅读 · 0 评论 -
ES的python操作
ES是用java开发的,所以应用层面的ES操作绝大多数项目会采用java进行ES的操作。但java操作对于不会写java的人来说并不太友好(记得上次写java还是大四的时候做毕业设计,距今快9年了),所以想试试python这门胶水语言是否可以进行ES操作。当然java的相关操作也是需要知晓的,因为java必然是可以进行操作的。但是python这门胶水语言无法保证所有操作都能进行。原创 2025-02-18 09:57:11 · 411 阅读 · 0 评论 -
ES的java操作
在pom文件中添加依赖包</</</</</</</</</</</</</</</</</</</</</</</</</原创 2025-02-13 16:59:30 · 530 阅读 · 0 评论 -
ES的安装部署以及基本操作
ElasticSearch是一个分布式、Restful风格的搜索和数据分析引擎,能够解决不断涌现的各种用例。ES 是一个开源的高扩展的分布式全文搜索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理 PB 级别的数据。REST 指的是一组架构约束条件和原则。满足这些约束条件和原则的应用程序或设计就是 RESTful。Web 应用程序最重要的 REST 原则是,客户端和服务器之间的交互在请求之间是无状态的。从客户端到服务器的每个请求都必须包含理解请求所必需的信息。原创 2025-02-13 16:58:54 · 1282 阅读 · 0 评论 -
spark streaming基础操作
Spark Streaming 用于流式数据的处理。Spark Streaming 使用离散化流(discretized 作为抽象表示,叫作 DStream。DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为 RDD 存在,而 DStream 是由这些 RDD 所组成的序列(因此得名“离散化”)。简单来说,DStream 就是对 RDD 在实时数据处理场景的一种封装。DStream 是随时间推移而收到的数据的序列。原创 2025-01-26 10:56:12 · 1224 阅读 · 0 评论 -
spark运行流程
spark运行流程原创 2025-01-26 10:55:16 · 854 阅读 · 0 评论 -
spark的三大数据api以及操作
RDD(ResilientDistributedDataset)叫做数据集,是Spark中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD的特点。原创 2025-01-20 14:01:31 · 596 阅读 · 0 评论 -
SPARK概述
spark是一种基于内存的、快速、通用、可拓展的大数据分析计算引擎hadoop的基础计算框架是MapReduce,但是MapReduce并不能满足流式循环迭代的场景。Spark的核心技术是RDD(Resilient Distributed Datasets 弹性分布式数据集)可以快速在内存中进行迭代。Spark的启动比MapReduce要快,Spark采用fork线程的方式,而MapReduce采用的是新建进程的方式。原创 2024-07-23 14:24:39 · 429 阅读 · 0 评论 -
SPARK运行环境
spark可以运行在常见的集群环境之下。原创 2024-05-03 07:17:51 · 1131 阅读 · 0 评论 -
Scala
spark新一代内存级大数据计算框架,是大数据的核心内容。在对 spark 进行二次开发时,由于 Spark 是基于 Scala 基础之上编写的,故而为更好地学习 Spark,需要Scala 此门语言与掌握 spark框架的源代码。Scala 是 Scalable Language 的简写,含义为可升级、可攀登,是一门多范式的编程语言(面向对象:命令式编程的一种方式/函数式编程),函数的地位得到提升,其运用十分到位。总的来说就是在对spark进行二次开发时java学的不太好的朋友可以用scale原创 2024-03-12 16:52:23 · 1209 阅读 · 0 评论 -
Flume用法总结
Flume用法总结及其案例原创 2024-01-09 09:11:32 · 1081 阅读 · 0 评论 -
Hbase用法总结
hbase用法总结phoenix、hbase和hive集成原创 2023-12-28 13:33:33 · 1259 阅读 · 0 评论 -
HIVE总结
hive特殊SQL总结,常用参数说明原创 2023-12-20 17:03:55 · 900 阅读 · 0 评论