
大数据
文章平均质量分 93
大数据学习笔记
niki__
这个作者很懒,什么都没留下…
展开
-
Spark笔记
Spark是一种由Scala语言开发的快速、通用、可扩展的大数据分析引擎。主要功能主要是用于数据计算HadoopMapReduce由于其设计初衷并不是为了满足循环迭代式数据流处理,因此在多并行运行的数据可复用场景(如:机器学习、图挖掘算法、交互式数据挖掘算法)中存在诸多计算效率等问题。Spark就是在传统的MapReduce 计算框架的基础上,利用其计算过程的优化,从而大大加快了数据分析、挖掘的运行和读写速度,并将计算单元缩小到更适合并行计算和重复使用的RDD计算模型。原创 2023-04-07 21:43:13 · 322 阅读 · 0 评论 -
Zookeeper笔记
②. server2 启动,首先server2先给自己投一票,因为当前集群已经有两台机器已启动,所以server1,server2会交换选票,交换后发现各自有一票,接下来比较myid 发现server2的myid值 > server2的myid值。③. server3启动, 首先自己投自己一票,server1和server2也会投自己一票,然后交换选票发现都一样,接着比较myid 最后server3胜出,此时server3就有3票,同时server3的票数超过半数。如果不是临时节点则是0。原创 2023-04-07 21:36:06 · 585 阅读 · 0 评论 -
Kafka笔记
副本,为保证集群中的某个节点发生故障时,该节点上的partition数据不丢失,且kafka仍然能够继续工作,kafka提供了副本机制,一个topic的每个分区都有若干个副本,一个leader和若干个follower。leader发生故障之后,会从ISR中选出一个新的leader,之后,为保证多个副本之间的数据一致性,其余的follower会先将各自的log文件高于HW的部分截掉,然后从新的leader同步数据。消息被消费以后,queue中不再有存储,所以消息消费者不可能消费到已经被消费的消息。原创 2023-04-07 21:27:18 · 396 阅读 · 0 评论 -
Flume笔记
Sink,不断轮询Channel中的事件且批量移除他们,将这些事件批量写入到存储或索引系统,或者被发送到另一个Flume Agent。Channel是线程安全的,可以同时处理几个Source的写入操作和几个Sink的读取操作。Source负责接收数据到Flume Agent,Source组件可以处理各种类型、各种格式的日志数据(avro、thrift、exec、spooling、directory、netcat…Flume1监控文件内容的变动,将监控到的内容分别给到Flume2和Flume3。原创 2023-04-07 21:20:07 · 353 阅读 · 0 评论 -
Hive笔记
Hive基本概念hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。是由Facebook开源用于解决海量结构化日志的数据统计工具。本质hive的本质是HQL(Hive Query Language,Hive 查询语句)化成MapReduce程序(1) Hive处理的数据存储在HDFS(2) Hive分析数据底层的实现是MapReduce(后面可以换成Spark)(3) 执行程序在Yarn上优缺点优点(1)操作接口采用类SQL语法,提原创 2023-04-07 21:19:19 · 458 阅读 · 0 评论 -
HBase
当region server中的memstore的总大小达到了java_heapsize, hbase.regionserver.global.memstore.size(默认值0.4),hbase.regionserver.global.memstore.size.lower.limit(默认值0.95)属性:hbase.regionserver.handler.count 解释:默认值为30,用于指定RPC监听的数量,可以根据客户端的请求数进行调整,读写请求较多时,增加此值。原创 2023-04-07 21:15:26 · 307 阅读 · 0 评论 -
Hadoop
hadoop学习笔记原创 2023-02-14 20:20:35 · 654 阅读 · 2 评论