- 博客(12)
- 收藏
- 关注
原创 Flume的安装及使用
-Dflume.root.logger=INFO,console 表示flume运行时动态修改flume.root.logger参数属性值,并将控制台日志打印级别设置为INFO级别 ,日志级别包括: log、info、warn、 error。 Flume1监控文件内容变动,将监控到的内容分别给到flume2和flume3,flume2将内容写到HDFS, Flume3将数据写到本地文件系统。 -f 表示flume启动读取的配置文件。启动hive,之后查看HDFS。
2024-12-01 20:52:28
2019
原创 Kafka搭建及使用
在生产和消费数据时,如果topic不存在会自动创建一个分区为1,副本为1的topic。__consumer_offsetsL kafka用于保存消费便宜量的topic。
2024-11-29 21:03:51
324
原创 ETL数据采集之Sqoop的安装部署及操作
Apache开源软件,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递。数据吞吐量大:依赖hadoop集群可进行大批量数据集成。操作有技术要求:sqoop操作没有可视化设计器,对使用人员有较专业的技术要求。多种交互方式:命令行,web UI,rest API。部署不方便:sqoop依赖大数据集群,使用sqoop要求数据传输的的源要与大数据集群的所有节点能进行通信。适用场景:适用于能与大数据集群直接通信的关系数据库间的大批量数据传输。
2024-11-26 20:52:19
1911
原创 HBase的Phoenix框架
Hbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀,一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式,Apache Phoenix即是。Phoenix 基于Hbase给面向业务的开发人员提供了以标准SQL的方式对Hbase进行查询操作,并支持标准SQL中大部分特性:条件运算,分组,分页,等高级查询语法。
2024-11-21 19:36:46
1715
原创 Hbase基础命令
通过 var = get_table ‘表名’ 赋值给一个变量对象,然后对象.来调用,就像面向对象编程一样,通过对象.方法来调用,这种方式在操作某个表时就不必每次列举表名了。通过help ‘hbase’ 命名来查看hbase shell 支持的所有命令,hbase将命令进行分组,其中ddl、dml使用较多。默认情况下一个列只能存储一个数据,后面如果修改数据就会将原来的覆盖掉,可以通过指定VERSIONS时HBase一列能存储多个值。需要先禁用表,然后再删除表,启用的表是不允许删除的。扫描整个列簇的某个列。
2024-11-15 19:47:43
1470
原创 Hive3.1.2概述与基本操作
Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。思考:计算文件user.txt中张三出现几次,使用mapreduce怎么写,然后再比照下图的hive实现过程(带同学画图如果直接使用hadoop的话,人员学习成本太高,项目要求周期太短,MapReduce实现复杂查询逻辑开发难度太大。
2024-11-10 20:39:47
610
原创 Hive单节点安装部署
解决方案:nohup hive --service metastore &1、等着,等hadoop日志和快照数据恢复完毕,自动离开安全模式。解决方案:启动hadoop。可以去华为云镜像站中下载。2、使用命令强制离开。
2024-11-08 21:35:55
689
原创 HDFS的高可用集群搭建
由于条件限制,电脑只够我开3台虚拟机,所以我们就用这3台虚拟机搭建一个HDFS的高可用。在搭建之前我们先来理清一下3台虚拟机master,node1,node2分别会有哪些进程在高可用集群中会有2个NameNode,一个是活跃的(ANN),一个是备用的(SNN),每一个NAmeNode节点上都应该有一个故障转移控制器(ZKFC)去管理各自的NameNode,除了NameNode,每个节点上都应该有JN处理日志,ZooKeeper负责进行选举,node1,node2上还应该有DataNode负责存储数据。
2024-11-04 20:30:25
1011
原创 HDFS的读写流程
1、当客户端要上传一个文件时,要先将文件切分为一个个block块,一个block块又分为一个个packet。然后通过FSDataOutoutStream将一个个packet发送到最近的子节点上。2、一个package由两大部分构成,packet header和packet data。package hearder中有有pkt Len,offset In Pkt,SeqNo,Last Packet In Block,Data Len。
2024-11-03 22:36:18
431
原创 Hadoop安装部署
NameNode:接受客户端的读/写服务,收集 DataNode 汇报的。SecondaryNameNode:做持久化的时候用到。DataNode:真实数据存储的地方(block)Block 列表信息。
2024-11-01 13:27:28
410
原创 Redis安装部署与数据类型学习
Redis(Remote Dictionary Server)是一个开源的内存数据库,遵守 BSD 协议,它提供了一个高性能的键值(key-value)存储系统,常用于缓存、消息队列、会话存储等应用场景。也就是说redis数据库与我们之前学的MySQL,ClickHouse都不一样,是一个非关系型数据库。总结:redis是一个基于内存的非关系型的键值对数据库。
2024-10-25 22:04:11
661
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人