小钱没有钱-优快云博客

原创 Flume的安装及使用

-Dflume.root.logger=INFO,console 表示flume运行时动态修改flume.root.logger参数属性值，并将控制台日志打印级别设置为INFO级别，日志级别包括： log、info、warn、 error。 Flume1监控文件内容变动，将监控到的内容分别给到flume2和flume3，flume2将内容写到HDFS, Flume3将数据写到本地文件系统。 -f 表示flume启动读取的配置文件。启动hive，之后查看HDFS。

2024-12-01 20:52:28 2341

原创 Kafka搭建及使用

在生产和消费数据时，如果topic不存在会自动创建一个分区为1，副本为1的topic。__consumer_offsetsL kafka用于保存消费便宜量的topic。

2024-11-29 21:03:51 376

原创 ETL数据采集之Sqoop的安装部署及操作

Apache开源软件，主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递。数据吞吐量大：依赖hadoop集群可进行大批量数据集成。操作有技术要求：sqoop操作没有可视化设计器，对使用人员有较专业的技术要求。多种交互方式：命令行，web UI，rest API。部署不方便：sqoop依赖大数据集群，使用sqoop要求数据传输的的源要与大数据集群的所有节点能进行通信。适用场景：适用于能与大数据集群直接通信的关系数据库间的大批量数据传输。

2024-11-26 20:52:19 2023

原创 HBase的Phoenix框架

Hbase适合存储大量的对关系运算要求低的NOSQL数据，受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀，一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式，Apache Phoenix即是。Phoenix 基于Hbase给面向业务的开发人员提供了以标准SQL的方式对Hbase进行查询操作，并支持标准SQL中大部分特性:条件运算,分组，分页，等高级查询语法。

2024-11-21 19:36:46 1857

原创 Hbase基础命令

通过 var = get_table ‘表名’ 赋值给一个变量对象，然后对象.来调用，就像面向对象编程一样，通过对象.方法来调用，这种方式在操作某个表时就不必每次列举表名了。通过help ‘hbase’ 命名来查看hbase shell 支持的所有命令，hbase将命令进行分组，其中ddl、dml使用较多。默认情况下一个列只能存储一个数据，后面如果修改数据就会将原来的覆盖掉，可以通过指定VERSIONS时HBase一列能存储多个值。需要先禁用表，然后再删除表，启用的表是不允许删除的。扫描整个列簇的某个列。

2024-11-15 19:47:43 2431

原创大数据Hbase数据库的分布式搭建

【代码】大数据Hbase数据库的分布式搭建。

2024-11-15 19:40:32 289

原创 Hive3.1.2概述与基本操作

Hive本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更近一步说hive就是一个MapReduce客户端。思考：计算文件user.txt中张三出现几次，使用mapreduce怎么写，然后再比照下图的hive实现过程（带同学画图如果直接使用hadoop的话，人员学习成本太高，项目要求周期太短，MapReduce实现复杂查询逻辑开发难度太大。

2024-11-10 20:39:47 672

原创 Hive单节点安装部署

解决方案：nohup hive --service metastore &1、等着，等hadoop日志和快照数据恢复完毕，自动离开安全模式。解决方案：启动hadoop。可以去华为云镜像站中下载。2、使用命令强制离开。

2024-11-08 21:35:55 1085

原创 HDFS的高可用集群搭建

由于条件限制，电脑只够我开3台虚拟机，所以我们就用这3台虚拟机搭建一个HDFS的高可用。在搭建之前我们先来理清一下3台虚拟机master，node1，node2分别会有哪些进程在高可用集群中会有2个NameNode，一个是活跃的（ANN），一个是备用的（SNN），每一个NAmeNode节点上都应该有一个故障转移控制器（ZKFC）去管理各自的NameNode，除了NameNode，每个节点上都应该有JN处理日志，ZooKeeper负责进行选举，node1，node2上还应该有DataNode负责存储数据。

2024-11-04 20:30:25 1169

qzq021226的博客