hyyyyyyyw-优快云博客

原创 sparksql

Spark SQL是Spark用于结构化数据处理的模块。它提供了一个DataFrame API，允许用户像操作传统关系型数据库一样，通过SQL语句或DataFrame API来查询数据。同时，Spark SQL还支持多种数据源，如Parquet、JSON、Hive等，使得数据读取和写入变得更加便捷。

2024-06-21 13:00:00 384

原创热点搜索词统计

1.根据用户上网的搜索记录对每天的热点搜索词进行统计，以了解用户所关心的热点话题。

2024-06-21 09:36:30 266

原创关联规则分析与Apriori算法

关联规则分析的最终目标是要找出强关联规则，从而实现对目标客户的商品推荐。Apriori算法是最著名的关联规则的挖掘算法之一，其核心是一种递推算法。

2024-06-21 09:19:55 362

Hive是一个基于Hadoop的数据仓库架构，使用SQL语句读、写和管理大型分布式数据集。Hive可以将SQL语句转化为MapReduce（或Apache Spark、Apache Tez）任务执行，大大降低了Hadoop的使用门槛，减少了开发MapReduce程序的时间成本。可以将Hive理解为一个客户端工具，它提供了一种类SQL查询语言，称为HiveQL。这使得Hive十分适合数据仓库的统计分析，能够轻松使用HiveQL开启数据仓库任务，如提取／转换／加载（ETL）、分析报告和数据分析。

2024-06-21 09:08:14 652

原创【无标题】

Spark SQL为大数据处理提供了强大的SQL接口，使得用户可以使用SQL语言或DataFrame/Dataset API来查询和分析数据。它支持多种数据源、具有优化器自动优化查询执行计划、提供了丰富的数据处理功能。通过Spark SQL，用户可以更加高效、便捷地处理和分析海量数据，从而为企业和科研机构提供有价值的洞察和决策支持。

2024-06-21 07:45:00 211

原创 hbase基本操作

#。

2024-06-21 07:30:00 235

原创 hbase部署

功能：1.监控 RegionServer2.处理 RegionServer 故障转移3.处理元数据的变更4.处理region 的分配或移除5.在空闲时间进行数据的负载均衡6.通过 Zookeeper 发布自己的位置给客户端功能：1.负责存储 HBase 的实际数据2.处理分配给它的 Region3.刷新缓存到 HDFS4.维护WAL5.执行压缩6.负责处理 Region 分片HFile这是在磁盘上保存原始数据的实际的物理文件，是实际的存储文件。Store。

2024-06-20 20:15:00 222

原创 zookeeper基本操作与操作命令

查看 ZooKeeper 服务状态。启动 ZooKeeper 服务。停止 ZooKeeper 服务。重启 ZooKeeper 服务。连接ZooKeeper服务端。删除包含子节点的节点。

2024-06-20 19:45:00 318

原创 zookeeper

zookeeper安装与配置。

2024-06-20 15:11:51 175

原创实训5电商日志

ipseeker部分代码。logparser代码。Getpaged代码。ipparser代码。

2024-06-18 19:00:00 292

原创实训4电商日志基本分析

【代码】实训4电商日志基本分析。

2024-06-18 13:59:19 183

原创 hive安装

一、前提：二、安装步骤：1、上传jar包至/usr/local/soft2、解压并重命名3、配置环境变量三、配置HIVE文件1、配置hive-env.sh2、配置hive-site.xml3、配置日志4、修改默认配置文件5、上传MySQL连接jar包四、修改MySQL编码1、编辑配置文件2、加入以下内容：3、重启mysql五、初始化HIVE六、进入hive七、后续配置八、测试hivehive中的几种存储格式TextFile格式：文本格式RCFile：ORCFile：Parquet：安装hive所需要的虚

2024-06-13 16:37:41 1023

原创电商日志基本流程

电商日志

2024-06-13 16:26:01 404

原创 day1-Hadoop搭建与安装

Hadoop启动与遇得到问题

2024-06-13 16:12:04 461

m0_64372793的博客