- 博客(14)
- 收藏
- 关注
原创 sparksql
Spark SQL是Spark用于结构化数据处理的模块。它提供了一个DataFrame API,允许用户像操作传统关系型数据库一样,通过SQL语句或DataFrame API来查询数据。同时,Spark SQL还支持多种数据源,如Parquet、JSON、Hive等,使得数据读取和写入变得更加便捷。
2024-06-21 13:00:00
384
原创 关联规则分析与Apriori算法
关联规则分析的最终目标是要找出强关联规则,从而实现对目标客户的商品推荐。Apriori算法是最著名的关联规则的挖掘算法之一,其核心是一种递推算法。
2024-06-21 09:19:55
362
原创 sparksql整合hive
Hive是一个基于Hadoop的数据仓库架构,使用SQL语句读、写和管理大型分布式数据集。Hive可以将SQL语句转化为MapReduce(或Apache Spark、Apache Tez)任务执行,大大降低了Hadoop的使用门槛,减少了开发MapReduce程序的时间成本。可以将Hive理解为一个客户端工具,它提供了一种类SQL查询语言,称为HiveQL。这使得Hive十分适合数据仓库的统计分析,能够轻松使用HiveQL开启数据仓库任务,如提取/转换/加载(ETL)、分析报告和数据分析。
2024-06-21 09:08:14
652
原创 【无标题】
Spark SQL为大数据处理提供了强大的SQL接口,使得用户可以使用SQL语言或DataFrame/Dataset API来查询和分析数据。它支持多种数据源、具有优化器自动优化查询执行计划、提供了丰富的数据处理功能。通过Spark SQL,用户可以更加高效、便捷地处理和分析海量数据,从而为企业和科研机构提供有价值的洞察和决策支持。
2024-06-21 07:45:00
211
原创 hbase部署
功能:1.监控 RegionServer2.处理 RegionServer 故障转移3.处理元数据的变更4.处理region 的分配或移除5.在空闲时间进行数据的负载均衡6.通过 Zookeeper 发布自己的位置给客户端功能:1.负责存储 HBase 的实际数据2.处理分配给它的 Region3.刷新缓存到 HDFS4.维护WAL5.执行压缩6.负责处理 Region 分片HFile这是在磁盘上保存原始数据的实际的物理文件,是实际的存储文件。Store。
2024-06-20 20:15:00
222
原创 zookeeper基本操作与操作命令
查看 ZooKeeper 服务状态。启动 ZooKeeper 服务。停止 ZooKeeper 服务。重启 ZooKeeper 服务。连接ZooKeeper服务端。删除包含子节点的节点。
2024-06-20 19:45:00
318
原创 hive安装
一、前提:二、安装步骤:1、上传jar包至/usr/local/soft2、解压并重命名3、配置环境变量三、配置HIVE文件1、配置hive-env.sh2、配置hive-site.xml3、配置日志4、修改默认配置文件5、上传MySQL连接jar包四、修改MySQL编码1、 编辑配置文件2、加入以下内容:3、 重启mysql五、初始化HIVE六、进入hive七、后续配置八、测试hivehive中的几种存储格式TextFile格式:文本格式RCFile:ORCFile:Parquet:安装hive所需要的虚
2024-06-13 16:37:41
1023
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人