自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 sparksql

Spark SQL是Spark用于结构化数据处理的模块。它提供了一个DataFrame API,允许用户像操作传统关系型数据库一样,通过SQL语句或DataFrame API来查询数据。同时,Spark SQL还支持多种数据源,如Parquet、JSON、Hive等,使得数据读取和写入变得更加便捷。

2024-06-21 13:00:00 384

原创 热点搜索词统计

1.根据用户上网的搜索记录对每天的热点搜索词进行统计,以了解用户所关心的热点话题。

2024-06-21 09:36:30 266

原创 关联规则分析与Apriori算法

关联规则分析的最终目标是要找出强关联规则,从而实现对目标客户的商品推荐。Apriori算法是最著名的关联规则的挖掘算法之一,其核心是一种递推算法。

2024-06-21 09:19:55 362

原创 sparksql整合hive

Hive是一个基于Hadoop的数据仓库架构,使用SQL语句读、写和管理大型分布式数据集。Hive可以将SQL语句转化为MapReduce(或Apache Spark、Apache Tez)任务执行,大大降低了Hadoop的使用门槛,减少了开发MapReduce程序的时间成本。可以将Hive理解为一个客户端工具,它提供了一种类SQL查询语言,称为HiveQL。这使得Hive十分适合数据仓库的统计分析,能够轻松使用HiveQL开启数据仓库任务,如提取/转换/加载(ETL)、分析报告和数据分析。

2024-06-21 09:08:14 652

原创 【无标题】

Spark SQL为大数据处理提供了强大的SQL接口,使得用户可以使用SQL语言或DataFrame/Dataset API来查询和分析数据。它支持多种数据源、具有优化器自动优化查询执行计划、提供了丰富的数据处理功能。通过Spark SQL,用户可以更加高效、便捷地处理和分析海量数据,从而为企业和科研机构提供有价值的洞察和决策支持。

2024-06-21 07:45:00 211

原创 hbase基本操作

#。

2024-06-21 07:30:00 235

原创 hbase部署

功能:1.监控 RegionServer2.处理 RegionServer 故障转移3.处理元数据的变更4.处理region 的分配或移除5.在空闲时间进行数据的负载均衡6.通过 Zookeeper 发布自己的位置给客户端功能:1.负责存储 HBase 的实际数据2.处理分配给它的 Region3.刷新缓存到 HDFS4.维护WAL5.执行压缩6.负责处理 Region 分片HFile这是在磁盘上保存原始数据的实际的物理文件,是实际的存储文件。Store。

2024-06-20 20:15:00 222

原创 zookeeper基本操作与操作命令

查看 ZooKeeper 服务状态。启动 ZooKeeper 服务。停止 ZooKeeper 服务。重启 ZooKeeper 服务。连接ZooKeeper服务端。删除包含子节点的节点。

2024-06-20 19:45:00 318

原创 zookeeper

zookeeper安装与配置。

2024-06-20 15:11:51 175

原创 实训5电商日志

ipseeker部分代码。logparser代码。Getpaged代码。ipparser代码。

2024-06-18 19:00:00 292

原创 实训4电商日志基本分析

【代码】实训4电商日志基本分析。

2024-06-18 13:59:19 183

原创 hive安装

一、前提:二、安装步骤:1、上传jar包至/usr/local/soft2、解压并重命名3、配置环境变量三、配置HIVE文件1、配置hive-env.sh2、配置hive-site.xml3、配置日志4、修改默认配置文件5、上传MySQL连接jar包四、修改MySQL编码1、 编辑配置文件2、加入以下内容:3、 重启mysql五、初始化HIVE六、进入hive七、后续配置八、测试hivehive中的几种存储格式TextFile格式:文本格式RCFile:ORCFile:Parquet:安装hive所需要的虚

2024-06-13 16:37:41 1023

原创 电商日志基本流程

电商日志

2024-06-13 16:26:01 404

原创 day1-Hadoop搭建与安装

Hadoop启动与遇得到问题

2024-06-13 16:12:04 461

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除