- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 Day14----Python超市电商数据分析(三)
本案例将对某大型超市的零售数据进行数据分析,通过了解运营状况,做出合理的决策。详细字段是:Row ID:行编号;Order ID:订单ID;Order Date:订单日期;Ship Date:发货日期;Ship Mode:发货模式;Customer ID:客户ID;Customer Name:客户姓名;Segment:客户类别;City:客户所在城市;State:客户城市所在州;Country:客户所在国家;Postal Code:邮编;
2024-06-21 08:00:00
817
原创 Day13----Python超市电商数据分析(二)
本案例将对某大型超市的零售数据进行数据分析,通过了解运营状况,做出合理的决策。详细字段是:Row ID:行编号;Order ID:订单ID;Order Date:订单日期;Ship Date:发货日期;Ship Mode:发货模式;Customer ID:客户ID;Customer Name:客户姓名;Segment:客户类别;City:客户所在城市;State:客户城市所在州;Country:客户所在国家;Postal Code:邮编;
2024-06-20 08:00:00
1365
原创 Day12----Python超市电商数据分析(一)
本案例将对某大型超市的零售数据进行数据分析,通过了解运营状况,做出合理的决策。详细字段是:Row ID:行编号;Order ID:订单ID;Order Date:订单日期;Ship Date:发货日期;Ship Mode:发货模式;Customer ID:客户ID;Customer Name:客户姓名;Segment:客户类别;City:客户所在城市;State:客户城市所在州;Country:客户所在国家;Postal Code:邮编;
2024-06-19 08:00:00
1780
原创 Day11----RDD算子
Spark提供了一种对数据的核心抽象,称为弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。这个数据集的全部或部分可以缓存在内存中,并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。 RDD的弹性主要是指:当内存不够时,数据可以持久化到磁盘,并且RDD具有高效的容错能力。 分布式数据集是指:一个数据集存储在不同的
2024-06-18 08:00:00
765
原创 Day10----Spark RDD算子创建
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg。
2024-06-17 14:22:17
468
原创 Day9----Spark概述
可以看到,在数据计算层,作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算(当然也可以编写独立的MapReduce应用程序进行计算);而Spark既可以做离线计算(Spark SQL),又可以做实时计算(Spark Streaming),它们底层都使用的是Spark的核心(Spark Core)。
2024-06-17 14:19:02
1645
原创 Day8----HBase基本操作
总体上说,ZooKeeper提供了可靠的分布式协调服务,而HBase利用ZooKeeper来实现高可用性、数据一致性和元数据管理等功能,从而使得在大规模分布式环境下运行的HBase数据库更加稳定和可靠。(1)ZooKeeper为HBase提供了可靠的协调服务:HBase使用ZooKeeper来进行集群中各个节点之间的通信和协调。**注意:**修改数据后,其实只是在原来的基础上增加了一条数据,查询的时候返回了时间戳最新的一个版本,旧版本的数据还在;会发现删除的数据有Delete标注。
2024-06-14 08:34:40
267
原创 Day6----电商实战项目实现3
根据电商日志文件,分析:1 . 统计页面浏览量(每行记录就是一次浏览)2 . 统计各个省份的浏览量 (需要解析IP)3 . 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。
2024-06-12 00:01:13
306
原创 Day5----电商实战项目实现2
根据电商日志文件,分析:1 . 统计页面浏览量(每行记录就是一次浏览)2 . 统计各个省份的浏览量 (需要解析IP)3 . 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。
2024-06-11 23:53:42
463
原创 Day4----电商实战项目实现
根据电商日志文件,分析:1 . 统计页面浏览量(每行记录就是一次浏览)2 . 统计各个省份的浏览量 (需要解析IP)3 . 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。
2024-06-11 23:47:26
423
原创 Day2 学习笔记及成果---基于MapReduce项目实现中所遇到的问题及解决方法
解决方案:可能的错误原因是网关设置有问题,虚拟机的网关应该和自己的网关一直,自己的网关可在 编辑-虚拟网络设置 中查看。首先执行命令查看网络配置信息。在NAT模式里设置的网关,两者必须一样,虚拟机才能成功ping通外网。
2024-06-05 21:24:04
512
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人