- 博客(15)
- 收藏
- 关注
原创 生产实习——Day15
由于上述透视表的人数和远远小于总的记录数,说明超市对保持老客户较为有效 ,也间接说明了超市的运营状况较为稳定;还可以发现,2011-2014年每年的新增客户数呈逐年减少的趋势,新客户获取率比较低,因此,可以进行主动推广营销,从而增加新客户数;
2024-06-20 14:05:06
1098
原创 生产实习——Day14
由上面的条形图可看出,各个地区2011-2014年的销售总额均是增长趋势, 其中APAC地区和EU地区的增长速度较快,市场前景较好,下一年可以适当 加大运营成本。由上图可看出,除了Canada地区以外,各大地区销售额都比较高的是电子产品,可 以适当加大对各地区(除Canada地区)该种类的投入,以便扩大优势。从该饼图可以看出:APAC、BJ两个地区的销售额比例很高,总计占51.6%,Canada的销售总额占比最小,只有0.5%,可以增加对该地区的营销。
2024-06-20 11:09:56
320
原创 生产实习——Day12
在NLP中,最细粒度的表示就是词语,但是计算机并不能直接识别词语,需要将词语转化为计算机可识别的数值形式,这种对词语的转化和表征就是“词汇表征”。 word2vec是一种基于神经网络的词嵌入技术,通过训练神经网络得到一个关于输入X和输出Y之间的语言模型,获取训练好的神经网络权重,这个权重是用来对输入词汇X进行向量化表示的。 RNN(Recurrent Neural Network),即"循环神经网络",是在基础神经网络模型中增加了循环机制。
2024-06-20 09:42:06
952
原创 生产实习——Day11
关联规则分析的最终目标是要找出强关联规则,从而实现对目标客户的商品推荐。Apriori算法是最著名的关联规则的挖掘算法之一,其核心是一种递推算法。使用apyori库可以非常方便地实现Apriori算法,从而快速得到强关联规则。安装方法:! 中医病案的各种症状是一个错综复杂的整体,但其中也有着密不可分的联系。通过对中医病症之间关系的分析,从而认识疾病的发生发展规律,掌握疾病的诊疗特点,并且获得治疗疾病的最适宜药方。
2024-06-20 09:08:44
1021
原创 生产实习——Day10
人们经常会在视频平台上观看影片,有时目标明确,想要观看某部电影,但有时仅仅是随机搜寻。 如果视频平台可以利用基于物品的智能推荐系统,有效地从用户对其观看过的电影的评分中挖掘数据,便可以根据用户偏好的电影个性化地推荐更多类似的电影,优化用户体验,提高用户粘性,创造额外收入。
2024-06-20 09:00:34
787
原创 生产实习——Day8
使用SparkSQL来处理和分析大规模数据集。SparkSQL是Apache Spark的一个强大模块,提供了SQL查询语言以及DataFrame和Dataset API来处理结构化数据。以下是我在使用SparkSQL时遇到的一些问题及相应的解决方法。
2024-06-19 14:44:54
314
原创 生产实习——Day4
根据电商日志文件,分析:统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。
2024-06-19 14:19:11
398
原创 生产实习——Day2
包括属性:手机号、上行流量、下行流量、总流量phone==>Access(手机号,该行手机号的上行流量,该行手机号的下行流量)
2024-06-10 16:43:01
409
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人