自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 若依生成代码为vue2,如何更改vue3以及更改之后仍未vue2,全网最准确解答

如果不剪切 直接拖过去也行 ,但不要勾选这个,否则会重构路径 ,生成的依然是vue2的代码!它里面有这俩文件,把他们剪切到上一级(vue目录下和v3同级),记住一定要。打开后端代码,在resource里有vm vue v3这个文件。

2024-08-12 18:10:35 553 1

原创 mysql更改密码后,若依 后端启动不了解决方案

因为原先 密码数字+字符串 不需要用引号" " 括起来。改完之后,连接的数据库的代码 也更改后 ,后端启动不了。我原先的mysql 密码是 数字+字符串。我改成纯数字 需要用 " " 括起来。我想改成000 纯数字。然后就可以运行成功了。

2024-08-01 17:51:28 367

原创 清华镜像源

【代码】清华镜像源。

2024-07-30 08:51:31 323

原创 matplotlib显示中文和正负号

【代码】matplotlib显示中文和正负号。

2024-07-29 19:30:53 417

原创 超市电商数据分析

本案例将对某大型超市的零售数据进行数据分析,通过了解运营状况,做出合理的决策。

2024-06-21 13:54:55 1877 1

原创 注意力机制

向量点积的值可以表征词与词之间的相似性,而此处的“整个序列”包括The这个词自己(再一次强调这是Self-Attention),所以最后输出的词的表示,其“主要成分”就主要地包含它自身和跟它相似的词的表示,其他无关的词的表示对应的权重就会比较低。代表Source的长度,公式含义即如上所述。上文所举的机器翻译的例子里,因为在计算Attention的过程中,Source中的Key和Value合二为一,指向的是同一个东西,也即输入句子中每个单词对应的语义编码,所以可能不容易看出这种能够体现本质思想的结构。

2024-06-20 11:47:35 1757

原创 关联规则分析与Apriori算法

​ 关联规则分析的最终目标是要找出强关联规则,从而实现对目标客户的商品推荐。Apriori算法是最著名的关联规则的挖掘算法之一,其核心是一种递推算法。使用apyori库可以非常方便地实现Apriori算法,从而快速得到强关联规则。安装方法:!​ 中医病案的各种症状是一个错综复杂的整体,但其中也有着密不可分的联系。通过对中医病症之间关系的分析,从而认识疾病的发生发展规律,掌握疾病的诊疗特点,并且获得治疗疾病的最适宜药方。

2024-06-20 10:15:16 1415

原创 Spark SQL整合Hive

Hive可以将SQL语句转化为MapReduce(或Apache Spark、Apache Tez)任务执行,大大降低了Hadoop的使用门槛,减少了开发MapReduce程序的时间成本。与Hive不同的是,Hive的执行引擎为MapReduce,而Spark SQL的执行引擎为Spark RDD。​ 在IDEA中编写Spark SQL操作Hive的应用程序,然后将编写好的应用程序打包为JAR,提交到Spark集群中运行,即可对Hive进行数据的读写与分析。打包程序,然后提交到Spark集群。

2024-06-19 15:43:28 922

原创 Spark RDD创建

​ Spark提供了一种对数据的核心抽象,称为弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。这个数据集的全部或部分可以缓存在内存中,并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。​ RDD的弹性主要是指:当内存不够时,数据可以持久化到磁盘,并且RDD具有高效的容错能力。​ 分布式数据集是指:一个数据集存储在不同的节点上,每个节点存储数据集的一部分。

2024-06-19 14:48:27 831 1

原创 Spark三种运行模式(SparkShell使用)

唯一不同的是,Spark Shell本身为集群的client提交方式运行,不支持cluster提交方式,即使用Spark Shell时,Driver运行于本地客户端,而不能运行于集群中。​ Driver为主控进程,负责执行应用程序的main()方法,创建SparkContext对象(负责与Spark集群进行交互),提交Spark作业,并将作业转化为Task(一个作业由多个Task任务组成),然后在各个Executor进程间对Task进行调度和监控。通常用SparkContext代表Driver。

2024-06-19 14:17:35 2429

原创 Spark概述

​ 可以看到,在数据计算层,作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算(当然也可以编写独立的MapReduce应用程序进行计算);而Spark既可以做离线计算(Spark SQL),又可以做实时计算(Spark Streaming),它们底层都使用的是Spark的核心(Spark Core)。

2024-06-19 14:09:55 574

原创 RDD算子

​ reduceByKey()算子的作用对象是元素为(key,value)形式(Scala元组)的RDD,使用该算子可以将key相同的元素聚集到一起,最终把所有key相同的元素合并成一个元素。​ rightOuterJoin()算子的使用方法与leftOuterJoin()算子相反,其与数据库的右外连接类似,以右边的RDD为基准(例如rdd1.rightOuterJoin(rdd2),以rdd2为基准),右边RDD的记录一定会存在。Spark会将RDD中的每个元素传入该函数的参数中。

2024-06-19 14:06:16 777

原创 SparrkSQL

当Spark SQL提供的内置函数不能满足查询需求时,用户可以根据需求编写自定义函数(User Defined Functions, UDF),然后在Spark SQL中调用。​ 例如有这样一个需求:为了保护用户的隐私,当查询数据的时候,需要将用户手机号的中间4位数字用星号()代替,比如手机号180***2688。/*** 用户自定义函数,隐藏手机号中间4位*///创建或得到SparkSession//第一步:创建测试数据(或直接从文件中读取)//模拟数据//将数组数据转为RDD。

2024-06-19 10:26:39 713

原创 Hive安装配置(包含MySQL)

Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。

2024-06-17 23:27:58 459

原创 Hadoop单机伪分布式(集群搭建)

进入hadoop sbin在头部加入这些内容同样。

2024-06-17 23:26:02 281

原创 ZooKeeper安装

ZooKeeper服务器是用Java创建的,它运行在JVM之上。需要安装JDK 7或更高版本。我采用的似乎JDK1.8版本。

2024-06-17 23:15:34 328

原创 手机流量统计项目(概述)

包括属性:手机号、上行流量、下行流量、总流量对每一行日志内容进行拆分,Map输出数据为:phone==>Access(手机号,该行手机号的上行流量,该行手机号的下行流量)

2024-06-05 10:57:39 418

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除