- 博客(42)
- 收藏
- 关注
原创 databricks spark基本使用方法和讲解
当在DataFrame上使用withColumn方法时,是在定义一个转换操作,这个操作会在DataFrame的执行计划中被添加。虽然DataFrame是建立在RDD之上的,所有DataFrame的操作最终都会转换成对RDD的操作,但从用户的角度看,withColumn是一个更高级别的抽象,专门用于结构化数据的操作。这里用withColumn之后返回了一个新的对象(rdd不可变,因此每次的操作实际上都会生成新的对象),并且调用show(),把这个对象使用掉了。:RDD的分区数决定了Spark作业的并行度。
2024-04-15 16:10:48
1056
原创 sklearn与tensorflow模型+encoder保存和加载使用(以 dataframe data sklearn LinearRegression和tensorflow LSTM为例)
在我们花了很大的功夫训练完很多数据之后,我们希望把我们的模型存储起来,之后需要用到的时候,就可以得到结果。而这个过程主要涉及两个问题:(1)模型的保存(2)使用的时候的数据处理我们需要保证数据在进入模型的时候,经过了相同的处理过程,有相同的结构。本篇文章主要以sklearn LinearRegression model + LabelEncoder, 还有tensorflow LSTM+ pipeline 为例。其他的模型不清楚是不是一样,可以找找其他文章看看。
2024-04-09 17:00:36
606
原创 使用RAKE简单实现关键词提取
它的思想是对文本进行切分得到可能的关键词,对于关键词中所含的token根据频率等角度进行评分,最后对于关键词进行评分返回评分最高的作为选择的关键词。在计算得到上述的评分之后,我们可以发现,其实这个评分是针对于token的,但是我们想要的其实是对于关键词的评分,计算的方式是将每个关键词中的token的得分进行加和就能得到最后的关键词的评分。其中freq(t)指的是某个token在文档中出现的总的次数,deg(t)指的是这个tokne和其他的token一起出现的次数。简单的解释就是,如果一共有两个关键词。
2024-04-05 16:40:13
825
原创 Pandas Dataframe合并连接Join和merge 参数讲解
但是如果是连接多个键的名字都不同的时候,(比如df1.key1 == df2.key2 , df1.key3 == df2.key4) 那么则最好先通过rename的函数对Dataframe进行改名,之后再merge。当使用cross的时候不需要指定on啥,因为会把左右连接的所有的可能都返回,并不在乎谁和谁相等。这个是merge中的参数,当设置为True的时候,意思是使用索引进行连接。其中merge是需要给键值的。join默认的是使用索引的值。how表示的是连接的方式,一般包含下面的参数,默认是左连接。
2024-04-04 10:57:26
934
原创 交叉验证代码整理
如果没有shuffle的话,样本的顺序可能会对结果产生影响。比如出现在一折的样本上准确率极低的情况。上面cv的shuffle被设定为了False。其中的k为某个整数,那么相当于是。
2024-04-04 08:48:53
317
原创 构建现代Web应用:JavaScript与Node.js的完美搭档
前端开发确实涉及编写HTML、CSS和JavaScript代码,这些代码由浏览器解析并展现给用户。HTML负责结构,CSS负责样式,而JavaScript负责交互性。
2024-03-28 19:39:02
661
1
原创 【用人话讲算法】leetcode无重复字符的最长子串
主要有两种思路:(1)图中的截断的思想,碰到在集合中的情况的时候,去寻找前面应该截断的点。(2)开头思想,每个开头都对应了一个最大的子串,因此把每个开头的情况比较一下,得到最大值。在写for和while的时候,需要考虑的东西是不同的。while考虑的是进入的条件,方法体中对此条件的更改,以及这一次循环得到的最后的状态是什么样子的。写for的时候,直接规定了这次循环的存在,以及这次循环内需要做的事情。直接控制了某些变量最终的状态。比while更强一些。
2023-06-01 10:53:58
353
原创 【maven引入stripe依赖失败】Spring Boot后端
加上这个配置后,原来的 Maven 配置不会被影响,只是增加了一个 Maven 仓库的地址。如果在项目中使用了新的依赖,Maven 会从这个新的仓库下载依赖。如果这个新的仓库没有需要的依赖,Maven 会继续从其他配置的仓库中下载。这样就可以既不影响原来的项目的情况,又解决依赖安装失败的问题了。我的maven的版本是3.6.3好像无法解析stripe的这个文件。猜想可能是maven不是从中央仓库下载的依赖,于是希望指定Maven使用中央仓库下载依赖。结果引入dependency的时候,失败了。
2023-04-20 11:41:47
341
原创 pandas DataFrame查看数据,查找数据,修改表头,缺失值处理,遍历,计算方法
利用pandas的DataFrame完成数据的查找,修改,转换名字,调整数据类型,删除,缺失值处理计算和遍历。涉及的函数,loc, iloc, drop, rename, dropna, fillna, iterrows, set_index。基本的常见操作大全
2023-02-23 09:15:22
1059
原创 【数据处理】python读取word中表格;提取word文字;word表格转化为dataframe
【数据处理】读取word中表格;提取word文字;word表格转化为dataframe
2023-02-10 12:12:49
1203
原创 【Java播放音乐】利用AudioSystem实现音乐的播放、循环播放以及音量的调整
【Java播放音乐】利用AudioSystem实现音乐的播放、循环播放以及音量的调整
2022-11-10 17:11:58
1708
1
原创 【线程安全】【线程通信】【Java】synchronized锁讲解,锁方法和锁住变量,隐式锁和显式锁Lock,信息同步
【线程安全】【线程通信】【Java】synchronized锁讲解,锁方法和锁住变量,隐式锁和显式锁Lock,信息同步
2022-10-29 21:06:06
1052
原创 【计算机常识】IDEA如何建立一个Java工程,Java项目、模块、包、类,.idea是什么,out文件是什么
IDEA如何建立一个Java项目、模块、包、类,,idea是什么,out文件是什么带你建立一个项目和理解项目的结构
2022-10-22 12:44:51
7086
3
原创 非环境配置原因引起的IDEA报错:错误: 找不到或无法加载主类 原因: java.lang.ClassNotFoundException
非环境配置原因引起的IDEA报错:错误: 找不到或无法加载主类 原因: java.lang.ClassNotFoundException
2022-10-17 15:30:22
1345
原创 【基本数据结构】python array数组 [easy] leetcode1,53,88,118,121,217,350,566
【基础数据结构】python array数组 [easy] leetcode1,53,88,118,121,217,350,566
2022-09-02 17:00:36
429
原创 python手写逻辑回归算法【机器学习】
python手写逻辑回归算法文章目录python手写逻辑回归算法算法介绍程序设计思路程序代码运行结果算法介绍在生活中,我们常常能听见这样的说法,“您的这辆车已经使用了5年了,有80%的概率会出一些小的故障。”我们会不会觉得很奇怪,一件事情会发生就是会发生,不会发生就是不会发生,这80%是啥意思?于是我们点点头。虽然我们不是很理解这个数字的含义,但是我们知道这个车很有可能会出故障。那这个概率究竟是怎么来的呢?其实这个概率是需要历史数据的,对于人来说就是经验。这个历史数据其实是一个分类的数据,即在自变
2022-04-28 23:35:42
2898
原创 【CNN】卷积神经网络 :适用范围、本质、详细计算过程、输入输出数据形状、池化、流程设计(无代码)
卷积神经网络文章目录卷积神经网络图片直观理解实现思想,本质以及适用问题卷积核计算过程和数据形状输入RGB:图片输入为3通道一个卷积是多层的时候,如何计算?池化torch实现图片直观理解卷积神经网络叫做此名字的主要原因是因为其中存在卷积核的结构和卷积的运算。卷积的运算的具体的方式就是,按照一定的规律,完成小矩阵和大矩阵的乘积,输出一个新的矩阵。具体的计算方式,就是按照图中的框框的地方,对应的位置相乘,再把整个矩阵的之加起来。计算完整个矩阵的时候,就得到卷积之后的值了。本质只是一种运算。实现思想,
2022-04-28 23:33:59
4710
原创 【NLP】文本处理基础操作:停用词,去掉杂乱的词(用nltk),pandas遍历和存储成为txt文件
【NLP】文本处理基础操作:停用词,去掉杂乱的词(用nltk),pandas遍历和存储成为文件文章目录程序代码以及说明遍历dataframe完成去掉杂乱词和小写pandas存为文件用dropna去除不想要的数据的小技巧程序代码以及说明利用这段程序完成了把一个csv第一行是情感,第二行是评论的数据去掉乱七八糟的字符和完成小写之后,存到了一个txt文件里面当然整体的程序可能不是很重要重要的是里面处理的步骤和特定的语法下面拆开来讲import pandas as pdimport numpy as
2022-04-22 18:44:16
2684
原创 【PyTorch练习】tensor的一般计算;定义新的 Autograd 函数;设计一个CNN网络(附详细步骤解释)
【PyTorch练习】tensor的一般计算;定义新的 Autograd 函数;设计一个CNN网络
2022-03-23 10:50:57
1623
原创 latex常用语法:数学公式、写条目、插入单张图片多张图片、引用参考文献、各种行距段距(从数学建模美赛过程中积累得到)
latex常用语法包括latex数学公式、latex矩阵、latex条目的写法、latex单张和多张图片的插入、latex引用的书写方法、;atex页边距,latex设置行距,修改行距,水平和竖直距离
2022-02-27 17:23:24
581
原创 python手写聚类算法:Kmeans&DBscan算法
python手写聚类算法:Kmeans&DBscan文章目录python手写聚类算法:Kmeans&DBscan算法思路以及步骤介绍手写代码Kmeans手写DBscan关于手写程序的说明算法思路以及步骤介绍首先,我们分别介绍一下Kmeans算法以及DBSCAN算法。Kmeans算法步骤:首先先随机的选择K个点(这里的K是超参数),这K个点作为中心点,对于剩下的所有的点,计算剩下的点和这三个点的距离,距离中最小的,认为属于这个类。在更新完一遍之后,计算类中的均值向量作为新的中心,再次重
2022-02-27 17:05:19
1387
原创 【Java】多线程(以java webcam实现视频功能为例)
1)如何创建线程?Thread2)关于线程的run和start3) 如何用java实现视频,webcam;如何把jar包导入IDEA?4)线程的注意点5)JFrame实现视频功能(结合线程知识
2022-02-23 16:07:13
909
原创 关于做系统的种种逻辑(1)(Springboot+vue)
一个Springboot+vue的前后端分离项目总结用到了mybatis plus和element plus主要讲解了系统的逻辑,写前后端的逻辑和一些积累性质的代码包括如何重新写mapper实现对于数据库的查询?如何写分页?vue的方法created(),mounted()如何限制表单多选的个数?如何弹出表单和一些简单的语法?还有一些心得~
2022-02-13 16:26:22
1263
原创 【Java基础】如何判断一个元素在一个集合里面Java创建数组和集合,Java创建array和List
Java创建array和ListJava判断一个元素在一个集合里面
2022-01-22 22:59:48
3291
原创 【基础操作】MATLAB常见矩阵以及矩阵基本操作
矩阵是matlab中基本必用的数据结构介绍matlab常见矩阵以及矩阵基本操作包括各种矩阵的生成和操作
2022-01-14 21:58:04
995
原创 【Java基础】第五章 界面展示响应事件/普通界面建立/手把手从零用java写一个计算器
java实现简单的界面展现和编写简单的计算器很清楚和简单的讲解java基础
2022-01-14 21:25:42
296
原创 【基础操作】MATLAB排列组合(应用起源:MM的C矩阵)
MATLAB中很基础很基础的操作,有关于排列组合、矩阵和画子图的一些,是在学习中碰到的就记录下来,方便之后查看,不会太全,持续更新~
2022-01-03 18:05:27
909
原创 KNN算法,简单的说明白啦~
KNN算法文章目录KNN算法算法思想算法步骤算法实现(python)按照算法逻辑,编写程序直接调用sklearn库中方法延申:怎么用KNN做回归分析?算法思想K近邻算法的思想可以这样来理解:假设在某一个世界有一个定理,一个人肯定和自己的邻居相似。现在你已经知道了一些邻居的类型,怎么判断这个人的类型呢?你肯定觉得这是一个简单的问题,直接看这个人的邻居是什么类型不就好了但是如果这个人的邻居有多种类型怎么办呢?KNN给出的办法是,看他的邻居的种类,认为这个人的种类是邻居中最多的那个种类。比如说,我假
2021-10-31 21:24:10
275
原创 决策树思想步骤讲解和常见决策树方法的区别(超级易懂!)
决策树决策树算法也算是听过很多遍的算法了,关于那个怎么选择对象的例子也听了许多遍,但是之前一直理解不够深刻,满脑子能够记住的只有那个树的形状和知道要分数据。可是对于怎么分数据,为什么分数据,一些常见的词(信息熵、信息增益、基尼系数)和算法都是什么样子的都不是很清楚。最近学校上课又好好的听了一遍(感觉老师讲的还是很好的),把这些基础的知识都弄懂了,在这里用简单的语言总结一下。本篇文章偏向于理解~文章目录决策树决策树的思想和步骤基本思想和步骤怎么衡量信息来确定分支点?分类数据(值是分类,没有含义只是代表不同
2021-10-20 12:46:13
624
1
原创 PCA公式推导
PCA公式推导文章目录PCA公式推导PCA目的与原理PCA使用说明PCA公式推导关于m值的选择Python实现PCA对于鸢尾花数据进行降维PCA和LDA的思路比较PCA目的与原理PCA可以实现在维度较多的时候的降维的功能,并且能在降维的过程中最大的保留原来的变量的所有信息。实现的思路是,对于现存的m维数据,找到k(k<m)维数据来对其进行代替,目标是尽可能减少信息的损失。为了更加直观的认识,我们以二维的数据为例。如下图,存在蓝色的一些数据点,我们希望找到一个比二维维度更低(这里就是这条一维的直线
2021-10-15 19:49:45
2335
原创 【Java基础】第四章 界面操作(超级有助于理解!建议编程难下手的小伙伴进行观看~)
第四章 界面操作使用了多年计算机,对于界面我们再熟悉不过了。一个框、一些输入框、一些按钮,就能够让我们轻松的不是使用命令的方式而是使用界面的点击方式,完成我们需要做的事情。现在我们便用Java实现界面尝试一下。文章目录第四章 界面操作编写页面程序的思路介绍对界面的简单介绍组件监听器一些小小的建议具体实例展示用户登录最小可行版本画图功能实现版本关于编程的建议和心得代码编写页面程序的思路介绍在编写程序的时候,最重要的就是需要明白自己编写的程序在解决问题的时候的逻辑。如果不知道这个逻辑的话,就很容易大幅度
2021-10-09 20:35:56
296
原创 【Java基础】第三章 接口(超级有助于理解,初学者必看!)
第三章 接口(超级有助于理解)第二章我们看完了类和对象的概念,知道类其实是对于对象的一种抽象。回想我们过去的生活,我们会发现很多不同类的事物,会有着相同的行为,比如猫、狗和人类都会吃东西。那么是不是说我们可以定义一个吃东西的动作,再针对具体不同的动物,在这个动作里面加入特定的其他属性呢?这样是不是就把这个动作抽象出来了?感觉很规范,利于后期的修改呢?在Java里面,这种抽象的方法,由接口来实现。为了更好的理解,我们先写一个例子,在例子后面给出基础的语法。文章目录第三章 接口(超级有助于理解)一个例子首先
2021-10-05 18:05:11
256
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人