自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (1)
  • 收藏
  • 关注

原创 用PANDAS自带的函数进行数据预处理

【代码】用PANDAS自带的函数进行数据预处理。

2024-10-29 08:15:12 121

原创 PYTORCH数据预处理的方法

在 PyTorch 中,内置的数据预处理API相对比较少,而且多数时候,预处理工作主要就是把原始数据转成Torch自己的Tensor格式张量,常见的数据预处理操作可以通过。在 PyTorch 中,我们可以手动实现数据标准化的功能。如果缺失值较多或者数据特征复杂,可以考虑使用专门的数据处理库,如。在 PyTorch 中,对于分类变量的编码,可以手动实现类似。如果缺失值较少,可以使用插值的方法来填充,例如线性插值。来处理缺失值,然后再转换为 PyTorch 张量。中的一些类来实现数据集的划分。

2024-10-29 08:10:54 151

原创 SCIKIT-LEARN数据预处理API

以下是使用:它通过移除均值并缩放到单位方差来标准化特征。:这个缩放器对异常值更具鲁棒性,它使用中位数和四分位数范围进行缩放。

2024-10-29 07:50:29 210 1

原创 常见分类算法的调参

在上述代码中,可以通过修改学习率、网络层数和优化器等参数,并观察不同参数设置下模型在验证集上的准确率,来体会调参对模型性能的影响。实际应用中,还可以进一步调整其他参数,如隐藏层神经元数量、正则化参数、批大小等。)也可以按照决策树调参的方法进行调整,因为随机森林是由多个决策树组成的。调参是一个不断尝试和优化的过程,需要结合具体的数据和问题来进行。表示 5 折交叉验证,这样可以找到使模型在验证集上性能最好的。并且,随机森林中的决策树相关参数(如。

2024-10-29 07:36:59 1800

原创 机器学习的逻辑

梯度下降,就是加快接近答案的优化算法,好的算法,会缩短猜中数字所需要的次数,以猜数字为例 ,对方猜50的时候,我告诉他大了,他下次可以猜49,也可以猜25,显然猜25的方法要好于前者。小时候玩过一个猜数字的游戏,我心里想一个任意数字,对方来猜,如果对方猜的数字比我想的大,我就告诉他大了,反之,我就告诉他小了。他每猜一次都会更接近正确的数字,数次之后,他最终会猜对这个数字。机器学习就像是这个猜数字的过程,每一次迭代都会距离正确答案更近,不同的是,机器学习只能无限接近正确答案,不可能达到绝对正确。

2024-10-25 20:29:44 161 1

原创 pytorch中的permute()函数的原理

代码a.permute(2,0,1)把最初的2,3,4维度,给调整成了4,2,3维度,并且保持维度内的数值关系不变。那么代码a.permute(1,0)就相当于a.T。他的功能就是把一个多维张量的维度进行调换。仔细观察数值位置的变化,就会理解了。permute的中文含义是:置换。这个就已经解释了一半了。

2024-10-25 08:54:09 385

原创 PYTORCH中的学习率怎么理解

当学习率设置的过小时,收敛过程将变得十分缓慢。且容易陷入局部最优解出不来。而当学习率设置的过大时,梯度可能会在最小值附近来回震荡,甚至可能无法收敛。其实可以理解为,最优解收敛时的步长单位,如果你希望结果更精确一些,就应该把学习率调低,当然这样样的结果是训练时间的增长。

2024-10-25 08:53:34 111

原创 机器学习基础模型选择

比线性模型速度还快,适用于非常大的数据集和高维数据。几乎总是比单棵决策树的表现要好,鲁棒性很好,非常强大。与随机森林相比,训练速度更慢,但预测速度更快,需要的。可以构建非常复杂的模型,特别是对于大型数据集而言。对于特征含义相似的中等大小的数据集很强大。需要数据缩放,对参数敏感。非常可靠的首选算法,适用于非常大的数据集,也适用于高维数据。速度很快,不需要数据缩放,可以可视化,很容易解释。适用于小型数据集,是很好的基准模型,很容易解释。比随机森林需要更多的参数调节。大型网络需要很长的训练时间。

2024-10-25 08:52:43 379

原创 Torch GPU版本的安装

确保没有安装:pytorch torchvision torchaudio这三个模块。等待漫长的在线下载安装过程即可(如果没有KX上网的话,可能需要数个小时甚至更长)*不需要单独安装巨大的CUDA安装包, 先确保你的显卡是支持GPU运算的,其中12.4是你要安装CUDA的版本,可跟根需要修改。返回True,就说明CUDA激活成功。再安装好anaconda。

2024-10-25 08:50:45 1096 1

TopFisher 数据采集系统

想过采集百度的搜索结果的数据吗?<br/>想过搭建一个自己的垂直搜索引擎吗?<br/>topFisher是目前居我所知最强大的WEB数据采集系统,他有以下四大特点:<br/> 灵活的脚本代码编写方式,轻松采集互联网上所有的页面!<br/> 真正的把网页变成数据,而不是简单的把网页变成文字!<br/> 实时的数据采集,不停的把最新的数据以最快的速度提交给您!<br/> 直接把数据放到您的数据库表中,您不需要做任何的后期工作!<br/><br/>因为topFisher的完全通过编写脚本代码,来解析网页架构,提取有效数据的,所以使用topFisher就像使用编程语言一样的灵活多样,这也是topFisher曲别于其它通过配置大量的对话框来完成网页架构解析的采集软件的主要不同之处,灵活的脚本代码方式,使得topFisher可以采集几乎所有的网站. 甚至像baidu这样的搜索引擎,topFisher都可以轻松采集,居我所知目前还没有哪种软件能采集baidu这样的网站.<br/><br/>利用topFisher强大的数据采集功能,您可以真正的搭建起您自己的垂直搜索引擎或应用于其它的商业模式上. 耳听为虚,眼见为实,topFisher到底有没有说的那么厉害, 聪明的您用用便知.<br/><br/>topFisher官方网站: www.topFisher.com<br/>

2007-05-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除