自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(187)
  • 收藏
  • 关注

原创 实战常用指令——dataframe相关操作

【代码】实战常用指令——dataframe相关操作。

2025-03-27 13:18:53 270

原创 实战常用指令——配置环境

【代码】实战常用指令——配置环境。

2025-03-27 10:23:41 191

原创 机器学习的通用工作流程

在某些情况下,机器学习可能不是理解数据的最佳方式。例如,对于音乐推荐引擎来说,矩阵分解(协同过滤)比深度学习的效果更好。当你了解完这个领域的研究现状之后,你要根据效果选择是否使用机器学习模型。一旦你开发出令人满意的模型配置,你就可以在所可用数据(训练数据和验证数据)上训练最终的生产模型,然后在测试集上最后评估一次。如果模型的性能与之前实验(验证集上)的相差不大,恭喜你这个模型是可用的。如果模型在测试集上的性能比验证集上相差很大,那么可能是你的验证流程不可靠,或者没有找到稳健拟合的位置。

2025-03-01 11:17:34 1083

原创 如何提高神经网络的泛化能力?

详细内容及解决办法请见:神经网络模型如何改进模型拟合?-优快云博客在解决完上述问题之后,你再需要考虑如何提高模型的泛化能力。以下提高神经网络的方法与改进模型拟合的有明显的先后顺序不同,提高神经网络的泛化能力的方法是并行的,并没有前后关系,但是有使用效果的倾向。

2025-02-25 17:05:06 583

原创 机器学习中如何对数据集进行数据透视和预处理?

对于一个现有的数据集,你需要对数据集进行一个透视,从而了解问题的实际情况和数据的分布特征。一般对于分类和回归问题,都有以下的步骤进行数据透视,从而对数据集有一个更深入的理解。加载数据,检查形状和完整性,并通过抽样对数据集所处的业务背景有一个清晰的认识。检测并处理缺失值(删除或填充)。检测并处理异常值(删除、截断或平滑)。调整形状、转换数据类型、归一化/标准化、特征工程(可选)。

2025-02-23 18:27:01 1002

原创 进行数据透视时如何抽取数据是合理的?

对于一个固定长度的数据集,抽取多少比例的数据进行审查取决于数据集的大小、审查的目的以及可用资源(如时间和计算能力)。

2025-02-23 15:58:07 328

原创 神经网络模型如何改进模型拟合?

为了实现完美的拟合,你必须,因为你事先不知道界限在哪里,你必须穿过界限才能够实现拟合。针对上述所讲的在实际操作的不同过程产生的问题,我们有如下的解决办法。

2025-02-22 16:51:11 1175

原创 如何对机器学习模型进行评估?

分类正确的样本占总样本的比例。

2025-02-20 11:52:17 1048

原创 带有打乱数据的重复K折交叉验证

对于K折交叉验证可以这样理解,先将数据集按照索引升序进行排列,然后按照索引数量将数据集平均分成K段,从这K段中每次选出一段当作验证集进行验证,其他的当作训练集进行训练,得出分数后记录下来。特别值得注意的是all_mae_histories.append(mae_hitory),这里每次添加的是一个列表,最后的all_mae_histories是一个二维的列表,每个子列表里面存储着对应模型的指标信息。事实上这样的架构是可以的,但更方便的是sklearn中的RepeatedKFold函数。

2025-02-20 11:49:05 843

原创 为什么机器学习能够解决问题?

这里你不需要提前完全掌握,只需要在阅读后面时遇到不理解的属于可以回来看这里的定义从而加深对问题的理解。模型训练的过程:模型按轮进行训练。k轮是k-1轮进行调整得来的。每轮的训练都是一个新模型。模型会尽可能的由粗到细的去找到数据分布的规律,也可以说是形状。模型训练的目的在于由局部去推导出整体。在模型的训练过程中,由于只有局部数据的信息,从极端的程度考虑,模型最后会记得所有局部数据的具体的分布。但这已经偏离了我们想得到的整体的分布。属于是拟合过火了。

2025-02-19 15:08:42 755

原创 机器学习中过拟合问题出现的数据原因

例如一个样本有784个特征,那么我再增加784个随机特征来进行干扰,最终形成1568个特征用于表示一个样本,从而去测噪声数据对模型训练的影响。为了更科学的进行对比实验,我们同样引入784个没有意义的全零特征用于保持数据在训练时的输入形状的一致。发现其是一个三维张量,并且每个数字的取值范围是0-255,所以要对张量的形状进行改变并且要对里面的数值进行归一化处理从而辅助模型训练。可以看到,添加了噪声的数据在训练时在验证集产生的表现要普遍低于没有添加噪声的数据。的方法确定哪些特征是有用的哪些特征是无用的。

2025-02-19 11:27:22 748

原创 机器学习基础

在阅读这里之前,需要了解机器学习(神经网络)架构的相关知识,以及数据是如何进行变换从而得到我们期望的结果的:从问题的逻辑上看,我对下面这张图进行详细的阐释:

2025-02-16 15:41:12 127

原创 如何在终端退出python解释器

推荐使用exit()或quit()。快捷键Ctrl + D(或Ctrl + Z)是最快捷的方式。强制退出可以使用,但不建议常规使用。

2025-02-15 11:16:57 170

原创 如何在vscode里面将一个项目的环境进行配置,或者选择一个新的环境

在 VSCode 中配置或选择项目环境通常涉及设置 Python 解释器、配置调试环境等。

2025-02-15 10:51:11 510

原创 使用一个简单的神经网络对波士顿房价进行回归

与分类问题不同的是,回归问题的预测值是连续值,而分类问题的预测值的离散值。

2025-02-12 17:32:40 828

原创 什么是K折交叉验证

python。

2025-02-12 16:47:33 844

原创 ImportError: Missing optional dependency ‘xlrd‘. Install xlrd >= 2.0.1 for xls Excel support Use pip

解决办法:

2025-01-11 11:46:06 204

原创 如何在jupyter notebook切换环境

【最全指南】如何在 Jupyter Notebook 中切换/使用 conda 虚拟环境?_多个conda环境 notebook用的哪个-优快云博客。

2025-01-11 11:18:10 190

原创 认识波士顿房价数据集

不管将对数据进行什么样的操作,对数据本身的理解包括对生成数据的业务的理解总是首要的。假设我现在要使用Keras对波士顿房价数据集进行回归,那么我首先要去了解这个数据集是什么样子的。首先,需要找到数据集的来源,一般在来源网站会有对数据集的描述。使用bing或者google搜索引擎,将会出现高质量的数据集的可能的来源。其官网的指示文档如下所示:对于数据集的描述只有其有13个属性,目标值是某个位置房屋价格的中位数。并没有对属性当中的数值做过多的解释,但是做数据分析对数据的理解是十分必要的。

2025-01-07 09:57:55 757

原创 使用一个简单的神经网络实现路透社新闻数据集reuters数据分类

简单认识路透社数据集reuters-优快云博客。

2025-01-06 17:27:25 858

原创 简单认识路透社数据集reuters

官网的信息如下:这个数据集一共有11228个样本,每个样本被单标签标记(每个样本只被打上一个标签),标签类别的总数是超过46。按照自然语言处理的流程,每条文本会被预处理,最终成为向量才能被使用。这个过程请见:它针对每条样本将文本转化成一个列表,列表当中的元素是对应词表的序号。这个词表是按照词频降序进行排列的。值得注意的是,load_data使用的词表最开始有三个功能类,分别代表填充padding、序列开始start of sequence、未知词unknow。

2025-01-06 11:21:52 646

原创 使用一个简单的神经网络实现IMDB影评数据分类

认识IMDB数据集-优快云博客。请见这个博客。认识IMDB数据集-优快云博客。

2025-01-05 21:45:51 903 2

原创 如何将IMDB中一句话编码成整数列表?如何将这个整数列表解码为文本?

这里引用的load_data使用的字典前面有padding、start of sequence、unknown三列作为功能列。这里这个数据集给我们的就是一个评论的编码列表,下面主要的工作是如何将一句话的编码列表依照序号与词的映射字典(“词”:词序号)将其转化为一句话。最后就能将列表train_data[0]第一个句子(只有数字索引),转化为正常的文本了。2、明确句子编码所用的字典和我想要进行翻译的映射字典的关系。我的目标是将一句话的映射列表(只有数字)转化为对应的话。3、映射字典的键值交换。

2025-01-05 16:12:44 813

原创 认识IMDB数据集

不管将对数据进行什么样的操作,对数据本身的理解包括对生成数据的业务的理解总是首要的。假设我现在要使用Keras对IMDB数据集进行二分类,那么我首先要去了解这个数据集是什么样子的。首先,需要找到数据集的来源,一般在来源网站会有对数据集的描述。使用bing或者google搜索引擎,将会出现高质量的数据集的可能的来源。一般进入官网阅读官方指示文档。找到自己想要研究的数据集:开始仔细阅读,起码要对开发者针对这个数据集开发的函数和参数有清晰的理解。

2025-01-05 15:02:55 849

原创 如何使用TensorFlow编写线性分类器

我想要对自己随机生成的服从于二维正态分布的点进行分类。数据是由自己生成,分类器是由自己借助TensorFlow实现的简单的一层神经网络,在这里我称为线性分类器。

2025-01-04 17:07:32 834

原创 如何利用多元正态分布生成随机数进行分类(仅数据生成和可视化)

多元正态分布是指一个随机向量的各个分量都服从正态分布,并且这些分量之间可以存在一定的相关性。一个 k维随机向量 X=(X1,X2,…从图形上理解,可以从下面几个方面进行理解:1、对于一个维度本身,可以从标准正态分布来理解,数据点数量的集中中心由这个维度的均值决定,数据点的分布的拉伸程度由这个维度的方差决定。越小的方差范围内,数据点的个数越多。以下是生成上面图的代码:2、由于是多维数据之间的分布,势必要描述每个维度和每个维度数据点之间的关系。这个关系是由相关性来描述。范围在[-1,1]。

2025-01-04 13:42:34 1168

原创 Tensorflow张量的创建与修改和张量的运算

构建一些tensorflow代码来实现一些训练神经网络的概念。构建张量,包括储存神经网络状态的特殊张量张量运算,比如加法、relu、matmul反向传播,一种计算数学表达式梯度的方法,在tensorflow中通过GradientTape对象实现。层,神经网络是多层顺序连接构建的模型损失函数,它定义了用于学习的反馈信号优化器,它定义了学习过程如何进行,即从损失函数出发如何去更新模型权重评估模型性能的指标,比如精度。

2025-01-03 21:14:19 904

原创 jupyter notebook 在markdown进行文本格式设置

Jupyter 进行文字、图片格式编辑_jupyter文字编辑-优快云博客。

2025-01-03 09:35:01 200

原创 使用Colaboratory

苦逼学生党的Google Colab使用心得 - 知乎。

2025-01-03 09:30:49 121

原创 tensorflow1.4.1没有variable_scope、rnn.GRUCell、distribution

方法改为tf.compat.v1.variable_scope。在 TensorFlow 1.4.1 中,没有distributon。

2025-01-02 15:44:37 191

原创 只使用tensorflow而不使用keras实现一个简单的神经网络

这是一个类,这个层主要实现数据变换的操作,即输入一个tensor,先与权重矩阵W相乘,然后加上b,最后经过激活函数activation运算,输出一个新的张量。为了实现这个操作,我们将这个任务划分成几个子任务:(1)定义需要输入的属性,用于支持数据变换这一核心操作。这些属性包括W、b、activation。(2)实现数据变换的操作。(3)为了更方便的在后续的操作中获取权重的更新,希望定义一个新方法返回W和b。以下是具体的实现:

2025-01-02 15:43:32 749

原创 __call__函数的理解

当然,layer = MyLayer()的出现是因为这个类中没有初始化函数__init__,所以需要先激活一下,表明layer这个变量是在MyLayer这个类中进行游走。函数是一个特殊的方法,它允许类的实例像函数一样被调用。也就是说假如我有一个类名为Example,那我可以在后面的代码中直接使用这样的格式调用Example类中的。在 Python 中,

2025-01-02 12:48:31 133

原创 函数中self的理解

self是Python类中一个非常重要的概念,它使得对象能够在其方法中引用自身的属性和其他方法。通过self访问和修改实例属性区分实例属性和局部变量实现方法链调用在类的内部方法之间传递实例。

2025-01-02 11:11:35 542

原创 SyntaxError: invalid non-printable character U+00A0

Python invalid non-printable character U+00A0-优快云博客。

2025-01-01 06:54:50 241

原创 如何在jupyter中使用虚拟环境

【最全指南】如何在 Jupyter Notebook 中切换/使用 conda 虚拟环境?_多个conda环境 notebook用的哪个-优快云博客。

2025-01-01 06:10:46 130

原创 VSCode里面python2.7解释器无法使用的问题解决

vscode无法调试python2.7版本_vscode python2.7-优快云博客。

2024-12-31 13:56:27 361

原创 初次使用云服务器,配置tensorflow==1.4.0

随便配置一台服务器,环境配置相似的环境而不是完全一样的环境(例如要去配置的环境是tensorflow1.4.0我配置的是tensorflow1.4.1),在跑代码的过程中爆出各种各样奇怪的错误。我尝试修改,发现大多问题出现在配置的环境,特别是自己的tensorflow版本的问题(例如一些包的方法的转移)。2、相近的版本安装虽然可能把代码跑成功,但是仍然要把完全相同的版本的设置与安装的优先级放在首位,即使可以通过增加其他依赖包或者修改底层文件来达到可能的目的。这里不能更新python版本,是有解决办法的。

2024-12-31 13:09:13 935

原创 如何在终端查看python版本

⭐️怎么查看电脑Python版本(如何在Windows、Linux和macOS系统上查看Python版本的命令和方法)——《跟老吕学Python》-优快云博客

2024-12-31 10:28:35 160

原创 如何在VSCode中查看自己的python解释器

VSCode - 配置Python的默认解释器_vscode选择解释器-优快云博客

2024-12-31 10:23:25 187

原创 tensorflow1.4.0转tensorflow2.13

【代码】tensorflow1.4.0转tensorflow2.13。

2024-12-30 18:29:38 118

iris鸢尾花示例数据

可用于PCA、LDA等降维方法,也可以用于k-means、k-means++、Hierarchical Clustering等聚类方法

2023-08-12

哈工大停用词表(标点符号+中文)

哈工大停用词表(标点符号+中文)

2023-08-12

中文文本处理-中文停用词表(包含部分英语单词)

中文文本处理-中文停用词表(包含部分英语单词)

2023-08-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除