机器学习
文章平均质量分 94
以俄罗斯人角度学习机器学习,我们能交叉学习到怎样的知识,擦出怎样的火花!为保证严谨性部分会保留俄文或英文,谢谢观看!
啥都鼓捣的小yao
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
课程12. 神经网络
到目前为止,我们讨论的都是经典的机器学习算法。今天,我们将探讨机器学习如何超越经典模型,通过开发一种全新的模型——神经网络——发展成为深度学习。让我们回顾一下什么是线性回归。它是一种模型,通过为描述对象的每个特征生成权重,从而对对象的某些特性进行合理的预测。从某种意义上说,这些权重可以被视为给定特征对最终决策的重要性。让我们来看一个经典的例子:假设我们需要根据房屋的某些特征来评估其价值。这些特征包括:房间数量,浴室数量,该地区学校的平均绩点(该特征可以被视为对这些学校质量的评估),该地区的绿化率,地铁站,该原创 2025-11-23 17:35:02 · 734 阅读 · 0 评论 -
Python大数据分析——AdaBoost、GBDT、SMOTE与XGBoost算法模型
提升树算法与线性回归模型的思想类似,所不同的是该算法实现了多棵基础决策树f(x)的加权运算,最具代表的提升树为AdaBoost算法,即:其中,F(x)是由M棵基础决策树构成的最终提升树,Fm-1(x)表示经过m-1轮迭代后的提升树,αm为第m棵基础决策树所对应的权重,fm(x)为第m棵基础决策树。其中Fm-1(x)=α1f1+α2f2+…+αm-1fm-1。原创 2025-08-09 14:42:52 · 842 阅读 · 0 评论 -
课程11. 推荐系统
最简单的情况是,我们可以查看哪些电影经常与《星球大战》一起观看,然后直接推荐它们,但我们将采用一个更有趣的想法。由于我们针对的是“itemId_x”构建推荐,因此“n(itemId_x)”的值在 PMI 中对于所有候选人都是相同的,因此我们无需除以它。在这种情况下,很明显,为了预测 Lesha 会对《泰坦尼克号》有多喜欢,值得更多地关注 Egor 的评价,但也值得记住 Dima 和 Masha 的评价。现在,我们希望降低此类用户描述的维度,因为它显然是冗余的(例如,在 TF-IDF 的情况下)。原创 2025-05-12 10:00:00 · 583 阅读 · 0 评论 -
课程10. 聚类问题
尽管存在这种复杂性,“DBSCAN”仍然是一种非常有用的聚类算法,它使我们能够识别具有复杂规律性的聚类。我们可以基于我们能够形成的启发式方法,结合我们对主题领域的了解或问题的特征,以及通过尝试多个选项并确定哪种聚类能够最小化每个对象到其聚类中心的距离之和,来选择最适合我们任务的选项。我们将会了解这些方法。我们可以使用不同的聚类中心初始近似值多次运行该算法,然后选择每个对象到其聚类质心的距离总和最小的解。个聚类划分,合并其中最近的一个(或者,相反,将其中一个聚类拆分成两个不同的聚类),从而将样本划分为。原创 2025-05-04 20:19:06 · 1200 阅读 · 0 评论 -
课程9. 数据降维
这样的集合一般表示几个矩阵的集合(比如流行的RGB(红,绿,蓝)编码就存储了3个这样的矩阵,每个矩阵对应自己的颜色)。每个单元格存储一组特定的数据,由一组落入该单元格的训练数据集点表示,并且每个单元格中的类别选择是通过对落入该单元格的所有对象进行投票来完成的。正如我们之前提到的,SVD 变换的设计方式是,通过丢弃与最小奇异值相关的分量,我们几乎不会丢失任何重要的信息,而且通常我们可能只会丢失对我们没有特别价值的噪声。得到的向量表示数据中的主要“轴”,向量的长度表示该轴在描述数据分布方面的“重要性”。原创 2025-04-17 19:32:29 · 960 阅读 · 0 评论 -
Python在糖尿病分类问题上寻找具有最佳 ROC AUC 分数和 PR AUC 分数(决策树、逻辑回归、KNN、SVM)
定义了四种分类算法,分别是决策树、逻辑回归、K 近邻和支持向量机,同时设置了相应的参数。原创 2025-04-13 16:25:35 · 1171 阅读 · 0 评论 -
课程8. 质量指标
今天我们将讨论一个乍一看似乎微不足道的问题——如何衡量已经构建的分类器的质量?每个人首先想到的可能是我们在整个课程中经常使用的指标。让我们从他开始吧。准确度指的是分类器正确答案的比例最明显、最直观的指标。为了计算准确度(Accuracy),我们采用由 NNN 个对象组成的原始数据集,并查看其中有多少个对象被正确分类。令这个数字为MMM。然后:Accuracy=MNAccuracy = \frac{M}{N}Accuracy=NM看起来,还需要什么呢?这是最客观地显示我们算法有效性的指标!事实证明,准确性原创 2025-04-13 10:00:00 · 948 阅读 · 0 评论 -
Python手写“随机森林”解决鸢尾花数据集分类问题
该类用于实现随机森林分类器。__init__方法是类的构造函数,用于初始化随机森林的参数,包括决策树的数量、最大深度、子空间维度和随机种子。是一个空列表,用于存储随机森林中的每棵决策树。fit方法用于训练随机森林模型。对于每棵决策树:调用sample函数对数据进行自助采样,得到训练样本X_sample和对应的标签y_sample。使用随机选择个特征,得到特征子空间的索引。从采样数据中提取特征子空间X_subspace。创建一个决策树分类器,设置最大深度和随机种子。原创 2025-04-08 21:46:10 · 1878 阅读 · 0 评论 -
课程7. 机器学习的集成算法
然后,他们建立第二个模型,该模型预测的不是原始值,而是第一个模型的误差,并考虑到这一点,调整最终预测。我们说第一个模型给出了这个答案,但是我们在它上面添加了第二个模型的修正,然后是第三个模型的修正,依此类推,直到得到最后一个模型。它以略有不同的方式(采用不同的子样本、不同的特征)生成许多彼此独立的不同树,并根据它们的响应形成最终解决方案。增加模型的复杂性会导致散度的增加,而简化模型会导致偏差的增加。如果它们之间的差异确实不是很强,那么它们的偏差就大致相同,也就是说,它们的误差的系统部分是接近的。原创 2025-04-08 15:37:45 · 1203 阅读 · 0 评论 -
Python使用“决策树”算法解决预测钻石成本的问题
待测试的超参数params = [params是一个列表,其中每个元素是一个字典,包含了决策树回归模型的超参数组合,包括criterion(分裂准则)和max_depth(树的最大深度)。原创 2025-03-30 23:37:46 · 1426 阅读 · 0 评论 -
课程6. 决策树
谓词。原创 2025-03-30 20:00:26 · 1145 阅读 · 0 评论 -
Python使用SVC算法解决乳腺癌数据集分类问题——寻找最佳核函数
为了检查问题解决方案的质量,请使用参数“test_size=0.2”和“random_state=42”将样本分成训练和测试,以使用“准确度”来检查。作为答案,请提供最佳内核的字符串名称,不带引号和其他小写的附加字符。这是指您传递给 SVC 参数的名称(即不是“多项式”,而是“poly”)填写下面的代码模板并选择最佳内核,保持其他超参数不变。不要忘记使用“StandardScaler”要尝试的内核:线性、多项式、径向、S 形。您的任务是选择最佳内核,使用。证明rbf是最佳核函数。证明rbf是最佳核函数。原创 2025-03-24 23:19:32 · 550 阅读 · 0 评论 -
课程5. 机器学习的核心方法
这个陈述使我们能够更进一步地观察从非线性模型到线性模型的转变,这不仅仅是由于对特征应用了变换,而且是由于。原创 2025-03-24 22:43:57 · 1125 阅读 · 0 评论 -
Python手写机器学习的“线性回归”算法
我们只考虑如何手写实现,不考虑效果好不好,和统计学上的使用方法,主要是培养代码算法实现思想,如果您想学习线性回归知识,请看我博客的专门有写文章。原创 2025-03-16 01:56:03 · 1069 阅读 · 0 评论 -
Python实现“经典梯度下降算法”训练逻辑回归模型
"""y_true - 对于对象 x 的真实响应值y_pred - 我们的模型预测的对象 x 属于类别 1 的概率值x - 该对象的特征描述向量期望在输出中得到关于预测 y_pred 值的模型参数的偏导数向量 H。请注意,由于自由系数 a0 的存在,这个梯度的维度应该比 x 的维度大 1。"""# 在特征向量x前添加1,用于计算偏置项的梯度gradient函数用于计算逻辑回归损失函数关于模型参数的梯度。y_true是样本的真实标签(0 或 1),y_pred。原创 2025-03-16 01:36:48 · 956 阅读 · 0 评论 -
课程4. 线性模型
线性分类和回归模型在经典机器学习中发挥着重要作用。我们将看到,线性模型易于使用和学习,具有部分可解释性,并且具有许多有趣的修改。将来,我们将会了解到神经网络在某种程度上是线性模型的扩展,也是线性模型的显著复杂化。线性分类和回归模型彼此有很大不同,因此我们将分别考虑它们。讲座的第一部分将专门讨论线性分类模型,第二部分将专门讨论线性回归模型。我们需要以下概念:向量及其操作。两个向量的标量积。平面、超平面上的直线方程。数理统计要素:数学期望、离差、标准差。广义线性分类器的想法是,我们将采取一些线性曲面,或者原创 2025-03-13 02:21:43 · 1375 阅读 · 0 评论 -
课程3. 度量方法
这些性质绝对是自然而可以理解的:第一个性质表明,我们要调用距离的函数必须大于或等于零(而只有当这两个物体重合时,它们之间的距离才等于零)。这非常方便,因为它允许我们不仅使用来自“sklearn”的类对象作为参数“clf”,还可以使用来自其他库(甚至我们自己的类)的类对象作为参数“clf”。我们希望这个常数在某种“一般意义”上与我们在邻域内已知的函数的所有值尽可能的相似。:监督学习问题(即在训练数据集中给予我们的标签并且我们的任务是学习预测它们的问题)分为几个分支,其中最重要的是分类问题。原创 2025-03-06 02:08:48 · 941 阅读 · 0 评论 -
课程2. 机器学习方法论
在上一讲中,我们讨论了机器学习专家面临的挑战。无论解决的问题类型和解决方法如何,机器学习和数据科学领域的所有专家都会使用一套规则、方法和途径。今天的讲座将专门讨论我们将在课程结束前使用的技术,以及对于那些决定继续学习机器学习和神经网络的人来说,更进一步的学习。因此,在今天的讲座中,我们将假设我们手中不仅有一个数据集X、一组标签y和一个问题陈述,而且还有一个算法A,我们知道如何它(即选择该算法的参数,以便算法能够以足够的质量解决问题)。原创 2025-03-04 21:32:45 · 988 阅读 · 0 评论 -
课程1. 机器学习简介
我确信今天没有人不知道机器学习和人工智能技术。似乎这门神秘的科学已经渗透到人类生活的各个领域:神经网络已经学会翻译几乎所有语言的文本;机器已经学会观察、分析照片和视频,甚至提高它们的质量;基于人工智能的银行算法决定谁应该获得贷款,谁不应该获得贷款;埃隆·马斯克的无人驾驶汽车正在加州的高速公路上行驶,而 Yandex 的无人驾驶汽车则在 Park Kultury 地铁站的郊区行驶。这个列表几乎可以无限地延伸下去。原创 2025-02-21 03:04:40 · 1211 阅读 · 0 评论
分享