
机器学习
文章平均质量分 90
Violent-Ayang
人中龙凤尚且举步维艰
展开
-
机器学习 - 决策树
熵用于衡量数据集的不确定性,熵越高,数据的不确定性越大。节点类用于存储决策树的结构。决策树类包含构建树和预测的主要逻辑。return 0n = len(y)return ig决策树是一种强大且易于理解的机器学习算法,广泛应用于分类和回归任务。尽管决策树有一些固有的缺点,如易于过拟合和对数据扰动敏感,但通过剪枝和集成方法等技术可以有效地改进决策树的性能。理解决策树的基本原理和构建过程,并掌握其改进方法,对于在实际应用中充分发挥决策树的优势具有重要意义。原创 2024-07-24 17:32:21 · 871 阅读 · 0 评论 -
机器学习 - 随机森林降方差公式推导
在随机森林算法中,我们通过对数据集进行多次采样(有放回地抽样)并训练多个决策树模型,然后将这些模型的预测结果进行平均来得到最终的预测结果。这样做的一个重要好处是能够降低模型的方差(Variance),从而提高模型的泛化能力。这样,我们就得到了随机森林模型的方差公式,它表示为基模型方差与基模型间协方差的组合。,即随机森林模型的预测结果的方差。个基模型(决策树)的预测结果,是随机森林模型的预测结果,原创 2024-07-24 16:17:58 · 1102 阅读 · 0 评论 -
机器学习 - 信息增益
信息增益通过减少数据集的不确定性来选择特征,选择信息增益最大的特征作为划分标准。它在构建决策树的过程中起到了重要作用,有助于选择最能区分数据的特征。原创 2024-07-20 21:00:29 · 1710 阅读 · 0 评论 -
机器学习 - KNN算法
KNN(K-最近邻,K-Nearest Neighbors)是一种基本且直观的监督学习算法,用于分类和回归任务。其核心思想是:如果一个样本在特征空间中和其K个最近的邻居比较接近,那么这些邻居的标签可以用于预测该样本的标签。# 距离res = 0该函数计算两个样本之间的欧几里得距离。radiustextureperimeterareasmoothnesssymmetry和。K = 5# 1.距离res = [# 2.排序-升序# 3.取前k个# 4.加权平均# 总距离sum = 0。原创 2024-07-20 19:57:39 · 800 阅读 · 0 评论 -
机器学习 -逻辑回归的似然函数
将似然函数转换为对数似然函数的过程利用了对数的基本性质:对数将乘法转换为加法,并将指数转换为乘法。这种转换简化了复杂的乘积运算,使得梯度计算和优化问题变得更容易处理。对数似然函数在机器学习算法中尤为常用,尤其是逻辑回归中,用于最大化似然估计(MLE)。原创 2024-07-20 15:15:48 · 1501 阅读 · 0 评论 -
机器学习 - 逻辑回归
在逻辑回归中,对数似然函数前面加负号的主要目的是为了将最大化问题转化为最小化问题,这样我们可以使用标准的优化算法(如梯度下降)来训练模型。最小化负对数似然函数即等同于最大化对数似然函数,从而找到最佳的模型参数。平均损失L−1N∑i1Nyilogpi1−yilog1−piL−N1∑i1Nyilogpi1−yilog1−pi。原创 2024-07-20 15:03:23 · 1155 阅读 · 0 评论 -
二元逻辑回归模型的梯度下降法(全网最详细的求导过程,高数很差也能看懂)
详细地介绍二元逻辑回归模型的梯度下降算法,逐步解释每次求偏导过程,高数再差也可以看懂原创 2024-07-09 11:51:44 · 1147 阅读 · 0 评论 -
机器学习统计学基础 - 最大似然估计
最大似然估计(Maximum Likelihood Estimation, MLE)是一种常用的参数估计方法,其基本原理是通过最大化观测数据出现的概率来寻找最优的参数估计值。具体来说,最大似然估计的核心思想是利用已知的样本结果,反推最有可能导致这样结果的参数值。原创 2024-07-08 15:46:00 · 1777 阅读 · 1 评论 -
损失函数和成本函数的区别
损失函数和成本函数密切相关,但侧重点不同。损失函数针对单个样本,而成本函数关注整体数据集的表现。个样本的数据集,每个样本的损失函数为。原创 2024-07-08 15:41:32 · 1275 阅读 · 0 评论 -
逻辑回归的损失函数
逻辑损失函数通过对预测值和真实标签之间的差异进行量化,帮助优化算法调整模型参数,从而提高预测的准确性。损失函数的形式确保了在错误预测严重时(如将0预测为1或将1预测为0)会有较大的惩罚,从而推动模型学习更加准确的预测。原创 2024-07-08 15:16:33 · 902 阅读 · 0 评论 -
周志华西瓜书机器学习 - 第一章绪论
经典定义 利用经验改善系统自身的性能随着时代发展,主要研究智能数据分析的理论和方法,并已成为智能数据分析的源泉之一。无免费午餐定理是机器学习和优化领域中的一个基本理论,揭示了算法性能的本质限制。它提醒我们,在选择和设计算法时,需要充分考虑具体问题的特性和数据的分布。理解和应用NFL定理,可以帮助我们在实际应用中做出更为合理和有效的算法选择。原创 2024-07-08 10:48:17 · 1688 阅读 · 0 评论 -
机器学习 - 比较检验
列联表是一个用于显示两个或多个分类变量之间关系的表格,通过分析列联表中的频数分布,可以了解变量之间的关联性,并进行统计检验。原创 2024-07-06 12:07:53 · 900 阅读 · 1 评论 -
机器学习 - 模型性能评估
F1度量是用于评估分类模型性能的一个综合指标,它同时考虑了查准率(Precision, P)和查全率(Recall, R)。其中,TP(True Positive)是真正例,FP(False Positive)是假正例,FN(False Negative)是假负例。如果我们对查准率和查全率有不同的偏好,可以使用加权F度量(Fβ),其中β是一个权重参数。这个公式可以帮助我们理解在不同的β值下,查准率和查全率对Fβ的贡献。原创 2024-07-06 11:42:20 · 1419 阅读 · 0 评论 -
机器学习 - one-hot编码技术
One-hot编码是一种数据处理技术,主要用于将分类变量转换为适合机器学习算法处理的格式。在One-hot编码中,每个类别值都会被转换成一个二进制向量,其中只有一个元素是1,其余所有元素都是0。这种编码方式确保了类别之间的独立性和唯一性,使得机器学习模型能够正确地处理和学习不同类别的特征。原理是基于将每个类别映射到一个独立的二进制位上,这样可以避免类别之间存在任何潜在的相关性或相似性,从而使得模型能够更准确地学习和预测。例如,在Python中实现One-hot编码可以通过pandas库的。原创 2024-07-05 19:01:12 · 1861 阅读 · 0 评论 -
机器学习-利用 scikit-learn 使用梯度下降实现线性回归
线性假设:确认自变量与因变量之间的线性关系,即假设目标变量可以通过特征的线性组合来预测。模型选择:选择合适的线性回归模型,如普通最小二乘法(OLS)、岭回归、Lasso回归或梯度下降法等,根据数据集的大小和复杂度进行选择。原创 2024-07-04 16:12:22 · 544 阅读 · 0 评论 -
机器学习 - 梯度下降在多参数线性回归模型的应用以及解析
通过以上的迭代过程,我们逐步更新参数w1w2和b,使得模型的预测值更加接近目标值。实际中,这个过程通常会重复多次,直到参数收敛。原创 2024-07-01 12:08:24 · 1523 阅读 · 2 评论 -
机器学习 -Numpy的使用以及向量化Vectorization
吴恩达机器学习可选实验室原创 2024-06-30 21:46:16 · 1126 阅读 · 0 评论 -
Python代码实现代价函数
最小二乘法是一种在统计学、数学、工程学和计算机科学等领域广泛使用的优化方法。原创 2024-05-24 18:00:08 · 1109 阅读 · 0 评论 -
推荐算法详解
推荐算法是个性化信息服务的核心,包括基于内容的方法侧重于分析物品属性、协同过滤技术通过用户或物品的相似性进行推荐、混合系统结合多种推荐策略以提高准确性、知识驱动方法利用语义理解用户需求、基于模型的方法运用机器学习构建推荐模型、深度学习技术处理复杂数据关系、图算法挖掘用户和物品间的复杂交互、时间序列分析考虑用户行为的时效性、上下文感知推荐考虑用户实时环境、强化学习优化推荐策略以及多臂老虎机和序列推荐算法平衡探索与利用,共同构建了现代推荐系统的强大架构。原创 2024-05-11 21:49:34 · 4239 阅读 · 0 评论 -
机器学习-无监督学习
无监督学习是机器学习和人工智能的另一个重要分支,它主要处理没有标签的数据集,目的是发现数据中的隐藏模式、结构或异常。无监督学习不依赖于预先定义的输出,而是让算法自己揭示数据的本质特征。原创 2024-05-11 21:25:04 · 958 阅读 · 0 评论 -
机器学习-监督学习
监督学习是机器学习和人工智能中的一个重要分支,它涉及使用已标记的数据集来训练算法,以便对数据进行分类或准确预测结果。监督学习的核心在于通过输入数据(特征)和输出数据(标签或类别)之间的关系,来训练模型,使其能够对新的、未见过的数据做出预测或分类。监督学习的过程通常包括以下几个步骤:数据准备、特征选择、模型训练、模型评估和优化。在数据准备阶段,需要收集并标注足够的训练数据,这些数据将用于训练模型。特征选择则是从大量可能的特征中选择最有用的特征,以减少计算复杂度并提高模型性能。模型训练阶段涉原创 2024-05-11 21:19:59 · 951 阅读 · 1 评论 -
机器学习入门
机器学习是一种使计算机系统利用数据来自动改进性能的技术。它依赖于算法和统计模型,通过分析和识别数据中的模式,来预测或决定未来的事件。简而言之,机器学习使计算机能够在没有明确编程的情况下做出决策。原创 2024-04-16 20:00:22 · 362 阅读 · 0 评论