
机器学习
文章平均质量分 91
嘉羽很烦
慢慢慢慢,凡事平常心
展开
-
新手村:逻辑回归-理解04:熵是什么?
逻辑回归中的熵理论是机器学习的重要基础之一。通过学习熵、交叉熵以及它们在逻辑回归中的应用,你可以更好地理解分类模型的工作原理。建议按照上述计划逐步深入学习,并通过代码实践巩固理论知识。原创 2025-03-25 01:30:38 · 888 阅读 · 0 评论 -
新手村:逻辑回归-理解03:逻辑回归中的最大似然函数
似然函数Lwb∏i1Nyiyi1−yi1−yiLwbi1∏Nyiyi1−yi1−yi对数似然函数logLwb∑i1Nyilogyi1−yilog1−yilogLwbi1∑Nyilogyi1−yilog1−yi。原创 2025-03-25 01:26:26 · 1229 阅读 · 0 评论 -
新手村:逻辑回归-01.什么是逻辑回归-初识速学
逻辑回归()是机器学习中一种基础且重要的分类算法,常用于二分类问题(如垃圾邮件检测、疾病诊断等),而非预测连续数值。它是机器学习和统计学中应用最广泛的模型之一,尽管名字中包含“回归”,但它本质上是一个分类模型线性组合特征:将输入与权重结合;概率转换:用Sigmoid函数输出概率;参数优化:通过极大似然估计找到最佳参数;决策边界划分:根据概率阈值(如0.5)分类。扩展思考如何处理非线性可分数据?(引入多项式特征或核方法)如何防止过拟合?(正则化、交叉验证)逻辑回归能否用于多分类问题?原创 2025-03-23 00:16:03 · 3566 阅读 · 1 评论 -
新手村:逻辑回归-理解02:逻辑回归中的伯努利分布
伯努利分布在逻辑回归中的潜在含义及其与后续推导的因果关系原创 2025-03-22 23:36:25 · 820 阅读 · 0 评论 -
新手村:逻辑回归-理解01:目标变量、伯努利分布的概率、特征X之间的关系
逻辑回归 理解:解释逻辑回归中目标变量 𝑌Y、伯努利分布的概率 𝑝p 即 𝑃(𝑦=1∣𝑥)P(y=1∣x)和输入特征 𝑥x 之间的关系。假设我们想预测某人是否会购买某款新手机。原创 2025-03-22 22:22:44 · 965 阅读 · 0 评论 -
新手村:协方差、方差、标准差的作用
主题描述数据的重要性解释为什么我们需要分 析数据统计学简介简述统计学的基本概念及其在数据分析中的作用。原创 2025-03-17 23:13:11 · 891 阅读 · 0 评论 -
新手村;相关度分析方法
目标:理解相关分析的定义、应用场景及基本工具。知识点:教学示例:销售与广告投入的关系目标:掌握不同相关系数的计算方法及适用场景。知识点:扩展示例:计算皮尔逊相关系数目标:通过代码验证理论,理解相关分析在实际中的应用。代码示例(Python+NumPy+SciPy):阶段4:进阶与扩展目标:探索相关分析的局限性及高级应用。知识点:如何选择皮尔逊还是斯皮尔曼相关系数?卡方检验适用于什么场景?相关系数接近0是否意味着无关?原创 2025-03-17 17:36:18 · 623 阅读 · 0 评论 -
新手村:逻辑回归
通过代码验证理论,理解逻辑回归在实际中的应用。:理解逻辑回归的定义、输入输出关系及核心思想。:掌握逻辑回归的数学推导及优化过程。:探索逻辑回归的局限性及高级应用。原创 2025-03-17 11:29:58 · 557 阅读 · 0 评论 -
新手村: 模型评估方法-线性回归评估方法
线性回归模型的评估通常涉及多种指标,以全面了解模型的性能。常用的评估方法包括均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)和决定系数 ( R^2 )。以下是这些评估方法的详细说明以及如何在代码中实现它们。原创 2025-03-17 00:49:15 · 810 阅读 · 0 评论 -
新手村:数据预处理-异常值检测方法
异常检测是机器学习中关键的预处理步骤,其核心是区分“正常”与“异常”数据。学习路径应从统计方法(如Z-score、IQR)开始,逐步过渡到复杂模型(如LOF、Isolation Forest)。实际应用中需结合业务场景选择算法,并通过可视化和评估指标(如F1分数、ROC-AUC)验证效果。进阶学习可探索深度学习和实时检测技术,以应对复杂数据挑战。原创 2025-03-16 23:35:50 · 985 阅读 · 0 评论 -
新手村:数据预处理-特征缩放
方法描述适用场景优点缺点标准化将特征转换为均值为0,标准差为1的标准正态分布。线性回归、逻辑回归、SVM、KNN、神经网络等。不受数据范围影响,适用于大多数算法。对异常值较为敏感,可能导致极端值的影响被放大。归一化(Min-Max缩放)将特征缩放到一个特定范围(通常是[0, 1])。需要将数据限制在特定范围内的情况。数据范围固定,适用于需要严格控制输出范围的场景。受数据范围影响较大,对异常值敏感,可能导致信息丢失。原创 2025-03-16 23:25:07 · 844 阅读 · 0 评论 -
新手村:数据预处理-缺失值补充策略
通过上述表格和示例代码,您可以更好地理解不同的缺失值补充策略及其应用场景。删除含有缺失值的行或列:适用于缺失值较少的情况,简单但可能导致数据丢失。用固定值填充:适用于大多数情况,但需谨慎选择填充值以避免引入偏差。用插值法填充:适用于有序数据,能较好地保留趋势。用模型预测填充:适用于复杂数据集,但实现复杂且计算成本较高。原创 2025-03-16 22:18:25 · 311 阅读 · 0 评论 -
新手村:混淆矩阵
通过本教程,学生将掌握混淆矩阵的构建、核心指标的计算与分析,并能够通过代码实现模型评估。后续可深入学习ROC-AUC曲线、多分类场景及实际应用中的优化策略,逐步构建更鲁棒的分类模型。A:假设数据中95%为负类,模型全预测负类,准确率可达95%,但完全忽略了正类样本,此时需用召回率或F1分数评估。A:精准率 = TP/(TP+FP),召回率 = TP/(TP+FN)。A:β>1时,召回率权重更高(如医疗诊断);则精准率是预测为正类(第二列)中的正确比例,召回率是实际为正类(第二行)中的正确比例。原创 2025-03-16 16:16:32 · 856 阅读 · 0 评论 -
新手村:线性回归-实战-波士顿房价预测
本文介绍了如何在机器学习模型中引入非线性项以提高预测准确性,并通过实际案例演示了具体步骤。我们还提供了后续练习题目以及进一步学习的方向,帮助读者深化理解和实践技能。原创 2025-03-16 08:27:57 · 604 阅读 · 0 评论 -
新手村:异常值检测-Z-score与IQR方法
(聚焦Z-score与IQR方法)掌握均值、中位数、标准差、四分位数等统计量计算。计算均值(μ)和标准差(σ):计算每个数据点的Z-score:设定阈值并筛选异常值:示例它绘制数据的直方图和理论上对应的正态分布曲线,并在图中标记出异常值排序数据并计算Q1、Q3:计算IQR:设定上下界并筛选异常值:示例数据集:住院天数 计算:Q1 = 4.5,Q3 = 7,IQR = 2.5下界 = 4.5 - 3.75 = 0.75,上界 = 7 + 3.75 = 10.原创 2025-03-16 00:19:59 · 1261 阅读 · 0 评论 -
新手村:统计量均值、中位数、标准差、四分位数
Q1(第一四分位数):位于数据集第25%位置的值。Q2(第二四分位数):位于数据集第50%位置的值,即中位数。Q3(第三四分位数):位于数据集第75%位置的值。统计量位置公式插值计算公式示例(数据集 [1, 2, 3, 4, 5, 6, 7, 8])Q1n1×0.25n1×0.25LQ1FQ1×UQ1−LQ1LQ1FQ1×UQ1−LQ120.25×3−22.2520.25×3−2。原创 2025-03-15 23:04:18 · 899 阅读 · 0 评论 -
新手村:线性回归
线性回归是通过一条直线(一元)或超平面(多元)拟合数据,预测因变量与自变量之间的线性关系。公式yβ0β1xϵyβ0β1xϵ其中,yyy是因变量,xxx是自变量,β0\beta_0β0是截距,β1\beta_1β1是斜率,ϵ\epsilonϵ是误差项。通俗解释假设你想根据房屋面积(自变量)预测房价(因变量),线性回归就是找到一条最能代表数据趋势的直线,这条直线的方程就是你的预测模型。原创 2025-03-15 20:39:36 · 1358 阅读 · 0 评论 -
最小二乘法和梯度下降法的区别
最小二乘法和梯度下降区别原创 2025-03-15 17:28:55 · 1007 阅读 · 0 评论 -
均方误差(MSE)与最小二乘法(LS)的区别
MSE用于计算预测值 $\hat{y} $与真实值 $ y $的平均平方误差,作为模型好坏的指标。通过理解这两者的区别,可以更清晰地应用它们:用MSE评估模型,用最小二乘法(或其他优化方法)训练模型。通过求解以下方程组,直接得到使MSE最小的参数。:MSE和最小二乘法是同一件事?根据知识库中的信息(知乎回答),:最小二乘法仅适用于线性模型?:MSE越小模型一定越好?原创 2025-03-15 17:16:44 · 683 阅读 · 0 评论 -
TensorFlow 是什么?
TensorFlow 是一个由 Google 开发的开源机器学习框架,它提供了丰富的工具和库用于构建和训练各种机器学习模型。总的来说,TensorFlow 是一个功能强大的机器学习框架,适用于各种不同领域的机器学习和深度学习任务,能够帮助开发者快速构建和训练复杂的模型。原创 2025-03-15 12:34:01 · 498 阅读 · 0 评论 -
机器学习_重要知识点整理
以上术语覆盖了机器学习的核心概念,从数学基础到算法实现、评估优化,再到业务应用。(如数据特征、业务目标),才能全面掌握机器学习的理论与实践。(如概率论、优化理论)、原创 2025-03-14 11:45:57 · 600 阅读 · 0 评论 -
机器学习计划_重点知识点
重点应该包括监督学习中的核心算法,比如线性回归、逻辑回归、SVM、决策树、随机森林、梯度提升树,以及无监督学习中的K-means、PCA,还有模型评估方法如交叉验证、过拟合处理。非重点可能是一些较新的方法,或者应用较少的算法,比如EM算法、Apriori,或者某些特定领域的应用,比如强化学习中的复杂算法。首先,我需要回顾之前提供的知识库内容,看看有哪些信息可以利用。用户之前提供的资料包括机器学习的基础知识、算法分类、数学基础、以及一些具体算法的讲解,比如线性回归、逻辑回归、SVM、聚类、强化学习等。原创 2025-03-13 18:06:25 · 966 阅读 · 0 评论 -
机器学习_特征工程
通过以上步骤和案例,你可以系统掌握特征工程的实施方法,并在实际项目中灵活应用!原创 2025-03-13 17:09:32 · 705 阅读 · 0 评论 -
机器学习_交叉验证
【代码】机器学习_交叉验证。原创 2025-03-13 09:51:27 · 1007 阅读 · 0 评论 -
基于序列标注的机器学习方法
检查模型是否正确标注“李彦宏(B-PER)”、“北京(B-LOC)”、“文心一言(B-PRODUCT)”。:假设模型将“苹果公司”中的“苹果”错误标注为“B-FRUIT”(水果)。“2023年,李彦宏在北京发布了百度的AI产品文心一言。DeepSeek R1 AI 生成。“马云在杭州创立了阿里巴巴。:使用Python的。原创 2025-02-21 01:27:57 · 1084 阅读 · 0 评论