01机器学习系列
文章平均质量分 87
机器学习知识集
之之为知知
不讲虚的!只给能落地的干货。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据“整容”记:标准化和归一化,到底动了哪几刀?
比如,全班平均分80,突然有个考了150分(可能是作弊),标准差一下子变大,其他人的分数一除,全被“压”扁了,差异看不出来了。如果新来一个数据,比原来的“最大值”还大,那它归一化后可能超过1,破坏了[0,1]的范围,模型可能“懵”。如果直接扔进模型,模型会认为“距离”这个特征特别重要——因为它数字大,稍微动一动,对结果影响就很大。这三个特征,数值范围天差地别:面积是“百”级,卧室是“个”位数,距离是“千”级。所以,我们需要给数据做“整容”,让它们变得“协调”。听起来很美,但“整容”不是万能的,也得看体质。原创 2025-09-08 13:07:35 · 748 阅读 · 0 评论 -
模型和数据,谁才是AI时代的“亲儿子”?
就像我朋友的推荐系统,模型学的是“用户点了这个,所以喜欢这个”,可实际上,用户可能只是手滑。比如现在各大手机厂商的语音助手,基础数据(语音、文本)大同小异,谁能用更小的模型、更快的反应、更自然的回答赢下用户,靠的就是算法优化。我们给它看一万张带标签的猫狗照片,它通过反复练习,总结出“耳朵尖的是猫,耳朵耷拉的是狗”这类规则。反观一些企业,一上来就砸钱搞“AI中台”“算法平台”,可自家的数据要么散落在各个部门,要么格式乱七八糟,连基本的用户画像都拼不全。但它是模型的“粮食”,是决策的“地基”。原创 2025-09-08 12:47:10 · 544 阅读 · 0 评论 -
接到数据分析任务后,怎么判断是分类还是回归?什么时候你该考虑换模型?
你有没有遇到过这样的情况?这篇文章带你一步步搞清楚:我们将使用**公开数据集(Iris 和 Diabetes)**进行实战演示,并结合真实业务场景,让你不仅能“看懂”,还能“动手做”。在任何建模之前,最重要的一件事是:你想预测的到底是什么?我们来看两个常见公开数据集的例子:所以你可以问自己一句话:如果是类别标签 → 分类任务如果是连续数值 → 回归任务虽然都叫“机器学习模型”,但它们处理的任务完全不同。目标变量是离散的类别,如:常见算法:目标变量是连续值,如:常见算法:2. 初始模型选择:逻辑回归(原创 2025-06-13 00:16:23 · 1498 阅读 · 0 评论 -
机器学习怎么知道哪些数据“有用”?从统计到代码讲清楚
先来看个例子。比如你要预测一个人能不能考上大学。年龄性别家庭收入每天学习时间喜欢的颜色很明显,“喜欢的颜色”这个信息和考试成绩关系不大,应该被排除掉。而像“每天学习时间”、“家庭收入”这些可能更有参考价值。条件含义可预测性强和目标变量之间有明显的关系(如相关性、显著性)稳定性强在不同数据集上表现一致,不随训练集变化剧烈信息量大能提供独立于其他特征的新信息(低共线性)易于解释有助于理解模型输出,便于业务落地方法是否需要训练模型是否推荐特点卡方检验❌。原创 2025-06-12 23:57:46 · 968 阅读 · 0 评论 -
Python随机森林算法:不是最牛的模型,但最适合“上手干”
简单来说,随机森林就是一个“由很多棵小树组成的树林”。每棵树都根据一部分数据做出自己的判断,最后大家投票决定最终结果。比如你想判断一个人会不会买某样产品,你可以让100棵树各自看看不同的数据片段,然后每棵树都说说自己的判断。最后多数人怎么说,就作为最终结论。听起来是不是有点像“开会讨论”?没错,这就是它的核心思想——多个弱模型联合起来,形成一个强模型。原创 2025-05-30 18:08:00 · 952 阅读 · 0 评论 -
大模型参数:不是越大越好,而是要“合适”
你可以把一个机器学习模型想象成一个经验丰富的裁判员。它在训练过程中不断调整自己的“判罚标准”,最终形成一套能做出准确判断的规则——这套规则就是模型参数。举个例子: 如果你训练一个模型来判断一封邮件是不是垃圾邮件,它会学到一些规则,比如:“出现‘中奖’这个词,可能是垃圾邮件”“发件人不在联系人列表里,可能性更高”这些“规则”的具体数值(比如某个词的权重有多大)就是模型的参数。使用目标推荐参数规模原因快速上线、节省成本小模型(几万~百万级)轻便、部署快、维护简单高性能、高精度。原创 2025-05-27 17:12:15 · 1200 阅读 · 0 评论 -
深度学习能取代机器学习吗?
使用目的推荐技术原因处理结构化数据机器学习简单、高效、可解释数据量小机器学习不容易过拟合实时性要求高机器学习模型轻、推理快图像、语音、文本任务深度学习自动提取高维特征数据丰富、任务复杂深度学习更强的表达能力和泛化能力需要可解释性机器学习易于分析和解释深度学习很强大,但它不是唯一的解法。选择哪种技术,取决于你的数据、任务目标和资源条件。就像锤子和螺丝刀,各有各的用处。别想着“我有个锤子,天下都是钉子”,而是要想着:“我遇到的是不是钉子?是不是该用锤子?📌推荐阅读资源。原创 2025-05-27 14:38:45 · 1433 阅读 · 0 评论 -
从零开始理解机器学习:知识体系 + 核心术语详解
你可以把机器学习想象成一个擅长总结经验的助手。你给它一堆例子(比如很多张猫的照片),它就能慢慢学会“什么样的图像是猫”。然后即使你给它一张新照片,它也能判断是不是猫。一句话总结:机器学习是一种根据已有数据自动找出规律,并用于新数据预测的方法。机器学习虽然听起来很技术,但它本质上是在解决这样一个问题:给我一堆数据,我能不能从中找出规律,并用这个规律去预测未来的事情?每一个术语的背后,其实都是围绕这个目标设计的方法或工具。掌握这些术语,不仅有助于你读懂论文和技术文档,还能帮助你更好地使用和调试机器学习模型。原创 2025-05-27 14:31:58 · 1321 阅读 · 0 评论 -
机器学习知识体系:从“找规律”到“做决策”的全过程解析
你可以把机器学习想象成一个擅长总结经验的助手。你给它一堆例子(比如很多张猫的照片),它就能慢慢学会“什么样的图像是猫”。然后即使你给它一张新照片,它也能判断是不是猫。一句话总结:机器学习是一种根据已有数据自动找出规律,并用于新数据预测的方法。机器学习并不是什么高科技魔法,也不是让机器拥有了“智能”。通过大量数据自动找出隐藏的规律,并用来解决问题。只要你掌握了这个核心理念,再配合一定的数学、编程和工程能力,就可以开始用机器学习解决现实问题了。📌推荐阅读资源书籍:《机器学习》周志华(西瓜书)原创 2025-05-27 14:22:12 · 1188 阅读 · 0 评论
分享