
机器学习
文章平均质量分 89
机器学习的记录
栖林_
一个励志于做全栈工程师的平平无奇大学生,希望在这里留下自己学习的记录
展开
-
非监督学习之k均值聚类
一般都使用多次运行调优,每次使用一组不同的随机初始簇中心,最后从中选取具有最小平方误差的簇集,这种算法简单,但是效果不好确定,主要取决于数据集和簇的个数,还有就是可以根据历史经验自行决定。当所有的点都被划分到某个簇中时,要再对各个簇中心进行更新,要根据每个聚类对象的均值,计算每个对象到簇中心的距离最小值,直到满足要求才停止计算,这个要求一般是函数收敛或者迭代一定次数。我们把聚类完成之后的一组数据对象的集合称为簇,同一个簇内的对象相似性高,而不同的则反之,并且非监督学习没有预先定义好的分类。原创 2024-07-15 17:37:30 · 687 阅读 · 0 评论 -
sklearn之神经网络学习算法
首先我们需要明确一点,父进程本质上只是一个管理关系,父子进程本质上仍然是两个独立运行的进程,也就是说kill掉父进程,子进程仍然会运行(这时候子进程就处于一个特殊的状态,我们后续也会介绍),同样的kill掉子进程,父进程也是不会受到影响的。当子进程想要使用父进程的数据时,就会拷贝一份到子进程的PCB中,这样子进程的变量如何变化也不会影响到父进程了,因此当fork函数返回时,也会触发写时拷贝,此时两个进程的id就不同了。因此所谓的进程条目,本质上也是存着的一个动态文件proc,这里面存放着所有的进程信息。原创 2024-07-14 19:36:52 · 1079 阅读 · 0 评论 -
sklearn之logistic回归
logistic regression被称之为logistic回归,对于logistic这个单词来说,他本身的翻译其实不太容易,比较有名的译法是对数几率回归,我也认为这种译法是比较合适的,虽然并非logistic的本意,但却是最贴切这个算法本身的译法。如果直接拟合比较困难,那我们可以将输出值变化一下,从一个非0即1的问题变成涨跌的概率问题,那么概率是连续值,我们就又回到了从连续值到连续值的映射,这似乎就还是回归的内容。用最直觉的想法,就是涨的概率大于不涨的概率就可以了,那么我们就可以设涨的概率是。原创 2024-05-28 13:54:26 · 827 阅读 · 0 评论 -
sklearn之k近邻算法——以鸢尾花分类为例
训练集是已经准备好的,也已经完全分好了类别,接下来拿出每一个需要分类的测试点,找到训练集中和他最近的k个点,也就是最相似的k个点,如果这k个点都属于同一个类别,我们就有把握认为这个测试点也是这个类别的了。如果我们仅仅采用一人一票,来贴标签,是不够恰当的,我们认为距离会赋予这些票的权重,也就是距离越近,越相似,权重也就越大,类似于最开始的评分,如果是一人一票就是0和1,而有权重就是从0到100。无论使用何种距离,只要能反映两个变量的相似程度即可,需要注意的是,不同的距离选取标准也会影响到分类的效果。原创 2024-05-14 14:50:41 · 1018 阅读 · 0 评论 -
sklearn之线性回归——以上证红利指数为例
这里的每一个点就是实际的数据,红色的线是我们拟合出来的,很容易可以看得到,有些点离线近,有些点离线远,我们使用残差(Residual)来描述这里的远和近,也就是误差,简单说就是从点向x轴做垂线与拟合线相交的点的距离就是残差,这实际上是统计学部分的内容,会有大量的自变量,或者说解释变量,还有就是对应的因变量,也就是输出结果,回归分析就是找出他们对应的关系,并且使用某个模型描述出来,这样一来给出新的变量,就能利用模型实现预测。我们这里先讨论线性回归,而且我们假设因变量和自变量之间是满足线性关系的,也就是。原创 2024-05-12 00:28:12 · 1112 阅读 · 0 评论 -
sklearn框架介绍
sklearn是一款07年至今的机器学习开源项目,基于NumPy和SciPy,提供了很多用于数据挖掘和分析的工具和接口sklearn主打一个只做机器学习,不轻易支持新的算法,他的好处就是非常稳定我们可以用几行代码就完成机器学习的七个步骤。原创 2024-05-10 00:24:33 · 1137 阅读 · 0 评论 -
机器学习入门之模型性能评估与度量
而过拟合则是属于过犹不及的那种感觉,就好像呆板僵化的思维,好像有些人做数学题,尽管题目非常接近,仅仅是更换了数字,但是他仍然认为这是两种完全不同的题目,这样带来的一种效果就是对于训练集(已经做过的题目)正确率很高,但是对于新样本的能力就会比较差,有时也称为高方差(high variance)查全率(Recall,R,召回率),表示分类准确的正类样本数占全部正类样本数的比例,说人话就是在所有应该被选上的样本中,选上了的比例是多少,也就是左边那一半TP占的比例。原创 2024-05-05 23:42:10 · 834 阅读 · 0 评论 -
机器学习入门之非监督学习和半监督学习
这样说其实还是很抽象,但是其实跟我们正常学习过程是差不多的,例如做某一类的数学题,从一开始无从下手,通过查阅答案,理解题目的动机和基本思路,这样就可以做出来同类型的新题目。半监督学习其实是使用最多的一种了,就像我们人生的学习过程一样,不是所有的东西都有人来教,总有需要自己去理解总结的时候。给定数据之后,聚类能从中学习到什么,就完全取决于数据本身的特性的,简单说就是自动给数据贴标签。与监督学习相反,非监督学习的训练数据集是完全没有标签的数据,他本质上所做的工作都是聚类的。那么这里的u就是未标记的数据个数。原创 2024-05-03 19:53:03 · 900 阅读 · 0 评论 -
机器学习入门之监督学习
我们人类学习的过程就像是在理解一个知识并且能够运用这种知识,而理解知识过程本身就是一种改善提高自我的过程。这里面最重要的其实就是从过往的,已有的数据中,提取知识,并且能够运用。原创 2024-05-02 20:05:57 · 1150 阅读 · 0 评论