
机器学习基础
文章平均质量分 87
# JFZero
鬼知道我能写多久
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习——CBOW负采样(手动实操)
CBOW的Hierarchical softmax代码,虽然没有成功,但至今我仍然认为代码逻辑是没有问题。一定是有某些地方,是我理解有误,先暂时搁置Hierarchical Softmax的方式。今天开个坑吧,虽然这个坑,可能年后才能填完,这两天先试试。负采样这个词,好像在哪看到过,忘了。原创 2024-01-29 22:16:07 · 668 阅读 · 0 评论 -
机器学习——CBOW基于矩阵(手动实操)
我已经很满意了,至少这个东西是可以去预测的,至于预测为什么不正确,我目前猜测主要还是跟词频有关。在结果中,and和the、a的预测准确率较高,经过打印词频,确实词频高。但其中,预测准确的,也有一些低词频的词汇,所以这个方式目前是可用的。至于预测效果是否好,主要还是看调参了,比如迭代次数、比如学习率等等。基于矩阵的CBOW基础算法,其实是负采样的前提算法。我只要模型流程是正确的,能跑的通。预测准确率为22%左右。但这不是我重点考虑的。原创 2024-02-25 15:03:14 · 697 阅读 · 0 评论 -
机器学习——词向量模型(CBOW代码实现-逻辑顺利,预测准确率为0,暂告一段落)
如果是按句取上下文,那么一个句子开头和末尾单词的下文就是None,语料文件有很多个句子,就会有很多个None。:毕竟CBOW是获取关键词的前c个和后c个单词来训练的,但开头单词没有前c个单词,末尾单词没有后c个单词。如果按所有句取上下文,那整个语料文件就只有开头有None,末尾有None,None数量很少。只希望,CBOW案例,不要太难,不然我根本寸步难行,只能天天打游戏聊以自慰。:不行,因为中文分词很麻烦,我懒得去搞分词,重点是CBOW。我看书的时候,感觉有点儿困难,哭的很大声…原创 2023-11-24 12:09:24 · 1619 阅读 · 0 评论 -
机器学习——CBOW负采样(纯理解)
刚从前一个坑里,勉强爬出来,又掘开另一坑看了很多文章+B站up主。。。糊里糊涂但是我发觉,对于不理解的东西,要多看不同up主写的知识分享书读百遍,其意自现,我是不相信的,容易钻牛角尖但是,可以多看看一千个哈姆雷特的想法,想法积累多了,一定有那么一刻,让人灵光乍现!!!拍脑顿悟:原来如此!给我顿悟的是优快云的一篇文章优快云啊,听大神一席话,如长夜得明灯啊!倒不是其他的文章和up主,没有解释过负采样,但这篇能让我顿悟的点在于:前后对比。原创 2023-11-03 14:25:08 · 561 阅读 · 0 评论 -
机器学习——词向量模型(纯理解)
下边这篇,让我大致理解了训练过程数据的变化,嗷。。。太牛了举例说明CBOW训练时的数据变化直到我看到这篇NLP笔记之word2vec算法(2)–Hierarchical Softmax原理+数学推导 - 张小彬的文章 - 知乎我天呐。。。瞬间有种顿悟的通透感!虽然还是有一些不明确的地方,但是朦胧之中,抓住了一丝丝的脉络看别人总结的关系,很清晰了。为了更方便自己理解,且减少工作量,只梳理【基于HierarchicalSoftmax模型下的CBOW模型】先理解【基于HierarchicalSoftmax原创 2023-10-22 18:07:05 · 1540 阅读 · 0 评论 -
机器学习——奇异值分解二(特征分解+SVD纯理解,头疼系列)
矩阵的特征分解特征值和特征向量的定义抄来的:奇异值分解困惑1:特征值和特征向量,和原矩阵是怎样的关系,需要一个栗子进行更具象的认识困惑2:为什么多个特征向量组合成的矩阵,可以构成矩阵A的特征分解?需要推导困惑3:为什么要特征向量标准化?困惑4:标准正交基是什么,为什么满足WTW=IW^TW=IWTW=I为什么。。。。太多why,只能自己来解决吗。。。涕泪横流。。。先来看看特征值和特征向量特征值与特征向量的推导求解特征向量与特征值Ax=λxAx=λxAx=λx,λ是特征值,但特征原创 2023-10-15 18:10:03 · 615 阅读 · 2 评论 -
机器学习——主成分分析(PCA,纯理解)
略略翻了下书,差点儿窒息在床上…原创 2023-10-15 18:12:14 · 185 阅读 · 0 评论 -
机器学习——奇异值分解一(矩阵向量,纯理解)
先把坑挖了,再慢慢填,避免自己划水跳过。开坑,刚看完书,已经有些窒息了。我爱线代,线代爱我,阿弥陀佛。原创 2023-09-18 11:49:49 · 256 阅读 · 0 评论 -
机器学习——聚类之K-means(手动代码)
这是我看下来,最简单的内容,哭了,K-means,so niceK-means,由于太过简单,不需要数学推导时,一时间甚至无从下指首先,K-means需要提前锚定几个点,然后让所有数据样本根据与这几个点的距离,将分别选择最短距离凑成一簇有那么点近水楼台先得月,兔子硬吃窝边草的意思然后所有样本分别站队分组后,每个组再重新选出新的锚定点:计算出所有特征各自的均值,作为新锚定点重复分组与计算新锚点,直到最终所有组的锚点不再改变,或是超过最大迭代次数。但非常关键的是,如何确定初始锚点?原创 2023-09-16 21:35:27 · 443 阅读 · 0 评论 -
机器学习——boosting之XGBoost(推导+手动代码)
看了几篇,总感觉这个XGBoost不仅仅是对GBDT的改进版,还包含了对CART决策树的改进。书上说,XGBoost有很好的性能,在各大比赛中大放异彩,行吧,冲这句,好好看看!划水一整天,模型看了仨!不错,虽然现在在打哈欠,还是很想把XGBoost梳理梳理。这仨都是前k-1轮的,相当于常数。原创 2023-09-07 19:27:55 · 660 阅读 · 1 评论 -
机器学习——boosting之GBDT
问题来了,我们现在要求Loss最小,原本是可以直接使Loss对x求导,进而求出θ,得到强分类器的。发现,我的GBDT回归,实际就是上一篇提升树的二叉回归树…还是要再深挖深挖,小小的boosting,挖呀挖呀挖呀挖。要使下一次迭代时,Loss降低,则需要ΔLoss原创 2023-09-07 17:40:18 · 377 阅读 · 0 评论 -
机器学习——boosting之提升树
提升树和adaboost基本流程是相似的我看到提升树的时候,懵了这…跟adaboost有啥区别???直到看到有个up主说了,我才稍微懂相当于,我在adaboost里的弱分类器,换成CART决策树就好了呗?书上也没有明说,唉。。。还好,有。原创 2023-09-07 00:15:47 · 574 阅读 · 0 评论 -
机器学习——Adaboost(推导+手动代码)
但不同的是,随机森林是每个学习器都统计分类结果,采用票高者得的方式,获取最终分类结果。Adaboost,与随机森林相似,也是由多个学习器共同决定最终分类的。Adaboost,则是采用权重衡量学习器的分类结果。原创 2023-08-21 12:48:35 · 563 阅读 · 0 评论 -
机器学习——随机森林【手动代码】
随机森林这个内容,是目前来说。最最最简单,最好理解,应该也是最好实现的了!原创 2023-08-15 10:09:51 · 545 阅读 · 0 评论 -
机器学习——SVM核函数
(性别)(年龄)(样貌),那么根据这三个维度的数据,可以拓展成更高维度(更多个不具名的影响因素),例如xc、xd、xe、xf、xg,再代入SVM的对偶问题里进行计算。这里的推导,实际就是在印证高斯核函数中,是如何拓展成高维向量,并且高维向量的点积,是如何用当前低维数据进行计算的。但由于高维度的点积计算量太大,找到一个原低维的计算式等于高维的点积结果,那个计算式就是核函数!但如果,现在将3个影响因素通过某种关系,上升到无穷个影响因素,,当x,y两条数据差距非常小,很接近时,核函数值接近1,原创 2023-08-06 22:07:44 · 799 阅读 · 1 评论 -
理解区分全微分、导数、偏导数等
多元函数下的全微分、导数、偏导数、偏微分等理解原创 2023-07-08 19:38:58 · 3665 阅读 · 0 评论 -
机器学习——支持向量机(数学基础推导篇)
支持向量积的原理,网上已经有很多人解释了。支持向量机(SVM)——原理篇机器学习笔记(五):支持向量机(SVM)支持向量机算法(SVM)详细讲解(含手推公式)但即使看了原理篇,依然有绊倒自己的地方,或许是自己数学基础跟不上各大阿婆主,只好自己列出困惑的数学问题。当数据集线性可分时,假设有一个线性函数能将数据集分类,这就是感知机模型该做的事:找到能让数据集线性划分的一个线性函数 y=∑wixi+by = ∑w_ix_i + by=∑wixi+b但实际上,不一定只有一个线性函数,能线性划分数据集,那原创 2023-07-04 00:22:33 · 958 阅读 · 0 评论 -
机器学习——决策树(手动代码)
首先,构造决策树的过程如下:① 按特征划分群体,并计算衡量指标(信息增益、信息增益率、基尼系数)② 选取衡量指标表现最好的特征,对群体进行划分,并构建第一层树③ 重复①②步骤,当特征全被分完,或是类别唯一确定后,停止划分(还可以是其他条件)原创 2023-06-30 15:18:36 · 370 阅读 · 1 评论 -
机器学习——决策树(三种算法)
信息量、信息熵、条件熵、信息增益、基尼系数...通俗理解原创 2023-06-27 20:02:31 · 2942 阅读 · 1 评论 -
机器学习——感知机模型(手动代码)
感知机,应该是很简单的模型了。原创 2023-06-19 20:01:18 · 1542 阅读 · 1 评论 -
机器学习——KNN算法(手动代码,含泪)
徒手实现代码的过程,真是含泪和心酸,浪费了生命中的三天,以及工作中的划水一小时终于滤清思路后,自己实现了KNN都说KNN是最基础,最简单的分类器放屁!骗纸!!!它的想法是简单的,但实现的过程何其复杂!!!问题何其之多!!是我实现感知机、逻辑回归分类、线性回归、朴素贝叶斯中,最难实现的分类算法!!!!给多少时间都无法将这个槽吐尽,甚至算法都没完全弄好,但只剩收尾工作了。原创 2023-06-19 20:00:02 · 673 阅读 · 3 评论 -
机器学习——朴素贝叶斯(手动代码实现)
从小菜鸡的试错思考中逐步清晰!python纯手动实现朴素贝叶斯的算法,对比 sklearn实现的算法,两者结果有差异,但差异不算太大。原创 2023-06-19 19:23:00 · 2615 阅读 · 0 评论 -
机器学习基础认识(一)
预测,一般是指:根据数据,预测数值分类,一般是指:根据数据,进行分类。原创 2023-05-18 19:01:39 · 622 阅读 · 0 评论 -
多元线性回归实例
多元线性回归简单实例原创 2023-05-24 14:25:19 · 974 阅读 · 1 评论 -
分类逻辑回归实例一
多分类逻辑回归sklearn简洁实现原创 2023-05-24 15:52:37 · 517 阅读 · 0 评论 -
最小二乘法-损失函数及优化算法
真尼玛神奇啊!!!!梯度下降法居然比求导法的结果要好很多,这是为什么???????手动梯度下降法,真的是。。。太慢了原创 2023-05-25 13:02:07 · 1834 阅读 · 0 评论 -
极大似然估计法及其损失函数的优化方法
二分类、多分类极大似然估计法的推导与计算,手动实现softmax分类过程,重难点解决:1、sofgmax的交叉熵损失函数求导(梯度计算)2、独热编码的实现和逆解原创 2023-05-25 20:03:15 · 1138 阅读 · 0 评论