
机器学习
代码与思路齐飞
这个作者很懒,什么都没留下…
展开
-
Sklearn的Tf-Idf的向量计算
对于TF-IDF的计算,我们都知道是TF与IDF的乘积,但sklearn中计算的结果和我们手动计算的不太一样,究竟是什么原因呢?TF计算为词在文档中出现的频数。IDF为总文档除以词出现在文档中的文档数,再求对数,再加1。即其中,n为总文档数,df(t, d)为出现词t的文档数d。为了防止df(t, f)为0,一般我们会将n和df(t, d)加1,进行平滑。即使用 TF * IDF即得到结果。但是,sklearn中的计算结果却与我们计算得到的不同。from sklearn.f原创 2020-09-10 09:39:54 · 724 阅读 · 0 评论 -
机器学习算法之感知机
1、基本定义1.基本介绍感知机是由两层神经元组成的,输入层接收外界输入信号号传递给输出层,输出层是M-P神经元,也称为"阈值逻辑单元"。其中x1、x2为输入神经元,y是输出神经元。w1,w2分别为x1,x2的权重,权重代表着该神经元的重要性。b为偏置,表示输出神经元激活的容易程度。感知机是二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于特征空间中将实例划分为正负两类的分离超平面,属于判别模型。2.定义假设输入空间(特征空间)是,输出空原创 2020-07-17 15:17:29 · 891 阅读 · 0 评论 -
机器学习之模型评估与选择(一)
1、模型评估现实中,可供选择的算法有很多,参数不同,每个算法也有不同的形式,我们应该如何选择最优的那个?如果按照泛化误差最小来选择是最好,但我们又不能得到未知的数据,不能直接计算泛化误差。如果仅仅使用训练集来选择,我们不能知道该模型是否对于泛化误差也最小。1.验证方法与采样为了能够在训练集中获得泛化误差的近似,我们需要将训练集划分为训练集和测试集,用测试集误差近似泛化误差,但要保证测试集是从样本真实分布中独立同分布采样而得,且尽可能与训练集互斥,即测试样本不曾在训练样本中出现过。如何对数据集原创 2020-07-16 16:13:37 · 1086 阅读 · 0 评论 -
机器学习的分类
1、一般分类机器学习的一般分类为:监督学习、无监督学习、强化学习、半监督学习、主动学习。1.监督学习监督学习是从<x, y>这样的示例对中学习统计规律,然后对于新的X,给出对应的y。输入空间、特征空间、输出空间、假设空间输入、输出所有可能的取值的集合分别称为输入空间、输出空间。一个具体的输入是一个实例,通常由特征向量表示,特征向量组成的空间为特征空间。特征空间与输入空间可以为同一空间,也可以为不同空间。输入输出的随机变量一般用大写X、Y表示,具体实例使用小写表示。输原创 2020-07-14 20:02:51 · 5455 阅读 · 0 评论 -
机器学习之基本定义
什么是机器学习?原创 2020-07-14 11:26:05 · 504 阅读 · 0 评论