
机器学习
赵清河
这个作者很懒,什么都没留下…
展开
-
K-means聚类
聚类假设有m个数据,把数据分为n个类别。1,随机抽取三个样本,把三个样本当作三个类别的中心点(k1,k2,k3)。2,计算其余数据到三个样本中心点的距离,选出最近的一个距离,作为标记,形成三个族群。3,分别计算三个族群的平均值(所有数据距离相加的平均值),与其三个样本中心点比较,如果相同结束聚类;如果不相同,把三个平均值作为新的中心点,重复第二步。K-means APIsklearn.cluster.KMeans性能评估指标APIsklearn.metrics.silhouette_s原创 2020-08-14 09:43:42 · 258 阅读 · 0 评论 -
分类算法-逻辑回归
分类算法-逻辑回归原创 2020-08-13 17:14:59 · 176 阅读 · 0 评论 -
线性回归中的过拟合以及欠拟合
过拟合以及欠拟合假如把天鹅的特征设置为 (嘴巴长,脖子长且弯曲,有翅膀),那么在预测时 就将黑天鹅区别为不是天鹅 此现象为过拟合假如把天鹅特征设置为(嘴巴长,有翅膀),那么预测时会将一些鸟类动物区分为天鹅,此现象为欠拟合根据结果现象判断过拟合还是欠拟合当对结果进行交叉验证时 训练集和测试集结果表现都不行 则为欠拟合 当训练集结果大于预测集,,推测可能是特征过于复杂,则为过拟合欠拟合原因以及解决办法原因:学习到数据的特征过少解决办法: 增加数据的特征量过拟合原因以及解决办法原因: 原原创 2020-08-13 08:50:37 · 1376 阅读 · 0 评论 -
朴素贝叶斯算法以及应用
朴素贝叶斯算法朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立朴素贝叶斯算法公式朴素贝叶斯之拉普拉斯平滑在很多次计算中,可能会出现概率为0因此这是不合理的 所以引入拉普拉斯平滑 P(C|F1F2F3) = P(F1F2F3|C)P(C)/P(F1F2F3) 相当于比较 P(F1F2F3|C)P(C)即可,还需添加拉普拉斯平滑系数 =((F1+a)/(C+am)) ((F2+a)/(C+am)) ((F3+a)/(C+a原创 2020-08-10 07:55:59 · 2298 阅读 · 0 评论 -
K近邻算法以及应用
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:在特征空间中,如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。缺点: 懒惰算法,当测试样本计算时的分类较大,内存开销大,必须选择k值,当k值选择不当则分类精度不能保证,容易受k值的影响 ,k值取很小 ,容易受异常点的影响,k值取很大,容易受k值数量波动。优点: 简单 易于理解 易于实现 无需估计参数 无需训练原创 2020-08-09 11:52:38 · 1828 阅读 · 0 评论 -
机器学习之文本特征抽取
文本特征抽取需要使用到jieba库from sklearn.feature_extraction.text import CountVectorizerimport jiebali = ['想变成天上忽明忽暗的云朵', '想吃掉世上最美味的一切', '一想到你呀,我这张脸,就泛起微笑', '爱你,就像爱生命', '当我跨过沉沦的一切,你是我的旗帜']# 利用jieba库对文本进行分隔jieba_data = []for i in li:原创 2020-08-04 16:21:42 · 284 阅读 · 0 评论 -
机器学习之字典特征抽取
字典特征抽取from sklearn.feature_extraction import DictVectorizerdef dictvec(): # 实例化 dict=DictVectorizer(sparse=False) # 调用fit_transform data=dict.fit_transform([{'city':'上海','temperature':60},{'city':'北京','temperature':100},{'city':'深圳','tem原创 2020-08-04 15:42:36 · 425 阅读 · 0 评论