
机器学习
文章平均质量分 62
醉糊涂仙
这个作者很懒,什么都没留下…
展开
-
【传统机器学习】之KNN回归算法(二)
knn算法除了可以做KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时,一般是选择多数表决法,即训练集里和预测的样本特征最近的K个样本,预测为里面有最多类别数的类别。而KNN做回归时,一般是选择平均法,即最近的K个样本的样本输出的平均值作为回归预测值...原创 2020-03-30 19:17:40 · 1213 阅读 · 0 评论 -
从误差概率分布和损失函数两方面推导线性回归
一,线性和非线性什么关系?线性就是一次函数。不管是几元函数!!!参考博文:https://blog.youkuaiyun.com/u010916338/article/details/84967688二,线性回归2.1解释线性回归 如图所示,对于二维数据,线性回归就是能搞够找到一条直线拟合数据。对于三维就是能够找到一个平面拟合数据。对于更高纬就没有办法描述了,但是无...原创 2019-06-23 23:03:17 · 870 阅读 · 1 评论 -
最大似然估计和最小代价函数两种方式推导逻辑回归
一,线性和非线性什么关系?线性就是一次函数。不管是几元函数!!!参考博文:https://blog.youkuaiyun.com/u010916338/article/details/84967688二,线性回归2.1 解释线性回归 如图所示,对于二维数据,线性回归就是能搞够找到一条直线拟合数据。对于三维就是能够找到一个平面拟合数据。对于更高纬就没有办法描述了,但是无论多...原创 2019-06-18 20:29:31 · 2760 阅读 · 0 评论 -
训练集、验证集、测试集划分
一,搞清楚验证集此段文字摘自《机器学习》周志华,第二章第二节评估方法 。从文中可以get到几个点:(1)验证集和测试集不同。(2)验证集来自训练集的再划分。(3)验证集的划分是为了模型选择和调参(4)测试集是用来测试学习器对新样本的判别能力,用测试误差作为泛化误差的近似值。二,训练集和测试集划分2.1 留出法(1)将数据集D划分成两个互斥集合,...原创 2019-06-17 11:54:06 · 39261 阅读 · 6 评论 -
Python实现Iris数据集(鸢尾花卉数据集)meanshift聚类
一,鸢尾花Iris数据集解析参考博文:https://blog.youkuaiyun.com/u010916338/article/details/86487890二,Python使用meanshift聚类,并绘制聚类散点图。from sklearn.cluster import MeanShiftfrom sklearn import datasetsimport matplotlib.pyp...原创 2019-01-15 17:03:19 · 6044 阅读 · 0 评论 -
核函数
支持向量机通过某非线性变换 φ( x) ,将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算,而在低维输入空间又存在某个函数 K(x, x′) ,它恰好等于在高维空间中这个内积,即K( x, x′) =<φ( x) ⋅φ( x′) > 。那么支持向量机就不用计算复杂的非线性变换,而由这个函数 K(x, x′) 直接得到非线性变换的内积...原创 2019-01-15 16:42:48 · 310 阅读 · 0 评论 -
Python实现Iris数据集(鸢尾花卉数据集)kmeans聚类
一,鸢尾花Iris数据集解析 二,绘制Iris数据集散点图,数据集已经给出具体类别from sklearn import datasetsimport matplotlib.pyplot as plt#加载数据集,是一个字典类似Java中的maplris_df = datasets.load_iris()#挑选出前两个维度作为x轴和y轴,你也可以选择...原创 2019-01-15 10:45:33 · 65470 阅读 · 10 评论 -
B-树(B树)
一,B-树就是B树英文名字叫做B-tree,中间的短线是英文连接符,只是翻译的时候将短线翻译成了减号。全称Balance-tree(平衡多路查找树),平衡的意思是左边和右边分布均匀。多路的意思是相对于二叉树而言的,二叉树就是二路查找树,查找时只有两条路,而B-tree有多条路,即父节点有多个子节点。二,B-树用途使用B-tree结构可以显著减少定位记录时所经历的中间过程,从而加快存取...转载 2019-01-09 14:31:42 · 53701 阅读 · 23 评论 -
最小二乘法
1,代数形式的最小二乘解 注意:最小二乘法不是求点到直线的垂直距离,而是求真实值到预测值之间的值。原因有两个:(1)计算量小(2)真实点到预测点的距离看成是三角形的斜边,斜边越短垂直边一定越短。多元函数求极值点,参考高等数学第七版p112 从定理中可见,这只是一个必要条件,但是如果函数是凸函数,那么就成了充要条件。SSE其实就是一个凸函数。 ...原创 2018-12-25 17:29:36 · 2109 阅读 · 0 评论 -
解析train-images-idx3-ubyte与train-labels-idx1-ubyte(mnist数据集)
def decode_idx3_ubyte(idx3_ubyte_file): """ 解析idx3文件的通用函数 :param idx3_ubyte_file: idx3文件路径 :return: 数据集 """ # 读取二进制数据 bin_data = open(idx3_ubyte_file, 'rb').read() # ..转载 2018-12-21 11:44:08 · 8969 阅读 · 0 评论 -
模型保存,加载与调用
模型保存BP:model.save(save_dir)SVM:from sklearn.externals import joblibjoblib.dump(clf, save_dir)模型调用BP:from keras.models import load_modelmodel = load_model(open_dir)SVM:from sklearn.extern...原创 2018-12-21 11:42:01 · 859 阅读 · 0 评论 -
train-labels-idx1-ubyte(mnist数据集)二进制格式
原创 2018-12-21 10:03:38 · 4852 阅读 · 0 评论 -
ROC曲线和AUC面积
1,首先区分什么是正类什么是负类。考虑一个二分问题,如果一类定为正类(positive),那么另一类就是负类(negative)。注意和正样本和负样本不同,参考博文:https://blog.youkuaiyun.com/u010916338/article/details/849741882,真正类,假正类,真负类,假负类对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即...原创 2018-12-13 16:45:13 · 922 阅读 · 0 评论 -
模型准确率accuracy
以二分类问题为例:假如:共有365个水果,只有两种类别,橙子和橘子.准确率=分类正确数/365x100%不足:假如365个水果当中有364个橙子,1个橘子。现有分类器,无论来什么水果都判定为橙子。准确率可达99.7%,但是显而易见这个模型根本没有判别能力。再换一组数据,准确率将直线下降。上面这种现象称为label不平衡以准确率判定模型是否优秀不够科学,所以引入ROC曲线。...原创 2018-12-13 14:45:43 · 11495 阅读 · 0 评论 -
正样本负样本,正类负类
与标签相关的样本都是正样本;与标签无关的都是负样本比如人脸识别,标签有3个,白人,黑人,黄人。那么凡是显示是人的图片都是正样本。如果其中掺杂了汽车的图片,那么汽车就是负样本。...原创 2018-12-12 15:48:39 · 16439 阅读 · 1 评论 -
人工智能(AI),机器学习(ML),表示学习(RL),深度学习(DL)
一,AI人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟...原创 2018-09-20 09:47:38 · 11454 阅读 · 0 评论 -
机器学习,以及深度学习产生背景
1,Rule-Based 最开始,全部认为的去分析数据,从数据处理到数据分析到最后出结果全部人工,中间可能会借助一些工具 2,机器学习 前期特征提取阶段靠人工,称之为特征工程,后期数据分析比如决策靠机器靠算法. 优点:节省了大量人力,而且机器准确度比人为高 缺点:任然依靠人工构建特征工程,特征选择任然会有遗漏,或者无效特征加入. 3,深度学习 深度学习就是神经网络,只是把隐藏层加深了...原创 2018-08-01 10:52:08 · 4137 阅读 · 0 评论 -
集成学习器,组合学习器
1,集成学习器,即多分类器进行组合,各分类器可以相同也可以不同,目前相同分类器居多 2,说是相同,其实是相似,只是分类器参数不同原创 2018-08-01 10:17:44 · 635 阅读 · 0 评论 -
标签数据
以猫狗图片分类为例: 训练集就是带标签的数据, 每一张图片即一条数据上已经标记好该张图片属于猫或者属于狗, 那么猫和狗就是该数据的标签. 注意:标签不是属性输入的新数据是不带标签的,标签就是将来要预测的内容,就是上面训练好的模型的输出...原创 2018-07-30 11:19:33 · 6606 阅读 · 2 评论 -
有监督,无监督,半监督
标签定义,参考博客:原创 2018-07-30 11:13:56 · 705 阅读 · 0 评论