
机器学习实战
无尾君
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【机器学习 3】KNN算法实现梳理- Be based on“约会对象”、“手写识别”
• (1)收集数据 • 提供的文本文件 • (2)准备数据 • 格式转换 • 将源文件格式化处理为可处理的向量,如:手写识别系统 • 处理源文件格式,比如存在大量空格、杂乱符号等,需要进行去除、重新排序 • 例:strip()-删除空格,并在删除点处进行标记;split(“\t”),在删除点处用空格进行划分 • 文件读取 • int/float等原创 2018-01-31 10:26:03 · 310 阅读 · 0 评论 -
【机器学习实战】 Knn-约会对象
import numpy as np#import operatorfilename = path + '/datingTestSet.txt'# 加载数据def loadDataset(filename): dataSet = [] labelSet = [] with open(filename) as fr: for line in fr...原创 2018-05-24 15:09:35 · 633 阅读 · 0 评论 -
【机器学习实战】 Bayes
贝叶斯公式: P(H|D)=P(D|H)P(H)P(D)P(H|D)=P(D|H)P(H)P(D)P(H|D) = \frac{P(D|H)P(H)}{P(D)} 先验概率:P(H),在得到新数据前某一假设的概率 后验概率:P(H|D),在看到新数据后,该假设的概率 似然度:P(D|H),在该假设下得到这一数据的概率 标准化常量:P(D),在任何假设下得到这一数据的概率在贝叶斯问题中...原创 2018-05-25 10:29:05 · 753 阅读 · 0 评论 -
笑脸
.....'',;;::cccllllllllllllcccc:::;;,,,''...'',,'.. ..';cldkO00KXNNNNXXXKK000OOkkkkkxxxxxddoooddddddxxxxkkkkOO0XXKx:. ...原创 2018-04-26 15:04:29 · 6418 阅读 · 0 评论 -
【机器学习8问】
1、BoostingTree什么是提升树(boostingTree)? 答:若干颗决策树构成了一个弱分类器模型,并给予每一次分错的样本更大的权重。2、GBDT什么是 GBDT,与提升树有什么关系? GBDT如何做回归问题?如何做分类问题?在回归问题中的loss函数如何定义?在分类问题中loss函数如何定义?为什么这么定义loss函数?回归问题中, 用什么loss函数去定义的,对于这...原创 2018-04-24 09:51:06 · 224 阅读 · 0 评论 -
【机器学习实战】 使用Apriori算法进行关联分析
转载请注明作者和出处: https://blog.youkuaiyun.com/weixin_37392582 代码地址: https://gitee.com/wuweijun 开发平台: Win10 + Python3.6 + Anaconda3 编 者: 无尾一、前言1、关联分析2、Apriori原理3、使用Apriori算法来发现频繁集一、前言 在...原创 2018-03-27 16:19:06 · 1494 阅读 · 0 评论 -
【机器学习实战】 利用K-均值聚类算法对未标注数据分组
转载请注明作者和出处: https://blog.youkuaiyun.com/weixin_37392582 代码地址: https://gitee.com/wuweijun 开发平台: Win10 + Python3.6 + Anaconda3 编 者: 无尾一、前言二、K-均值聚类算法1、工作流程 2、伪代码3、流程图4、核心代码解释(1)euclidentDist...原创 2018-03-27 11:02:00 · 1037 阅读 · 1 评论 -
优快云-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键#使用交叉验证来评估算法def evaluate_algorithm(da...转载 2018-03-27 09:37:56 · 165 阅读 · 0 评论 -
【机器学习】2.1 k-近邻算法概述
优点简单好用,容易理解,精度高,理论成熟,既可以用来做分类也可以用来做回归; 可用于数值型数据和离散型数据; 无数据输入假定; 对异常值不敏感; 处理多分类问题很简单缺点:计算复杂性高;空间复杂性高; 样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少); 一般数值很大的时候不用这个,计算量太大。但是单个样本又不能太少,否则容易发生误分。 最大的缺点是无法...原创 2018-03-13 16:01:57 · 194 阅读 · 0 评论 -
【机器学习 4】决策树 - IDE3
转载请注明作者和出处: https://blog.youkuaiyun.com/weixin_37392582 开发平台: Win10 + Python3.6 + Anaconda3 编 者: 无尾一、IDE3二、sklearn实现一、IDE3决策树的一般流程: (1)收集数据:可以使用任何方法 (2)准备数据:树构造算法只是用于标称型数据,因此数值型数据必...原创 2018-01-31 19:13:58 · 1975 阅读 · 1 评论 -
【机器学习 2】k-邻近算法识别手写数字
思路: 训练集:trainingDigits文件夹内的32位二进制图像矩阵 Target向量:从trainingDigits文件夹内的文件名读取图像矩阵所表示的数字 测试集:testDigits文件夹内的32位二进制图像矩阵 predicted预测值:从testDigits文件夹内文件名读取图像矩阵所表示的数字#手写识别系统#(1)收集数据:提供文原创 2018-01-30 20:28:25 · 265 阅读 · 0 评论 -
【机器学习】2.2 k-邻近算法改进约会网站的配对效果
第一篇文章,在机器学习的道路上,希望能够与大家共勉。K-近邻(Knn,K-Nerest-Neighbor)算法是所接触到的第一个机器学习算法,也是所有机器学习介绍的第一种分类算法。KNN算法的工作原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据所对应的...原创 2018-01-30 15:30:20 · 318 阅读 · 0 评论 -
【机器学习实战】 Decision Tree
熵(信息的期望值):H(D)=−∑ni=1p(Di)log2p(Di)H(D)=−∑i=1np(Di)log2p(Di)H(D) = -\sum_{i=1}^{n}{p(D_i)log_2p(D_i)} 条件熵:H(D|A)=−∑mj=1p(Aj)H(D)H(D|A)=−∑j=1mp(Aj)H(D)H(D|A) = -\sum_{j=1}^{m}{p(A_j)}{H(D)} 信息增益:...原创 2018-05-24 20:14:45 · 392 阅读 · 0 评论