
机器学习
文章平均质量分 62
OceanProo
花即花雾即雾
展开
-
决策树
简介决策树(DT)是用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值。adboost:集成算法,基本算法的优化算法gbdboost决策树的一些优点是:易于理解和解释。树木可以看到。 需要很少的数据准备。其他技术通常需要数据规范化,需要创建虚拟变量并删除空值。但请注意,此模块不支持缺失值。 使用树的成本(即,预...原创 2018-11-20 11:43:22 · 258 阅读 · 0 评论 -
人工神经网络
目录简介计算过程scikit-learn实现简介非线性问题:异或:逻辑与,非线性问题转换为线性问题:即所以曲线看成无数小线段组成playground--体验神经网络模型归一化:所有数值减小,比如X_train/100也是归一化激活函数:支持向量机:不支持大数据,因为算量大,数据量大的话计算时间太长计算过程scikit-learn实现sklearn...原创 2018-11-23 12:04:27 · 327 阅读 · 0 评论 -
python之random
如果你对在Python生成随机数与random模块中最常用的几个函数的关系与不懂之处,下面的文章就是对Python生成随机数与random模块中最常用的几个函数的关系,希望你会有所收获,以下就是这篇文章的介绍。random.random() 生成随机数In [33]: import randomIn [34]: random.random() #生成0-1的随机浮点数Out[34]...原创 2018-11-20 13:16:29 · 211 阅读 · 0 评论 -
主成分分析
特征过多-过拟合,特征灾害特征相关性高-数据冗余异常值-噪声,缓解-消除不了的特征选择-降维特征分解的特征值或者特征和训练数据的特征没有关系,只是名称相同...原创 2018-11-26 10:32:53 · 233 阅读 · 0 评论 -
机器学习完整流程
目录1.项目概述1.1.划定问题1.2.选择性能指标1.3.核实假设2.获取数据2.1.创建工作空间2.2.下载数据2.3.快速查看数据结构2.4.创建测试集3.数据探索并可视化数据,发现规律3.1.查找关联3.2.属性组合试验4.为机器学习模型学习准备数据4.1.数据清洗4.2.处理文本和类别属性4.3.自定义转换器4.4.特征...原创 2018-11-29 19:17:50 · 1974 阅读 · 2 评论 -
聚类
无监督学习,没有y值的算法多用于文章聚类,作为辅助算法,辅助监督学习预测 K-MEANS:K均值聚类算法,使用最广泛的聚类算法,也可作为其他算法的基础,对初始值太敏感,不保证达到全局最优解层级聚合:凝聚和分裂方法:abcde,ab聚合后,只能再聚为abc,不会聚成bcDBSCAN:一种基于密度的聚类方法,对噪声不敏感轮廓系数:??距离:欧式距离、满哈距离,与玄距离 ...原创 2018-11-26 20:42:04 · 213 阅读 · 0 评论 -
推荐系统
jaccard系数:协同过滤:最简单、最基本的算法LFM(Latent Factor Model)隐语义模型是最近几年推荐系统领域最为热门的研究话题,它的核心思想是通过隐含特征(Latent Factor)联系用户兴趣和物品。那这种模型跟ItemCF或UserCF有什么不同呢?这里可以做一个对比:对于UserCF,我们可以先计算和目标用户兴趣相似的用户,之后再根据计算出来的用户喜欢的物...原创 2018-11-27 16:45:34 · 204 阅读 · 0 评论 -
TF-IDF
文本处理算法:分词后根据词频处理文本TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的...原创 2018-11-27 16:52:10 · 205 阅读 · 0 评论 -
卷积神经网络
从神经网络到卷积神经网络(CNN)我们知道神经网络的结构是这样的:那卷积神经网络跟它是什么关系呢?其实卷积神经网络依旧是层级网络,只是层的功能和形式做了变化,可以说是传统神经网络的一个改进。比如下图中就多了许多传统神经网络没有的层次。 卷积神经网络的层级结构 • 数据输入层/ Input layer • 卷积计算层/ CONV layer • ReLU激励层 /...原创 2018-11-27 16:55:01 · 498 阅读 · 0 评论 -
支持向量机
目录简介计算过程scikit-learn实现简介支持向量机(SVM,Support Vector Machine)是一组用于分类(SVM), 回归(SVR)和异常值检测的监督学习方法。支持向量机的优点是:在高维空间有效。 在尺寸数量大于样本数量的情况下仍然有效。 在决策函数中使用训练点的子集(称为支持向量),因此它也具有内存效率。 多功能:可以为决策功能指定不同...原创 2018-11-22 11:23:38 · 408 阅读 · 0 评论 -
python之Pillow(PIL Fork)
官网:https://pillow.readthedocs.io/en/5.3.x/handbook/tutorial.htmlPython Imaging Library中最重要的类是 Image类,它在模块中定义,具有相同的名称。您可以通过多种方式创建此类的实例; 通过从文件加载图像,处理其他图像或从头开始创建图像。要从文件加载图像,请使用模块中的open()函数Image:&g...原创 2018-11-23 16:57:34 · 510 阅读 · 0 评论 -
特征工程
目录0 前言1 什么是特征工程2 数据与特征处理2.1 数据采集2.2 数据格式化2.3 数据清洗2.4 数据采样2.5 特征处理3 特征选择3.1 过滤型3.2 包裹型3.3 嵌入型0 前言一个项目的基本流程:1.了解项目情况:项目概述,项目目标(需求),现有解决方案情况2.获取数据:数据来源、数据量3.数据清洗:处理异常值、空...原创 2018-11-21 11:14:36 · 383 阅读 · 0 评论 -
线性回归
目录简介计算过程scikit-learn实现简介线性回归模型:自变量和因变量万的关系为线性关系的一种回归分析模型,即y=ax+b训练:训练样本集中有多个(x,y)的实际值,可求出参数(a,b)的预测值,即通过训练可获得预测的线性回归模型损失函数:通过训练样本得到的预测y值和训练样本集中的实际y值的误差(均方误差),是预测模型最优的判定标准优化:获得损失函数的最优解的过...原创 2018-11-16 09:03:13 · 221 阅读 · 0 评论 -
逻辑回归
目录简介计算过程scikit-learn实现简介Logistic回归,尽管它的名字是一个分类,但是属于回归的线性模型。Logistic回归在文献中也称为logit回归,最大熵分类(MaxEnt)或对数线性分类器。计算过程。。。scikit-learn实现linear_model.LogisticRegression,Logistic回归分类器。实现可以适合二元,...原创 2018-11-16 11:18:23 · 461 阅读 · 0 评论 -
python之scipy
SciPy是一组专门解决科学计算中各种标准问题域的包的集合,主要包括下面这些包:scipy.integrate 数值积分例程和微分方程求解器 scipy.stats 标准连续和离散概率分布(如密度函数、采样器、连续分布函数等)、各种统计检验方法,以及更好的描述统计法 scipy.linalg 扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能 sci...原创 2018-11-21 11:44:41 · 1077 阅读 · 2 评论 -
K近邻(KNN)
目录简介计算过程scikit-learn实现K近邻分类器K近邻回归简介K近邻学习是一种常用的监督学习方法,K为1时,又称最近邻法,即1NN,K近邻的工作机制为:给定测试样本,基于某种距离度量找出训练集中与其最靠近的K个训练样本,然后基于这K个邻居的信息来进行预测 简介:近邻法(K-nearest neighbor,K-NN)是一种基本分类与回归方法,它的原理...原创 2018-11-16 19:30:48 · 499 阅读 · 0 评论 -
基本术语和符号
离散值:就是孤立的点集,如区间,如连续值:123456789,离散化即分为区间[1,3),[3,7),[7,10)反函数:单位向量:i,j,k分别表示在x,y,z轴上的单位向量向量算子:点积:向量空间即内积叉积:1、指示函数数学中,指示函数是定义在某集合X上的函数,表示其中有哪些元素属于某一子集A。 指示函数有时候也称为特征函数。现在已经少用这一称呼。概率论有另一意...原创 2018-11-15 12:43:52 · 535 阅读 · 0 评论 -
贝叶斯分类器
目录简介计算过程scikit-learn实现简介朴素贝叶斯方法是一组监督学习算法,基于贝叶斯定理应用给定类变量值的每对特征之间的条件独立性的“朴素”假设。不同的朴素贝叶斯分类器主要区别于他们对分布的假设 高斯朴素贝叶斯:假设特征的可能性是高斯的多项朴素贝叶斯补充朴素贝叶斯伯努利朴素贝叶斯核心外朴素贝叶斯模型拟合尽管它们显然过于简化了假设,但朴素的贝叶斯分...原创 2018-11-19 11:49:11 · 329 阅读 · 0 评论 -
python之pyechart
Echarts是百度可视化工具,pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒,为了与 Python 进行对接,方便在 Python 中直接使用数据生成图官方教程:http://pyecharts.org/#/zh-cn/prepare支持图形Bar(柱状图/条形图) ...原创 2018-11-21 19:09:22 · 7612 阅读 · 2 评论 -
python之scikit-learn
目录特征工程选择模型调整模型模型融合官方文档:http://scikit-learn.org/stable/# input--模型-output数据分析是为了发现规则数据分析--数据挖掘和机器学习,算法相同推荐系统语音识别--科大讯飞,百度垄断,比较成熟,自然语言的分支机器视觉--卷积神经网络,图像识别,图片搜索,目标检测(无人驾驶)NLP-...原创 2018-11-28 17:47:47 · 382 阅读 · 0 评论