
ML
德胜coding
禅是一朵花 || 热爱与专注
展开
-
word2vec词向量原理并实践
word2vec词向量通俗化解释: word2vec(word to vector)是一个将单词转换成向量形式的工具。 作用: word2vec适合用作序列数据的分类,聚类和相似度计算。有用作app下载推荐系统中的,也有用在推荐系统和广告系统上的,也可以用在机器人对话类别判决系统上。 算法: 首先这是一个逻辑回归(分类)问题,使用最大似然估计。在已知历史单词,要最大化...转载 2019-04-09 21:39:18 · 2087 阅读 · 0 评论 -
统计学习之第一天
统计学知识梳理一、统计学基础知识样本和总体:以研究2019年北京师范大学附属第一中学初三年级学生的平均身高为例,那么北师大附一中初三年级全体学生为总体N,而样本n必然属于北师大附一中初三年级全体学生,于是有样本小于等于总体,即。对于这样的情况,我们一般采取抽样调查,比如抽取北师大附一初三一班为样本,统计其每一位同学的身高X,计算平均身高总体方差:还是以上述为例,总体方差计算公式...原创 2019-04-03 16:20:32 · 266 阅读 · 0 评论 -
TF-IDF理论和实践
TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级...转载 2019-04-07 21:29:10 · 442 阅读 · 0 评论 -
GBDT(梯度提升决策树)算法梳理
提升树利用加法模型和前向分步算法实现学习的优化过程。当损失函数是平方损失和zhi指数损失函数时,每一步优化是很简单的。但对一般函数而言,往往每一步优化并不那么容易。针对这一问题,提出梯度提升算法。这是利用最速下降法的近似方法,其关键是利用损失函数的负梯度在当前模型的值 ...原创 2019-04-07 20:14:17 · 1206 阅读 · 0 评论 -
XGB算法梳理
算法原理 算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值。注:w_q(x)为叶子节点q的分数,f(x)为其中一棵回归...转载 2019-04-10 18:46:58 · 1663 阅读 · 0 评论 -
达观杯智能文本挑战赛
达观杯智能文本挑战赛 任务 用长文本数据正文(article)来预测文本对应的类别(class) 数据 下载地址: 可以直接在官网比赛主页数据下载中下载,也可通过以下传送门下载:https://pan.baidu.com/s/11AOOn0xlv0TZjGeFfRc3Rw提取码58r9下载后解压,其中train_set.csv为训练集:此数据集用于训练模型,每一行对应一...原创 2019-04-05 21:32:29 · 218 阅读 · 0 评论 -
随机森林算法梳理
一、集成学习概念集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类系统(multi-classifier system)、基于委员会的学习(committee-based learning)等。二、个体学习器概念个体学习器通常由一个现有的学习算法从训练数据产生,比如决策树算法、BP神经网络算法等。个体学习器一般不称为基学习器,...原创 2019-04-04 16:22:58 · 866 阅读 · 0 评论 -
单变量线性回归实现波士顿房价预测
1、预测过程(1)、波士顿地区房价数据获取,数据来自于sklearn自带数据集;(2)、波士顿地区房价数据分割;(3)、训练与测试数据标准化处理;(4)、使用最简单的线性回归模型LinearRegression对房价进行预测。2、回归算法的评价指标有MSE,RMSE,MAE、R-Squared:MSE均方误差: MAE平均绝对误差: RMSE均方根误差: 可决系数(拟合优度...转载 2019-03-03 23:15:07 · 2366 阅读 · 0 评论 -
简单线性回归之代码实现
本篇介绍单变量线性回归之代码实现。如下:首先是梯度下降法:参照吴恩达《机器学习》课程及课件,单变量线性回归模型(Hypothesis)、代价函数(Cost Function)、目标函数(Goal)如下:代码实现如下:import numpy as npimport matplotlib.pyplot as plta = np.loadtxt('ex1data1.txt'...转载 2019-03-02 17:38:41 · 2836 阅读 · 0 评论 -
线性回归算法梳理(初版)
1. 机器学习的一些概念(有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证)机器学习方法是计算机利用已有的数据(经验),得出了某种模型(迟到的规律),并利用此模型预测未来(是否迟到)的一种方法。从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的...原创 2019-03-01 21:34:50 · 346 阅读 · 0 评论 -
报错ImportError:cannot import name 'fetch_openml' from 'sklearn.datasets'及问题解决方案
对多层感知机权重在MINIST数据集上的可视化实现实验中,遇到报错。首先,代码如下:import matplotlib.pyplot as pltfrom sklearn.datasets import fetch_openmlfrom sklearn.neural_network import MLPClassifierprint(__doc__)X,y=fetch_open...原创 2019-01-10 17:46:30 · 12116 阅读 · 2 评论