
机器学习
文章平均质量分 89
xiayto
这个作者很懒,什么都没留下…
展开
-
机器学习--聚类算法
1、聚类算法思想聚类就是对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,使类别内的数据比较相似,类别之间的数据相似度比较小,属于无监督学习。聚类算法的重点是计算样本项之间的相似度,有时候也称为样本间的距离。2、距离公式(相似度)闵可夫斯基距离(Minkowski)dist(X,Y)=(∑i=1n|xi−yi|p)1pdist(X,Y) = (\sum^n_{i=1}|原创 2018-03-16 10:52:51 · 8029 阅读 · 0 评论 -
Hive笔记(查询和建表)
1、数据类型和文件格式数据类型创建表时需要指定字段的数据类型,hive支持一些集合数据类型,STRUCT、MAP和ARRAY:STRUCT:STRUCT <<>>> struct(5, ‘jack’) 通过字段名.first 和 字段名.second访问内容MAP:MAP<<&原创 2018-08-22 02:18:13 · 1667 阅读 · 0 评论 -
在中文大语料库上训练word2vector
目录:1、词向量的作用2、词向量的训练方法3、gensim实现大语料库的word2vec1、词向量的作用传统使用one-hot表示一个词,用multi-hot表示一个文档。这样做主要的问题是: 1)维度大,独热向量稀疏。 2)损失语义信息,每个词用一个维度进行编号,词之间的余弦相似度都为0word embedding的优势: 1)分布式的表示(distribution...原创 2018-07-25 22:02:47 · 4400 阅读 · 1 评论 -
强化学习(reinforcement learning)原理
1、简介强化学习的任务对应一个四元组: E=<X,A,P,R>E=<X,A,P,R>E=X:当前状态A:可采取的动作总体集合P:各个转移状态的概率值R:奖赏函数整体的过程是,对于当前状态X,从动作集合A中选择一个动作,作用在X上,使得X按照概率转移函数P转移到另外一种状态原创 2018-05-16 19:06:40 · 10214 阅读 · 0 评论 -
机器学习--评估指标
1 、损失函数种类0-1损失函数 J(θ)=1Y≠f(x)J(\theta) = 1 Y\ne f(x)J(θ)=0Y=f(x)J(\theta) = 0 Y = f(x)感知损失函数 J(θ)=1|Y−f(X)|>tJ(\theta) = 1 |Y-f(X)|>tJ(θ)=0|Y−f(X)|<tJ(\theta) = 0 |Y-f(X)|<t平方和损失函数 J(θ)=∑i=1m(h原创 2018-04-03 00:20:03 · 327 阅读 · 0 评论 -
机器学习--特征选择
1、特征选择特征选择是重要的数据预处理过程,特种选择有两个重要的原因:1 如果属性过多,会造成维数灾难,也就是随着属性变多,总体的特征数量呈指数级增长2 去除不相关的特征可以降低机器学习的难度。2、子集搜索与评价子集搜索子集搜索方法包含:向前、向后、双向搜索。 采用贪心的思想,“向前”选取特征,特征集初没有参数,每一轮选取一个加入后模型最佳的特征,也可以“向后”选取特征,一开始选取所有的特征原创 2018-04-10 10:28:57 · 565 阅读 · 0 评论 -
机器学习--集成学习模型比较
1、Bagging和Boosting的区别样本选择:Bagging算法是有放回的随机采样;Boosting算法是每一轮训练集不变样例权重:Bagging使用随机抽样,样例的权重;Boosting根据错误率不断的调整样例的权重值, 错误率越大则权重越大预测函数:Bagging所有预测模型的权重相等;Boosting算法对于误差小的分类器具有更大的权重并行计算:Bagging算法可以并行生...原创 2018-03-13 22:07:20 · 1933 阅读 · 0 评论 -
机器学习--XGBoost
1、模型思想XGBoost是GBDT改良版,都是通过多个弱学习器,不断地减少残差。GBDT主要是对残差求一阶导,向负梯度的方向拟合残差,而XGBoost运用了泰勒展开,考虑到了二阶导数。2、公式推导每次的迭代都是前面的弱学习器组合上新的学习器,表示为: ŷ (t)i=ŷ (t−1)i+ft(xi)y^i(t)=y^i(t−1)+ft(xi)\hat{y}_i^...原创 2018-03-13 11:20:35 · 379 阅读 · 0 评论 -
机器学习--集成学习GBDT
1. GBDT思想GBDT也是集成学习Boosting的其中一种,Boosting是由多个弱学习器组成,与bagging不同,Boosting学习器之间有关联的关系。AdaBoost是通过前面的学习器模型来决定当前的学习器模型的每个样本的权重,然后计算出当前学习器组合权重,最后将学习器线性组合起来。而GBDT则是通过不断的最小化样本的残差来达到集成学习的目的,每个弱学习器,都是用于拟合之前学习器中的原创 2018-03-13 00:02:09 · 610 阅读 · 0 评论 -
机器学习--集成学习AdaBoost
Boosting概念提升学习(Boosting)是一种机器学习技术,可以用于回归和分类的问题,它也是多个弱学习器组合而成,但是跟bagging不同的是,bagging的学习器是相互独立的,但是boosting的每个学习器是基于前面的学习器生成的。AdaBoost它给样本加了一个权重,如果前面的学习器已经能把样本分对,那么权重会降低,如果不能分对就会把权重升高,更着重的去考虑分错的样本,然后把多个弱学原创 2018-03-12 18:29:23 · 412 阅读 · 0 评论 -
机器学习--随机森林
模型思想随机森林是集成学习的一种,集成多个弱学习器形成一个强学习器。弱学习器要求是好而不同,具有一定的准确性和多样性,多个学习器集成产生更好的效果。对于回归问题:简单平均法。对于分类问题:简单投票法。Bagging为了用于多个学习器训练,要有多个不同的训练集,运用少量的数据产生多个不同训练集其中的一个方法就是bagging。bagging也就是有放回的采样。假设有m个数据,每次抽一次放回到数据原创 2018-03-12 10:46:18 · 478 阅读 · 0 评论 -
机器学习--SVM支持向量机
SVM思想SVM用于解决二分类的问题(也可以扩展到解决多分类问题和回归问题),它的思想是在特征的向量空间中找到一个分界超平面,使得离超平面最近的点尽可能的大,这些距离超平面最近的点也称为支持向量。SVM算法过程点到平面的距离 .distance(x;w,b)=|wTx+b|||w||distance(x;w,b)=|wTx+b|||w||distance(x;w,b)=\f...原创 2018-03-11 19:26:57 · 305 阅读 · 0 评论 -
机器学习--决策树
决策树思想用树的结构,根据各个属性,对数据进行分类,使划分后的数据更加纯,也就是说叶子节点中尽可能的只有一种类型。量化纯度有三种指标,三个指标都是值越小越纯净,小:分布比较集中,大:分布比较平均。熵:H(D)=−∑mi=1pilog2(pi)H(D)=-\sum_{i=1}^m p_ilog_2(p_i)Gini系数:Gini(D)=1−∑mi=1p2iGini(D) = 1-\sum_{i=1原创 2018-03-10 22:59:36 · 345 阅读 · 0 评论 -
机器学习--回归算法
算法线性回归(连续)目标函数推导预测值与误差: y(i)=θTx(i)+εiy^{(i)}=\theta^Tx^{(i)}+\varepsilon^{i} 由中心极限定理可知,误差服从正态分布: p(εi)=12π√σexp(−(εi)22σ2) p(\varepsilon^{i})=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\varepsilon^{i}原创 2018-03-10 16:20:26 · 1618 阅读 · 0 评论 -
Notes:文本分类任务
1 传统方法一般采用步骤:a.文本预处理b.特征提取,得到文本表示c.分类器分类a.文本预处理先根本停用词表去除停用词后,分词(用字会损失n-gram特征)b.特征提取,得到文本表示词袋模型、语义相关的主题模型(LSI、NMF、LDA)提取特征。c.分类器分类使用SVM、xgboost、LightGBM等分类器分类。2 深度学习的文本分类方法2.1 fastText...原创 2019-02-22 05:54:18 · 1130 阅读 · 0 评论