qq_21072649-优快云博客

原创文本挖掘模型整合

网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法。以决策树为例，当我们确定了要使用决策树算法的时候，为了能够更好地拟合和预测，我们需要调整它的参数。在决策树算法中，我们通常选择的参数是决策树的较大深度。于是我们会给出一系列的较大深度的值，比如 {'max_depth': [1,2,3,4,5]}，我们会尽可能包含最优较大深度。不过，我们如何知道哪一个较大深度的模型是较好的呢...

2019-04-15 19:54:11 1168

原创 lightgbm文本分类

LightGBM原理1 单边梯度采样算法（Grandient-based One-Side Sampling，GOSS）LightGBM使用GOSS算法进行训练样本采样的优化。在AdaBoost算法中，采用了增加被错误分类的样本的权重来优化下一次迭代时对哪些样本进行重点训练。然而GBDT算法中没有样本的权重，但是LightGBM采用了基于每个样本的梯度进行训练样本的优化，具有...

2019-04-13 20:18:21 2436

原创达观数据文本挖掘

1.逻辑回归任何的模型都是有自己的假设，在这个假设下模型才是适用的。逻辑回归的第一个基本假设是假设数据服从伯努利分布。伯努利分布有一个简单的例子是抛硬币，抛中为正面的概率是p,抛中为负面的概率是1−p.在逻辑回归这个模型里面是假设 hθ(x) 为样本为正的概率，1−hθ(x)为样本为负的概率。那么整个模型可以描述为hθ(x;θ)=p逻辑回归的第二个假设是假设样本为正的概率是p=11+e...

2019-04-11 19:38:56 275

原创 word2vec

1.近几年的机器学习和数据挖掘会议中，时常出现各种“嵌入”（embedding）的方法，这种方法的火爆是从Word2Vec算法开始的。Word2Vec是一种将文本中的词进行嵌入的方法，而所谓嵌入，就是将各个词使用一个定长的向量来表示。为什么要将词表示为向量呢？因为这极大方便了计算。例如，表示为向量以后，就可以方便的计算向量之间的距离，就可以知道对应的两个词之间有多么相近。一个直接的想法...

2019-04-09 18:25:48 1063

原创 TF-IDF

一. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率).是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。上述...

2019-04-07 18:16:02 177

原创 “达观杯”文本智能处理挑战赛

1.数据包含2个csv文件：train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；第三列是在“词”级别上的表示，即词语相隔正文(word_seg)；第四列是这篇文章的标注(class)。注：每一个数字对应一个“字”，或...

2019-04-05 19:53:54 168

原创决策树

1.信息量的定义某事件发生的概率小，则该事件的信息量大。定义随机变量XX的概率分布为P(X)P(X),XX的信息量为：h(X)=−log2P(X)h(X)=−log2P(X).2.熵对随机事件的信息量求期望，得到随机变量XX的熵：H(X)=−∑x∈XP(x)logP(x)H(X)=−∑x∈XP(x)log⁡P(x)当对数底数是2时，单位是bit，当对数底数是e时，单位是nat(奈特)...

2019-03-05 18:19:52 281

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-03-05 13:49:28 312

原创逻辑回归

1.逻辑回归与线性回归都属于广义线性回归模型,其区别与联系从以下几个方面比较：逻辑回归可以看成逻辑斯蒂和回归2个概念逻辑斯蒂是一种变量的分布方式，和常见的指数分布、高斯分布等类似，它也有自己的概率分布函数和概率密度函数，如下：它们的形状如下图所示分类与回归:回归模型就是预测一个连续变量(如降水量，价格等)。在分类问题中，预测属于某类的概率，可以看成回归问题。这可以说是使用回归算法的分类...

2019-03-03 15:43:28 844

原创线性回归算法

1、有监督学习（supervised learning）不仅把训练数据丢给计算机，而且还把分类的结果（数据具有的标签）也一并丢给计算机分析。计算机进行学习之后，再丢给它新的未知的数据，它也能计算出该数据导致各种结果的概率，给你一个最接近正确的结果。由于计算机在学习的过程中不仅有训练数据，而且有训练结果（标签），因此训练的效果通常不错。有监督学习的结果可分为两类：分类或回归。2、无...

2019-03-01 18:26:24 282

qq_21072649的博客