- 博客(4)
- 收藏
- 关注
原创 (四)LR和SVM原理及实践
1、逻辑回归知识点介绍:逻辑回归(LR)就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型。回归方程如下:实际上LR仅仅是在线性回归上增加了一个非线性函数(sigmoid)。过程:涉及的知识点主要有 极大似然、对数损失函数、梯度下降法更新参数。模型评估:LR用于二分类,常用的AUC评价模型性能。参数说明:sklearn.linear_model...
2019-04-10 10:55:12
407
原创 (三)word2vec词向量原理与实践
word2vec原理:词向量提取工具,主要有两种模型。分别是CBOW和Skip-Gram。前者通过上下文预测中心词,后者通过中心词预测上下文。代码:texts = [['human', 'interface', 'computer'],['survey', 'user', 'computer', 'system', 'response', 'time'],['eps', 'us...
2019-04-09 23:28:44
310
原创 (二)TF-IDF理论及实践
向量化文本数据,通常也会选择TF-IDF这种方法。1.理论:如果某个词很重要,它应该在这篇文章中多次出现。于是,我们进行"词频"(Term Frequency,缩写为TF)统计。首先,我们要去停用词。再计算词频。但是问题出现了,如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。为了解决上述问题,采用最常见的词("的"、"...
2019-04-06 20:19:25
569
原创 (一)“达观杯”赛题和数据解读
题目:建立模型通过长文本数据正文(article),预测文本对应的类别(class) 。题目解读:文本分类任务的实现,本矢量化后进行逻辑回归训练。数据:》train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列: 第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(arti...
2019-04-05 21:55:12
238
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人