
sklearn
文章平均质量分 84
tianbwin2995
这个作者很懒,什么都没留下…
展开
-
sklearn文本特征提取
词袋(Bag of Words)表征文本分析是机器学习算法的主要应用领域。但是,文本分析的原始数据无法直接丢给算法,这些原始数据是一组符号,因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件。为了解决这个问题,scikit-learn提供了一些实用工具可以用最常见的方式从文本内容中抽取数值特征,比如说:标记(tokenizing)文本以及为每一个可能的标记(token)分配的一转载 2016-06-16 17:24:13 · 5316 阅读 · 0 评论 -
用Python开始机器学习(5:文本特征抽取与向量化)
http://blog.youkuaiyun.com/lsldd/article/details/41520953假设我们刚看完诺兰的大片《星际穿越》,设想如何让机器来自动分析各位观众对电影的评价到底是“赞”(positive)还是“踩”(negative)呢?这类问题就属于情感分析问题。这类问题处理的第一步,就是将文本转换为特征。因此,这章我们只学习第一步,如何从文本中抽取特征,并将其向量化。由于中文的处理涉转载 2016-06-16 17:25:10 · 726 阅读 · 0 评论 -
结合Scikit-learn介绍几种常用的特征选择方法
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者最方便的特转载 2016-06-20 13:47:16 · 787 阅读 · 0 评论 -
SGDClassifier和LR,SVM的区别
看了许多文献,以及最近的项目经验,终于真正地搞懂了LR。以前总听大家说,看你对机器学习搞得透彻不透彻,就看你逻辑回归理解得怎么样;自己是统计出身的我,一直很有自信,以为无非就是个极大似然估计,求那个似然函数的极大值而已。然而实际上,这个之中也有很多的说法在里面,比如,求参数的方法。在逻辑回归中,我们极大似然估计的参数是可以通过“极大化该参数值”得到的,然而得到参数之后,并不代表我们就完成了,因为成千原创 2016-07-07 19:54:32 · 17829 阅读 · 1 评论