
机器学习的学习之路
erinapple
这个作者很懒,什么都没留下…
展开
-
labelencoding onehot
Label encoding在某些情况下很有用,但是场景限制很多。比如有一列 [dog,cat,dog,mouse,cat],我们把其转换为[1,2,1,3,2]。这里就产生了一个奇怪的现象:dog和mouse的平均值是cat。而且像decision tree,random forest和xgboost这种算法能处理好这种转换,而且相比转换前,所需要的内存空间小一点。One-Hot 编码即独热编码...原创 2018-03-26 19:52:46 · 332 阅读 · 0 评论 -
文本分析--关键词获取(jieba分词器,TF-IDF模型)
文本分析--关键词获取(jieba分词器,TF-IDF模型)关键词获取可以通过两种方式来获取: 1、在使用jieba分词对文本进行处理之后,可以通过统计词频来获取关键词:jieba.analyse.extract_tags(news, topK=10),获取词频在前10的作为关键词。 2、使用TF-IDF权重来进行关键词获取,首先需要对文本构建词频矩阵,其次才能使用向量求T...原创 2018-06-06 21:49:58 · 4723 阅读 · 0 评论