Datawhale零基础入门NLP-Task3 基于机器学习的文本分类
本文将对新闻文本分类这个比赛进行机器学习算法的探索
比赛链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction
特征提取
我们的数据是一系列文本是无结构数据,是没办法拿来直接计算的,也就没办法使用机器学习算法进行训练。因此我们首先得将这些无结构的数据转化为有结构的数据,那么最直接的想法就是提取特征了。比如提取出文本长度,文本中句子数等等作为特征然后进行训练。
TF-IDF
之前在task1的赛题思路里面已经介绍了TF-.
原创
2020-07-25 23:21:31 ·
189 阅读 ·
0 评论