背景
话说两年前我一脸蒙圈地开始了自己文本挖掘的职业生涯,领导给我的第一个任务就是文本分类任务。小伙伴手把手教我怎么来做一个三分类任务,上手还挺快,正能量爆炸,原来这就自然语言处理,也没有那么复杂吗?无知者无畏。
自然语言处理博大精深,越到细节处越是难,一不小心就从入门到放弃了。一个好的新手任务是入门到深入的前提,而文本分类任务就是一个很不错的选择,保准给你打满鸡血,至于能不能坚持到最后?就暂时不是我们关心的问题。万事开头难,好的开头有好结尾的概率会高一点。不啰嗦,回归正题开始胡说八道。
什么是文本分类
分类大家都知道吧?我且大胆地尝试下个定义,把事物按某特性划分为几种类别。
生活处处是分类,前段时间上海风风火火地垃圾分类,就算一种!按照垃圾的材质/是否可回收分类。垃圾分类出来没多久,有聪明的小伙伴就说我们是不是可以搞一个垃圾分类的模型,商机无限,我感叹小伙伴这头脑该去做ceo啊,也没有太在意。不过没多久市面上就有各种垃圾分类应用涌现,感觉错过一个亿的商机。
上学的时候,对分类的认识是不够的,觉得搞这么多分类干啥,有啥用啊。那时候文小刚大佬组里的文章喜欢各种分类,奈何智商有限,每次都云里雾里,大佬的世界我不懂。后来做了文本分类任务,才渐渐去想想为什么要分类?我想最简单的,分类意味着对事物认知,可以定位到更细的类别,可以进行筛选;分得越细,说明我们研究的越清楚,最终 …(原谅我浅薄的认知,故事编不下去了)
知道了分