本文为 「茶桁的 AI 秘籍 - BI 篇 第 11 篇」

Hi, 你好。我是茶桁。
之前两节课,咱们学习了基础的数据可视化工具以及决策树的可视化。今天这节课,咱们要看到的是另外一个场景,叫做词云展示。
词云应该所有人都不会陌生,一般什么时候用呢?
2007 年的时候北京的 Google 总部,一进入谷歌大楼就有一个非常震撼的场景,在谷歌的大屏幕里面就放了一个词云的展示。其实现在都知道是词云展示,技术并不是很难。它有个地球,每个地点里面都有个点。无论是在北京,或者在印度、美国的某个城市,每个点里面会呈现一个词云。这个词云告诉你在当前城市的关键词,它的新闻都呈现怎样的一个走势,用一种滚动的形态。你会发现它非常的智能。
Python 词云展示
词云就是对关键词的一种提取,它是文本分析的一种工具。如果我们要做文本分析的话基本上比较常做的就是两种,要么就是英文,要么就是中文。
在做词云展示之前要对文本进行处理,文本特征要去做提取的时候你要以一个单词的粒度。那单词怎么来?在一连串过程中我们要把最原始的那个单词给它提取出来,我们称之为叫做分词。
分词需要用一些分词工具,中文的分词工具最常见的是jieba,英文的话用NLTK。
那为了下面课程大家能跟着一起操作,我说一下这两个工具的安装。jieba比较简单,直接用conda install jieba就可以了,nltk 也是一样的,直接用conda install nltk,只是

订阅专栏 解锁全文

501

被折叠的 条评论
为什么被折叠?



