前言:去年水过一次建模比赛,选题是垃圾评论识别。作为一个门外汉,当时提取垃圾评论特征的想法是人工寻找尽可能多的垃圾评论数据,然后提取出现的高频词。然而,提取高频词时又遇到了技(bian)术(cheng)问题,所以最后只好目测取了一些词汇作为垃圾评论的特征词。
于是这次接触到smartbi,先试一下它的文本挖掘功能。
首先打开示例的“文本挖掘”工作流,看到里面有三个节点:
右键查看excel节点中的示例数据,发现表格是词频表。
所以这个示例工作流是处理提取好的词频表,而不是处理原始数据提取词汇。excel节点的参数都很好理解,看了就懂了,所以略过。
第二个节点是筛选高频词,右键看此节点的配置。
第一个选项(选择方式)是选择需要处理的数据的方式,可以通过行属性(行名称)、数字(行号)、行ID(正则表达式匹配行ID)来选择。一般选择行属性方式,具有解释性,否则还要打开表看行号行ID,比较麻烦。示例选择的是行属性。
第二个选项是过滤参数。模式匹配是通过某种模式(如正则表达式)来过滤选择的数据;仅匹配缺失值同字面意思,匹配的是缺失测试字段的数据;范围检查是过滤字段值在上限(下限)以外的数据。
示例选择的是范围检查,过滤掉词频小于100的词汇。生成的词云如下:
鼠标移动到词云上的某个词时,还会显示其词频。很方便的可视化!
想了一下,模式匹配可以用在过滤词汇的非数字表达属性(比如情感色彩,词性之类的),然后生成不同属性词汇的词云图。
下面自己找数据