学习记录 - 1

前言:去年水过一次建模比赛,选题是垃圾评论识别。作为一个门外汉,当时提取垃圾评论特征的想法是人工寻找尽可能多的垃圾评论数据,然后提取出现的高频词。然而,提取高频词时又遇到了技(bian)术(cheng)问题,所以最后只好目测取了一些词汇作为垃圾评论的特征词。
于是这次接触到smartbi,先试一下它的文本挖掘功能。

首先打开示例的“文本挖掘”工作流,看到里面有三个节点:
"文本挖掘"工作流的大纲

右键查看excel节点中的示例数据,发现表格是词频表。
所以这个示例工作流是处理提取好的词频表,而不是处理原始数据提取词汇。excel节点的参数都很好理解,看了就懂了,所以略过。

第二个节点是筛选高频词,右键看此节点的配置。
筛选高频词-配置
第一个选项(选择方式)是选择需要处理的数据的方式,可以通过行属性(行名称)、数字(行号)、行ID(正则表达式匹配行ID)来选择。一般选择行属性方式,具有解释性,否则还要打开表看行号行ID,比较麻烦。示例选择的是行属性。

第二个选项是过滤参数。模式匹配是通过某种模式(如正则表达式)来过滤选择的数据;仅匹配缺失值同字面意思,匹配的是缺失测试字段的数据;范围检查是过滤字段值在上限(下限)以外的数据。

示例选择的是范围检查,过滤掉词频小于100的词汇。生成的词云如下:
词云
鼠标移动到词云上的某个词时,还会显示其词频。很方便的可视化!

想了一下,模式匹配可以用在过滤词汇的非数字表达属性(比如情感色彩,词性之类的),然后生成不同属性词汇的词云图。

下面自己找数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值