学习记录 - 1

overzy

于 2016-02-08 20:56:22 发布

阅读量690

点赞数

CC 4.0 BY-SA版权

分类专栏：学习记录文章标签：词云

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/overzy/article/details/50645010

前言：去年水过一次建模比赛，选题是垃圾评论识别。作为一个门外汉，当时提取垃圾评论特征的想法是人工寻找尽可能多的垃圾评论数据，然后提取出现的高频词。然而，提取高频词时又遇到了技（bian）术（cheng）问题，所以最后只好目测取了一些词汇作为垃圾评论的特征词。
于是这次接触到smartbi，先试一下它的文本挖掘功能。

首先打开示例的“文本挖掘”工作流，看到里面有三个节点：
"文本挖掘"工作流的大纲

右键查看excel节点中的示例数据，发现表格是词频表。
所以这个示例工作流是处理提取好的词频表，而不是处理原始数据提取词汇。excel节点的参数都很好理解，看了就懂了，所以略过。

第二个节点是筛选高频词，右键看此节点的配置。
筛选高频词-配置
第一个选项（选择方式）是选择需要处理的数据的方式，可以通过行属性（行名称）、数字（行号）、行ID（正则表达式匹配行ID）来选择。一般选择行属性方式，具有解释性，否则还要打开表看行号行ID，比较麻烦。示例选择的是行属性。

第二个选项是过滤参数。模式匹配是通过某种模式（如正则表达式）来过滤选择的数据；仅匹配缺失值同字面意思，匹配的是缺失测试字段的数据；范围检查是过滤字段值在上限（下限）以外的数据。

示例选择的是范围检查，过滤掉词频小于100的词汇。生成的词云如下：

鼠标移动到词云上的某个词时，还会显示其词频。很方便的可视化！

想了一下，模式匹配可以用在过滤词汇的非数字表达属性（比如情感色彩，词性之类的），然后生成不同属性词汇的词云图。

下面自己找数据

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。