17、文本挖掘:从奥巴马国情咨文演讲中洞察信息

文本挖掘:从奥巴马国情咨文演讲中洞察信息

1. 文本挖掘的重要性

在当今世界,文本数据无处不在。据估计,非结构化的文本数据占总数据的比例高达 80% - 90%。这意味着,任何想要从数据中获取洞察的人,都必须具备处理和分析文本的能力。

回想过去,作为市场研究员,我常常手动翻阅主持人主导的焦点小组和访谈记录,希望能捕捉到一些定性的见解,然后还得和团队成员争论是否有相同的见解。而现在,分析师可以迅速将数据提炼成有意义的定量结果,支持定性理解,甚至能说服那些仅凭少量访谈就下结论的人。

在过去几年里,我将这里讨论的技术应用于挖掘医患互动、理解 FDA 对处方药广告的担忧以及捕捉罕见癌症患者的担忧等。使用 R 语言和相关方法,你也可以从文本数据中提取强大的信息。

2. 文本挖掘框架和方法

文本挖掘有多种方法,这里提供一个基本框架,它虽不涵盖所有可能的方法,但能覆盖大多数项目中最重要的部分。

2.1 数据准备

首先,将文本文件整合到一个结构化的文件中,称为语料库(Corpus)。语料库中的文档数量可以是一个、几十个、几百个甚至几千个。R 语言可以处理多种原始文本文件,如 RSS 提要、PDF 文件和 MS Word 文档。创建语料库后,就可以开始进行文本转换。

常见且有用的文本文件转换包括:
- 大写字母转换为小写字母
- 去除数字
- 去除标点符号
- 去除停用词
- 去除多余的空格
- 词干提取
- 词语替换

在转换语料库时,不仅可以创建更紧凑的数据集,还能简化结构,促进词语之间的关系,从而加

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值