54、文本挖掘:入门、示例与 TXTDM 软件解析

文本挖掘入门与TXTDM应用解析

文本挖掘:入门、示例与 TXTDM 软件解析

1. 文本挖掘简介

文本挖掘是对文本数据进行的数据挖掘。在开展文本挖掘前,需先将文本转化为数字,再从积累的文本中挖掘隐藏信息。其目的在于提升易用性,具体有三个目标:一是作为入门指南,介绍文本挖掘的范畴和基本操作;二是以小文本示例展示挖掘过程;三是提供名为 TXTDM 的 SAS 子程序,可从网站下载。

2. 背景知识

文本挖掘是对文本数据进行挖掘,将文本转化为数字后,可运用各种数据挖掘技术。该词源于 14 世纪晚期,意为“任何书面内容的措辞”,即文本挖掘是在书面措辞中寻找模式及其含义。20 世纪 90 年代,随着互联网文本数据的增加,文本挖掘应用迅速发展。

文本挖掘是文本处理的一部分,与之相关的学科包括:
- 自然语言处理(NLP) :计算机进行语言处理的领域,主要开发识别英语等多种语言人类语音的程序。
- 计算语言学(CL) :起源于 20 世纪 50 年代美国用计算机自动翻译外语(如俄语科学期刊)为英语的尝试,如今致力于推进计算机与书面和口语的交互。
- 信息检索(IR) :从信息资产中定位与信息请求相关资源的过程,谷歌是典型的信息检索搜索引擎。
- 机器学习(ML) :由 Samuel 在 1959 年提出,研究让计算机无需明确编程即可学习的方法。

3. 文本挖掘软件对比

启动文本挖掘项目时,选择软件是难题,主要分为免费和商业两类,下面对它们进行详细对比:
|软件

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值