文本挖掘:入门、示例与 TXTDM 软件解析
1. 文本挖掘简介
文本挖掘是对文本数据进行的数据挖掘。在开展文本挖掘前,需先将文本转化为数字,再从积累的文本中挖掘隐藏信息。其目的在于提升易用性,具体有三个目标:一是作为入门指南,介绍文本挖掘的范畴和基本操作;二是以小文本示例展示挖掘过程;三是提供名为 TXTDM 的 SAS 子程序,可从网站下载。
2. 背景知识
文本挖掘是对文本数据进行挖掘,将文本转化为数字后,可运用各种数据挖掘技术。该词源于 14 世纪晚期,意为“任何书面内容的措辞”,即文本挖掘是在书面措辞中寻找模式及其含义。20 世纪 90 年代,随着互联网文本数据的增加,文本挖掘应用迅速发展。
文本挖掘是文本处理的一部分,与之相关的学科包括:
- 自然语言处理(NLP) :计算机进行语言处理的领域,主要开发识别英语等多种语言人类语音的程序。
- 计算语言学(CL) :起源于 20 世纪 50 年代美国用计算机自动翻译外语(如俄语科学期刊)为英语的尝试,如今致力于推进计算机与书面和口语的交互。
- 信息检索(IR) :从信息资产中定位与信息请求相关资源的过程,谷歌是典型的信息检索搜索引擎。
- 机器学习(ML) :由 Samuel 在 1959 年提出,研究让计算机无需明确编程即可学习的方法。
3. 文本挖掘软件对比
启动文本挖掘项目时,选择软件是难题,主要分为免费和商业两类,下面对它们进行详细对比:
|软件
文本挖掘入门与TXTDM应用解析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



