54、文本挖掘：入门、示例与 TXTDM 软件解析

文本挖掘入门与TXTDM应用解析

snow3

于 2025-08-26 14:00:34 发布

阅读量68

点赞数

CC 4.0 BY-SA版权

分类专栏：数据挖掘的统计与机器学习文章标签：文本挖掘自然语言处理计算语言学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/snow3/article/details/151003558

数据挖掘的统计与机器学习专栏收录该内容

58 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

文本挖掘：入门、示例与 TXTDM 软件解析

1. 文本挖掘简介

文本挖掘是对文本数据进行的数据挖掘。在开展文本挖掘前，需先将文本转化为数字，再从积累的文本中挖掘隐藏信息。其目的在于提升易用性，具体有三个目标：一是作为入门指南，介绍文本挖掘的范畴和基本操作；二是以小文本示例展示挖掘过程；三是提供名为 TXTDM 的 SAS 子程序，可从网站下载。

2. 背景知识

文本挖掘是对文本数据进行挖掘，将文本转化为数字后，可运用各种数据挖掘技术。该词源于 14 世纪晚期，意为“任何书面内容的措辞”，即文本挖掘是在书面措辞中寻找模式及其含义。20 世纪 90 年代，随着互联网文本数据的增加，文本挖掘应用迅速发展。

文本挖掘是文本处理的一部分，与之相关的学科包括：
- 自然语言处理（NLP） ：计算机进行语言处理的领域，主要开发识别英语等多种语言人类语音的程序。
- 计算语言学（CL） ：起源于 20 世纪 50 年代美国用计算机自动翻译外语（如俄语科学期刊）为英语的尝试，如今致力于推进计算机与书面和口语的交互。
- 信息检索（IR） ：从信息资产中定位与信息请求相关资源的过程，谷歌是典型的信息检索搜索引擎。
- 机器学习（ML） ：由 Samuel 在 1959 年提出，研究让计算机无需明确编程即可学习的方法。

3. 文本挖掘软件对比

启动文本挖掘项目时，选择软件是难题，主要分为免费和商业两类，下面对它们进行详细对比：
|软件

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。