现代文本分析:从基础到实践
1. 文本分析简介
在当今时代,进行文本分析正当时。我们拥有大量易于获取的数据,同时还有强大且免费的开源工具来开展机器学习、计算语言学方面的分析和研究,文本计算也以前所未有的速度发展着。
1.1 无处不在的文本数据
我们每天都会接触到大量的文本信息,比如早报、收到的消息等。像谷歌(每年处理超过 1 万亿次查询)、推特(每天 16 亿次查询)和 WhatsApp(每天 300 多亿条消息)等公司处理的文本数据量更是惊人。这些文本数据不仅是一种宝贵的资源,还具有巨大的商业价值。企业可以利用这些数据来了解客户特征和趋势,为用户提供更个性化的体验或进行精准营销。例如,Facebook 就大量使用文本数据,并且本书后面会介绍的一种算法就是由 Facebook 的人工智能研究团队开发的。
1.2 文本分析的定义与相关技术
文本分析是从文本中提取有用信息的技术,主要借助自然语言处理(NLP)、计算语言学(CL)和数值工具(机器学习算法或信息检索算法)来实现。以下是对这些相关术语的简要解释:
- 自然语言处理(NLP) :指利用计算机处理自然语言,例如从文本中去除所有“thereby”这个词,这是一个简单的示例。
- 计算语言学(CL) :从计算的角度研究语言学,即使用计算机和算法来完成语言学任务,如将文本标记为不同的词性(名词、动词等),而不是手动进行标注。
- 机器学习(ML) :利用统计算法让机器学习执行特定任务,通过数据进行学习,通常是根据先前观察到的数据预测新的值。 <
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



