文本分析:从数据挖掘到实际应用
1. 文本分析简介
在当今时代,进行文本分析正当时。我们拥有海量且易于获取的数据,强大且免费的开源工具,并且机器学习、计算语言学和文本计算方面的研究正以前所未有的速度发展。
文本是我们每天都会接触到的信息媒介,无论是早报还是收到的消息,我们获取信息的主要形式就是文本。像谷歌(每年处理超过 1 万亿次查询)、推特(每天 16 亿次查询)和 WhatsApp(每天 300 多亿条消息)等公司处理的文本数据量十分惊人,这充分显示了文本数据的丰富性和普遍性,也让我们有足够的理由重视它。
文本数据具有巨大的商业价值,公司可以利用这些数据来描绘客户画像、了解客户趋势,为用户提供更个性化的体验或用于精准营销。例如,Facebook 就大量使用文本数据,本书后续会介绍的一种算法就是由 Facebook 的人工智能研究团队开发的。
文本分析可以理解为从文本中提取有用信息的技术,主要通过自然语言处理(NLP)、计算语言学(CL)和数值工具(机器学习算法或信息检索算法)来实现。下面简单介绍相关概念:
- 自然语言处理(NLP) :利用计算机处理自然语言,例如从文本中删除所有“thereby”这个词,这是一个基础示例。
- 计算语言学(CL) :从计算的角度研究语言学,使用计算机和算法执行语言学任务,如对文本进行词性标注(标记每个单词是名词、动词、副词等)。
- 机器学习(ML) :使用统计算法让机器执行特定任务,通过数据进行学习,通常根据之前观察到的数据预测新值。
- 信息检索(I
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



