2、文本分析:从数据挖掘到实际应用

文本分析:从数据挖掘到实际应用

1. 文本分析简介

在当今时代,进行文本分析正当时。我们拥有海量且易于获取的数据,强大且免费的开源工具,并且机器学习、计算语言学和文本计算方面的研究正以前所未有的速度发展。

文本是我们每天都会接触到的信息媒介,无论是早报还是收到的消息,我们获取信息的主要形式就是文本。像谷歌(每年处理超过 1 万亿次查询)、推特(每天 16 亿次查询)和 WhatsApp(每天 300 多亿条消息)等公司处理的文本数据量十分惊人,这充分显示了文本数据的丰富性和普遍性,也让我们有足够的理由重视它。

文本数据具有巨大的商业价值,公司可以利用这些数据来描绘客户画像、了解客户趋势,为用户提供更个性化的体验或用于精准营销。例如,Facebook 就大量使用文本数据,本书后续会介绍的一种算法就是由 Facebook 的人工智能研究团队开发的。

文本分析可以理解为从文本中提取有用信息的技术,主要通过自然语言处理(NLP)、计算语言学(CL)和数值工具(机器学习算法或信息检索算法)来实现。下面简单介绍相关概念:
- 自然语言处理(NLP) :利用计算机处理自然语言,例如从文本中删除所有“thereby”这个词,这是一个基础示例。
- 计算语言学(CL) :从计算的角度研究语言学,使用计算机和算法执行语言学任务,如对文本进行词性标注(标记每个单词是名词、动词、副词等)。
- 机器学习(ML) :使用统计算法让机器执行特定任务,通过数据进行学习,通常根据之前观察到的数据预测新值。
- 信息检索(I

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值