文本分析:数据获取、预处理与应用
1. 文本分析工具与数据来源
在科学计算领域,MATLAB 是一款广受欢迎的商业工具。不过,如今开源软件的发展势头迅猛。随着越来越多的人参与到开源库的开发中,以及行业资金的投入,开源社区得到了极大的助力。许多软件巨头,如谷歌使用 TensorFlow,苹果使用 scikit - learn,都在其内部系统中采用了开源软件包。
Python 在文本分析方面表现卓越,其生态系统提供了大量的软件包,并且拥有强大而活跃的开源社区。以下是一些常见的文本分析工具和数据来源:
- 工具 :Python 及其相关库,如用于网络爬虫的 BeautifulSoup、urllib 和 scrapy。
- 数据来源 :
- 语料库 :是进行文本分析的良好起点,例如免费的 Open American National Corpus、British National Corpus 等。不同语料库的信息丰富程度和用途各异,有的用于翻译辅助,有的用于机器学习任务的评估。
- 文学作品 :可用于文学风格分析等研究,如宾夕法尼亚大学的研究人员通过分析文学风格发现了莎士比亚可能的合作者。
- 社交媒体和网络 :包括 Twitter、Reddit、Wikipedia 等。Twitter 已成为文本分析的重要资源,有大量的结构化数据集可供使用;Wikipedia 的数据量巨大,解压后的媒体转储约有 58GB(截至 2018 年 4 月)。
-
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



