25、大规模文本信息分析-优快云博客

本文链接：https://blog.youkuaiyun.com/rust6ferris/article/details/154005858

大规模文本信息分析

1. 引言

随着现代计算机计算能力的提升，收集大量数据并通过算法进行有效处理以辅助决策变得可行。例如，金融分析师和投资者以往主要关注公司季度收益和宏观经济预测，现在可借助新闻媒体文章分析市场情绪，利用停车场卫星图片预测商业活动。

大数据包含大容量或高频数据、非常规来源数据以及需要特殊处理和信息提取的非结构化数据。文本是常见的非结构化数据形式，其蕴含的信息与数字数据相当，且更具可解释性。它能让计量经济学家补充或替代传统调查，获取更细致、最新的信息，补充从财务比率等结构化数据中提取的信息。然而，大规模分析文本并保持可解释性颇具挑战。

分析文本数据困难的原因有：一是语言结构复杂，难以通过简单的词计数或短语标注来概括；二是文本数据维度高，处理大量文档计算成本高；三是缺乏将文本数据与社会科学中传统的稀疏回归分析相结合并保持可解释性的框架。在金融市场和商业环境中应用文本分析更具挑战性，因为这些领域变化快，仅依靠基于历史数据的预测模型是不够的，还需要经济理解和可解释性。

2. 非结构化文本数据

文本数据有多种形式，以下是研究人员和决策者容易获取的与经济和金融相关的文本数据：
- 新闻：
- 《华尔街日报》（WSJ）的数据广泛用于学术研究，适合文本分析，聚焦头版文章，因其经过人工编辑和校对，对早期扫描和数字化的报纸尤为有用，可避免光学字符识别（OCR）产生的错别字。
- 其他报纸，如《纽约时报》《金融时报》和《经济学人》，其经济、商业和金融板块包含相关信息，可通过Proquest（https://www.proquest.com）获取。
- Factiv