文本分析是在机器学习数据挖掘中经常要用到的一种方法,主要是指对文本处理,并对文本建模取得有用的信息。文本分析主要用在如垃圾邮件分类,搜索词聚类等等。文本分析中主要面临的一个问题就是对文本做向量转换以后,数据的维度会很高,也就是所谓的维度灾难。
文本分析的主要步骤为:
文本分析一般主要由三步组成,解析数据,搜索检索,文本挖掘。解析数据主要是为了将非格式化的数据处理成格式化的数据以方便以后的分析。非结构化的数据主要有文本,日志,网页,xml,json等。搜索检索主要是指对结构化的数据识别关键字,主题,以及相关性等。文本挖掘主要是根据识别的关键字,主题等找出其中的我们感兴趣的东西,并展示出来。
文本分析常用的技术:
1. TF-IDF
TF-IDF是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
公式的定义:
tf(t, d) 指的词频,意思是文档d中t出现的次数,指的是一个文档。
Nd是指文档的总词数,指的是文档集。df(d, t)指的是所有文档集中出现出现t的次数。
2. LDA
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,包含词、主题