分类器中代表性模型的实用分析综述
1. 引言
随着技术的进步,用于分析和审查而收集的数据呈指数级增长。文本分析旨在处理非结构化的文本数据,以提取有用信息,它运用提取和分类等技术挖掘原始文本数据中的隐藏信息。
机器学习能够分析文档形式的数据,如文本、图像、数字数据等,以实现学习过程自动化、模式分析、数据分类、聚类和决策等功能。在实际应用中,大部分数据以文本、图像和数字数据等形式存在,对这些文档的分析和学习至关重要。机器学习可分为监督学习、无监督学习和半监督学习,其学习技术借助数学模型进行预测。由于直接处理文本字符串无法与学习算法有效结合,因此需要将文档数据转换为数值形式。
分类是将文档归类到不同类别的过程,可应用于情感分析、路由、垃圾邮件过滤等场景。在监督式机器学习分类技术中,学习过程依赖训练模型。通过大量不同类别的文档训练模型,训练模型的文档术语矩阵以数值形式表示整个训练数据集。矩阵的行代表文档,列代表作为特征的单词,矩阵元素表示特征在文档中的出现情况。对于测试文档,需创建一个特征向量,其列数与文档术语矩阵中的特征数对应,元素表示每个特征在测试文档中的出现情况。分类器算法通过比较测试文档的特征向量和模型,预测测试文档的类别。
然而,文档术语矩阵存在高维性、元素稀疏、无法识别文本语义、存在多义词以及不考虑语法等问题。虽然文本预处理可解决部分问题,但仍无法保证结果的准确性,因此需要采用特征选择和特征提取等额外技术来进一步优化模型。
文档分类是文本挖掘的重要问题,下面将对监督式机器学习中用于文档分类的最新模型,特别是用于预测分析的代表性模型进行综述。
超级会员免费看
订阅专栏 解锁全文
727

被折叠的 条评论
为什么被折叠?



