74、问题分类与情感分类的综合分析

Mars5

于 2025-10-04 12:20:23 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏：移动计算与可持续信息学文章标签：问题分类情感分类词嵌入

本文链接：https://blog.youkuaiyun.com/mars5/article/details/152595050

移动计算与可持续信息学专栏收录该内容

76 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

问题分类与情感分类的综合分析

1. 问题分类系统

1.1 数据集

本次项目使用的数据集由Quora为Kaggle上的在线竞赛提供。为了将问题分类为真诚或不真诚，使用了130万个问题作为训练数据，特征包括问题ID、问题文本以及问题类型（真诚为0，不真诚为1）。训练数据有超过一百万行，如此大的数据集极具挑战性，可能会出现内存错误和处理时间过长的问题。应对大数据集的方法有使用更大的信息样本进行训练和降维，特征选择对于优化模型至关重要。

1.2 预处理

数据预处理是为实验准备数据，将原始数据转换以便进一步处理。为了提高评分，通常需要进行文本数据清理，如去除HTML标签、标点符号，进行分词（将句子转换为单词）、词形还原（通过识别词性标签去除词形变化）和缩写映射。但对于这个数据库，无需使用标准的预处理步骤，而是可以使用预训练嵌入作为预处理。

1.3 预训练嵌入

预训练词嵌入使用了数十亿个短语，相比自己训练嵌入具有额外优势。这些预训练模型是开始进行词嵌入的最简单方法，它是一个嵌入在其他地方的词的集合，只需加载到计算机和内存中即可。预训练模型也有其他语言版本，其好处是可以利用以前无法利用的庞大数据集，通过单独的词构建，并以统计方式识别这些词的含义。训练数据集的例子包括整个维基百科文本语料库、网络爬虫数据库和谷歌新闻信息。这种预训练词嵌入方法减少了获取、清理和处理如此大的信息集所需的大量时间。