大数据相关知识:
-
文本编码:将人类可读的文本转换为机器可理解的数值向量表示,这是所有文本分析任务的基础。
-
常用方法包括独热编码、词嵌入 (如Word2Vec、GloVe等静态词向量)以及基于预训练模型的上下文词嵌入(如BERT、GPT等动态词向量)。
-
本项目的Baseline方案采用了经典的TF-IDF编码方法。
-
-
文本分类:根据文本内容将其自动归类到预定义类别。
-
本项目中的情感分析属于多维度文本分类任务,需要识别评论的情感倾向(正面/负面/中性等)以及是否涉及用户场景、疑问或建议等属性。
-
常用方法包括基于规则和词典的方法、传统机器学习方法(如朴素贝叶斯、支持向量机SVM等)以及深度学习方法(如循环神经网络RNN、卷积神经网络CNN、Transformer等) 。
-
Baseline方案使用了线性分类器((如SGDClassifier) 进行文本分类。
-
-
文本聚类:根据文本内容的相似性自动将文本分组,无需预先定义类别。
-
本项目要求按商品对指定维度的评论进行聚类,并提炼每类的主题词。
-
常用聚类算法包括K-Means(需预设簇数K)、层次聚类、DBSCAN等。
-
Baseline采用了K-Means算法进行聚类。
-
聚类效果通常用轮廓系数等指标衡量,其值越接近1表示聚类效果越好。
-
-
大模型与高级技术:随着技术发展,大型预训练语言模型(LLM) 在NLP任务中表现突出。
-
Baseline也提及可以利用大模型的零样本/少样本学习能力,在标注数据有限时完成任务;
-
或通过微调预训练模型来更好地适应本任务。
-
此外,还可使用预训练模型提供的API接口获取文本向量表示,用于后续的分类或聚类。
-
这些高级技术为提升模型性能提供了思路。
-