Datawhale AI夏令营-学习笔记(一)

大数据相关知识:

  • 文本编码:将人类可读的文本转换为机器可理解的数值向量表示,这是所有文本分析任务的基础。

    • 常用方法包括独热编码、词嵌入 (如Word2Vec、GloVe等静态词向量)以及基于预训练模型的上下文词嵌入(如BERT、GPT等动态词向量)。

    • 本项目的Baseline方案采用了经典的TF-IDF编码方法。

 

  • 文本分类:根据文本内容将其自动归类到预定义类别。

    • 本项目中的情感分析属于多维度文本分类任务,需要识别评论的情感倾向(正面/负面/中性等)以及是否涉及用户场景、疑问或建议等属性。

    • 常用方法包括基于规则和词典的方法、传统机器学习方法(如朴素贝叶斯、支持向量机SVM等)以及深度学习方法(如循环神经网络RNN、卷积神经网络CNN、Transformer等) 。

    • Baseline方案使用了线性分类器((如SGDClassifier) 进行文本分类。

 

  • 文本聚类:根据文本内容的相似性自动将文本分组,无需预先定义类别。

    • 本项目要求按商品对指定维度的评论进行聚类,并提炼每类的主题词。

    • 常用聚类算法包括K-Means(需预设簇数K)、层次聚类、DBSCAN等。

    • Baseline采用了K-Means算法进行聚类。

    • 聚类效果通常用轮廓系数等指标衡量,其值越接近1表示聚类效果越好。

 

  • 大模型与高级技术:随着技术发展,大型预训练语言模型(LLM) 在NLP任务中表现突出。

    • Baseline也提及可以利用大模型的零样本/少样本学习能力,在标注数据有限时完成任务;

    •  或通过微调预训练模型来更好地适应本任务。

    • 此外,还可使用预训练模型提供的API接口获取文本向量表示,用于后续的分类或聚类。

    • 这些高级技术为提升模型性能提供了思路。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值