- 博客(3)
- 收藏
- 关注
原创 用BERT完成spam垃圾短信分类项目
先问一个问题:“我们既然有了BERT模型,为啥还要画蛇添足的再去自定义一个BERT模型?”答案是BERT的核心功能是输出文本的语义特征,而我的spam项目是分类任务,所以我需要自己来自定义输出结果。或者我举个更直接的例子,BERT的输出结构是(32,768)而我要的是(32,2)那么来考虑一下,这个我自定义的类BERTClassifer类,和其它所有python的累一样,它需要__init__函数然后还要自定义一个前向传导的函数forward。
2025-09-27 15:14:04
1612
原创 spam垃圾短信分类——NLP入门项目
综合下来,我觉得这确实是一个很好的NLP入门项目,它从最基本的文本预处理再到现如今NLP重要的两个概念TF-IDF和n-gram,一步步的带我认识到NLP领域。文字类数据需要进行预处理,包括分词,停用词以及抽取词性,转为小写等TF-IDF是一个计算词性权值的算法,它会利用这些计算出来的权值,并把这些(单词,权值)独立成一个特征,然后进行模型训练和预测n-gram也是NLP的一个重要概念,它还加强了模型利用上下文的分析来更好的训练和预测。
2025-09-19 11:57:38
1702
原创 泰坦尼克号幸存者预测
特征工程过后如今的情况:标识特征:Name, Ticket, Cabin (原始)。这些是ID类信息,可以丢弃。原始特征:Pclass, Sex, Age, Fare, Embarked, SibSp, Parch。这些是建模的基础。工程特征(我的核心成果):AgeGroup -> (从Age衍生)Title -> (从Name衍生)HasCabin -> (从Cabin衍生)FamilySize -> (从SibSp, Parch衍生)
2025-09-13 16:27:00
1366
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅