自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 用BERT完成spam垃圾短信分类项目

先问一个问题:“我们既然有了BERT模型,为啥还要画蛇添足的再去自定义一个BERT模型?”答案是BERT的核心功能是输出文本的语义特征,而我的spam项目是分类任务,所以我需要自己来自定义输出结果。或者我举个更直接的例子,BERT的输出结构是(32,768)而我要的是(32,2)那么来考虑一下,这个我自定义的类BERTClassifer类,和其它所有python的累一样,它需要__init__函数然后还要自定义一个前向传导的函数forward。

2025-09-27 15:14:04 1612

原创 spam垃圾短信分类——NLP入门项目

综合下来,我觉得这确实是一个很好的NLP入门项目,它从最基本的文本预处理再到现如今NLP重要的两个概念TF-IDF和n-gram,一步步的带我认识到NLP领域。文字类数据需要进行预处理,包括分词,停用词以及抽取词性,转为小写等TF-IDF是一个计算词性权值的算法,它会利用这些计算出来的权值,并把这些(单词,权值)独立成一个特征,然后进行模型训练和预测n-gram也是NLP的一个重要概念,它还加强了模型利用上下文的分析来更好的训练和预测。

2025-09-19 11:57:38 1702

原创 泰坦尼克号幸存者预测

特征工程过后如今的情况:标识特征:Name, Ticket, Cabin (原始)。这些是ID类信息,可以丢弃。原始特征:Pclass, Sex, Age, Fare, Embarked, SibSp, Parch。这些是建模的基础。工程特征(我的核心成果):AgeGroup -> (从Age衍生)Title -> (从Name衍生)HasCabin -> (从Cabin衍生)FamilySize -> (从SibSp, Parch衍生)

2025-09-13 16:27:00 1366 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除