- 博客(8)
- 收藏
- 关注
原创 基于SVM的垃圾邮件分类系统实现
本项目实现了一个基于SVM的垃圾邮件分类系统,主要特点包括:完整的文本预处理流程高效的词袋特征表示强大的SVM分类器1. 尝试TF-IDF特征而不仅是二进制特征2. 加入n-gram特征捕获短语信息3. 使用网格搜索进行超参数优化4. 尝试深度学习模型如LSTM或Transformer。
2025-06-02 16:42:21
895
原创 利用python实现逻辑回归模型
相较于其他梯度上升算法,改进后的随机梯度上升算法收敛速度更快,更可能找到全局最优解,也更适合实际应用。当 z→+∞,hθ(x)→1;当 z=0,hθ(x)=0.5。利用 σ(z) = 1/(1+e⁻ᶻ) 将线性组合θᵀx映射到(0,1)区间,表示概率。类别1的样本点为蓝色方块,类别0的样本点为绿色圆点,将两个类别的样本点和分类直线可视化。当z→+∞时,σ(z)→1;dataMat:增强后的特征矩阵,形如[ [1.0,x1,x2],...]的,因为 当hθ(x)=0.5时,θTx=0。
2025-05-19 19:45:37
1040
原创 朴素贝叶斯分类器实现
1.算法简单,易于实现2.对小规模数据表现良好3.对缺失数据不太敏感4.在多分类问题中表现良好1.特征独立性假设在现实中往往不成立2.对输入数据的表达形式敏感3.当特征出现频率为0时需要进行平滑处理(本例未实现)朴素贝叶斯广泛应用于文本分类(如垃圾邮件过滤),情感分析,推荐系统,医学诊断等领域。通过这个西瓜分类的实例,我们可以清楚地看到朴素贝叶斯算法的工作原理。虽然简单,但在许多实际问题中都能取得不错的效果。
2025-05-04 21:16:12
1047
原创 决策树算法:ID3与CART的实现与比较
决策树算法直观易懂,适合解释性要求高的场景。ID3使用信息增益,构建多叉树CART使用基尼指数,构建二叉树实际应用中,我们更多使用C4.5(改进ID3)或CART算法。现代决策树算法如随机森林、GBDT等也都是基于这些基础算法发展而来。
2025-04-21 02:05:55
761
原创 KNN算法的分类模型评估
1.通过实验,当k=8时,AUC值和平均准确率均最接近1,模型分类性能最好2.ROC曲线描述了不同阈值下的假正率(FPR)和真正率(TPR)之间的关系。PR曲线描述了不同阈值下的召回率(Recall)和精确率(Precision)之间的关系。3.在KNN算法中,K值的选择对模型性能有较大影响。可以通过训练不同K值的KNN模型,绘制其在测试集上的ROC曲线,并比较各个K值下的ROC曲线面积(AUC)大小。通过分析不同K值下的ROC曲线可以选择合适K值以获得最佳模型性能。
2025-04-05 18:57:48
752
原创 基于K近邻算法的分类器的实现
K近邻算法是一种简单而有效的分类算法,它通过测量样本之间的距离来对新样本进行分类。基于KNN算法的分类器在实际应用中具有广泛的应用,可以用于图像分类、文本分类、推荐系统等领域。通过学习和实践,我们可以更好地理解KNN算法的原理和实现,并将其应用于实际问题中。
2025-03-23 02:54:55
1049
原创 机器学习相关环境配置
Visual Studio Code(简称 VS Code )是 Microsoft 于2015年4月发布的一款代码编辑器,以界面简洁、轻量著称。它是一款免费开源的现代化轻量级代码编辑器,支持几乎所有主流开发语言的语法高亮、智能代码补全、自定义热键、括号匹配、代码片段、代码对比 Diff、GIT等特性,支持插件扩展,并针对网页开发和云端应用开发做了优化。
2025-03-08 03:43:43
1373
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅