- 博客(8)
- 收藏
- 关注
原创 机器学习——PCA
主成分分析(Principal Component Analysis,简称PCA)是一种用于数据降维的技术,旨在通过线性变换将原始数据映射到一个新的坐标系中。在这个新的坐标系中,数据的方差被最大化,这意味着我们将保留尽可能多的原始数据信息。PCA的关键思想是通过找到数据中的主成分,将数据在这些主成分上进行投影,从而实现数据的降维。首先,对原始数据进行标准化处理,确保每个特征的均值为零,标准差为一。这一步骤是为了消除不同特征之间的量纲差异,使得每个特征对PCA的贡献相对均等。
2024-01-01 13:40:33
2128
原创 机器学习——支持向量机(SVM)
SVM在高维空间中的表现优秀,适用于处理具有大量特征的数据,比如文本分类问题。SVM通过寻找最大间隔超平面,使得模型更具泛化性,对新样本的分类效果较好,具有较高的鲁棒性。SVM利用核技巧可以处理非线性问题,将低维的非线性可分问题映射到高维的线性可分问题,从而更好地解决各类复杂问题。SVM在小样本数据集上的表现相对较好,对于数据量较小的情况也能产生较好的分类效果。由于核函数的存在,SVM适用于处理不同类型的数据,包括数值型和非数值型数据。
2023-12-18 20:58:05
544
1
原创 机器学习——Logistic回归
在机器学习领域,Logistic回归是一种经典的二分类算法,常用于解决问题,例如垃圾邮件分类、疾病诊断等。与线性回归不同,Logistic回归使用S形函数将线性输出映射到概率空间,使其可以处理分类问题。Logistic回归是一种统计学习方法,用于建模二分类问题。它通过一个线性方程的组合,将输入特征映射到S形函数(sigmoid函数)上,得到一个0到1之间的概率值。这个概率值可以用于判断样本属于类别1的可能性。1. 数据收集:收集包含特征和标签的数据集。特征是影响预测的变量,标签是我们想要预测的目标变量。
2023-12-04 15:47:53
190
原创 机器学习——朴素贝叶斯算法
朴素贝叶斯算法是一种简单而高效的分类算法。其基本原理清晰,易于理解和实现,使其成为许多应用场景中的首选算法之一。朴素贝叶斯在小规模数据集上表现出色,尤其是在文本分类等任务中,它通常能够取得令人满意的结果。由于其对特征条件独立性的假设,朴素贝叶斯在高维数据上的计算效率较高,适用于包含大量特征的问题。在自然语言处理领域,朴素贝叶斯广泛用于文本分类任务。基于词袋模型,它能够有效地处理文本数据,被广泛应用于垃圾邮件过滤、情感分析等场景。
2023-11-20 17:00:24
419
1
原创 机器学习——决策树
在本次博客中,我们深入探讨了机器学习中的重要工具之一,即决策树。我们首先介绍了决策树的概念,它是一种树状结构,通过一系列的分支节点和条件测试来实现分类和预测。随后,我们讨论了决策树的构建过程,包括信息增益、基尼不纯度和均方误差等关键概念,这些帮助我们决定如何选择最佳特征和分割点。我们还介绍了一些常见的决策树算法,如ID3和CART。在本次学习实操过程中,我发现了还有一些地方需要改进,如测试不同超参数,可以自己设计数据集等方面可以去提升。
2023-11-06 16:48:42
170
原创 PR和ROC曲线
precision, recall, _ = precision_recall_curve(y_test, y_scores):使用precision_recall_curve函数计算PR曲线的Precision和Recall值。y_scores = knn.predict_proba(X_test)[:, 1]:获取模型的概率分数,这里选择的是模型预测为正例的概率。y_scores = knn.predict_proba(X_test)[:, 1]:获取模型的概率分数,这里选择的是模型预测为正例的概率。
2023-10-23 14:51:48
184
原创 K近邻(KNN)算法
K近邻算法是一种机器学习方法,用于分类和回归问题。它的核心思想是通过比较一个数据点与其最近的K个邻居来进行预测或分类。它可以在多种问题中使用。但在实际应用中,需要谨慎选择距离度量和K值,以获得最佳性能。
2023-10-09 11:14:02
1398
1
原创 实验课一:vscode与anaconda安装
点击open folder新建文件夹,并点击箭头所指处即可创建。选择合适的操作系统所对应的vscode进行下载即可。vscode下载:官网链接。点击install即可。
2023-09-25 19:50:27
102
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人