
机器学习
文章平均质量分 94
ByteKun&
学习 linux 中。。。
展开
-
常用Numpy操作(笔记整理)
对数组元素进⾏求和或累积操作。获取数组的最⼤最⼩值及其索引。对数组元素进⾏加减乘除操作。创建特定填充值的数组。切⽚操作获取特定区域的数组元素。计算数组元素的⽅差。对数组指定轴应⽤⾃定义函数。对数组元素进⾏取余操作。对数组进⾏对数运算。将⻆度与弧度进⾏转换。对数组进⾏排序和获取索引。对数组元素求和计算。对数组进⾏指数函数运算。对数组元素进⾏舍⼊操作。将数组拆分为多个⼦数组。对数组进⾏线性代数运算。计算数组元素的绝对值。计算数组元素的平均值。原创 2024-08-31 16:50:50 · 1386 阅读 · 0 评论 -
常用Pandas操作(笔记整理)
使⽤ groupby 和 transform 在组内进⾏操作,并将结果⼴播到原始 DataFrame。使⽤ duplicated 检测重复值,使⽤ drop_duplicates 删除重复值。使⽤ nlargest 获取最⼤值,使⽤ nsmallest 获取最⼩值。使⽤指定列进⾏合并,指定合并⽅式(内连接、左连接、右连接、外连接)。使⽤ cut 函数将数值列分成不同的箱⼦,⽤标签表示。使⽤ replace 替换DataFrame中的值。使⽤ at 和 iat 快速访问DataFrame中的元素。原创 2024-08-29 17:25:42 · 1577 阅读 · 0 评论 -
机器学习——lightGBM(学习整理)
LightGBM 是 微软的 一个团队 在 Github 上开发的一个 开源项目,高性能 的 LightGBM 算法具有分布式 和 可以 快速处理大量数据的 特点。LightGBM 虽然 基于 决策树和 XGBoost 而生,但它 还遵循 其他不同的 策略。XGBoost 使用决策树 对一个 变量进行 拆分,并在 该变量上 探索不同的 切割点(按级别划分的 树生长策略),而LightGBM 则 专注于 按叶子节点 进行拆分,以便 获得更好的 拟合(按叶划分的树生长策略)。原创 2024-08-22 18:37:12 · 3338 阅读 · 0 评论 -
机器学习——XGBoost
XGBoost 全称 是 eXtreme Gradient Boosting,可译为 极限梯度提升算法。它由 陈天奇所设计,致力于 让提升树突破自身的 计算极限,以实现 运算快速,性能优秀的 工程目标。与决策树、SVM 等不同,它是一个集大成的机器学习算法。原创 2024-08-17 11:24:13 · 6655 阅读 · 0 评论 -
机器学习——朴素贝叶斯
算法得出的结论,永远不是 100% 确定的,更多的是判断出了一种 “ 样本的标签更可能是某类的可能性 ”,而非一种 “ 确定 ”。决策树 使用的 是 叶子节点上 占比较多 的标签 所占的比例(接口 predict_proba 调用),逻辑回归 使用的 是 sigmoid函数 压缩后的 似然(接口 predict_proba 调用),而 SVM 使用的 是样本点到 决策边界的 距离(接口 decision_function 调用)。但这些指标的本质,都是一种 “类概率” 的表示,可以。原创 2024-08-14 22:32:50 · 1939 阅读 · 0 评论 -
机器学习——线性回归(sklearn)
回归是一种 应用广泛的 预测建模技术,这种 技术的核心 在于预测的结果 是连续型变量。理解线性回归可以有 两种角度:矩阵的角度和代数的角度。多重共线性 是一种 统计现象,是指线性模型中的 特征(解释变量)之间 由于存在 精确相关关系 或 高度相关关系,多重共线性的 存在会使模型 无法建立,或者 估计失真。原创 2024-08-13 01:54:14 · 4786 阅读 · 0 评论 -
机器学习——支持向量机(SVM)(2)
中间的 虚线代表着,当 recall 增加 1%,我们的 FPR 也增加 1%,也就是说,每 捕捉出 一个少数 类,就会 有一个 多数类 被判错,这种情况下,模型的效果就不好,这种 模型捕获 少数类的结果,会让许多多数类 被误伤,从而增加成本。横坐标是 FPR,代表着 模型将多数类判断错误的 能力,纵坐标 Recall,代表着模型捕捉少数类的 能力,所以 ROC 曲线 代表着,随着Recall 的 不断增加,FPR 如何增加。表示 所有真实为 1 的样本中,被 预测正确的样本 所占的比例。原创 2024-08-12 00:02:13 · 1376 阅读 · 0 评论 -
机器学习——支持向量机(SVM)(1)
支持向量机(Support Vector Machine,SVM)属于有监督学习模型,主要 用于解决 数据分类问题。SVM将 每个样本数据 表示为 空间中的点,使 不同类别的样本点尽可能 明显地区分开。通过将样本的 向量映射到高维空间中,寻找 最优区分 两类数据的超平面,使 各分类到 超平面的距离最大化,距离越大 表示 SVM 的分类 误差越小。原创 2024-08-11 02:00:50 · 1538 阅读 · 4 评论 -
机器学习——聚类算法K-Means
轮廓系数越接近于 1 越好,负数 则表示聚类 效果非常差。如果一个簇中的大多数样本 具有比较高的轮廓系数,则 簇会有较高的 总轮廓系数,则整个数据集的 平均轮廓系数越高,则 聚类是合适的。如果 许多样本点具有低轮廓系数 甚至负值,则 聚类 是不合适的,聚类的超参数 K 可能设定得 太大或者太小。原创 2024-08-09 23:32:16 · 2468 阅读 · 3 评论 -
机器学习——逻辑回归(学习笔记)
其本质是由线性回归变化而来的,一种广泛使用于分类问题中的广义回归算法。首先理解线性回归算法:𝜃 被统称为模型的参数,其中 𝜃₀被称为截距(intercept),𝜃₁~𝜃n 被称为系数。这个表达式,和 y=ax+b 是同样的性质。可以 使用矩阵来表示 这个方程,其中 x 和 𝜃 都可以被看做是一个 列矩阵,则有:线性回归的任务,就是构造一个预测函数 z 来映射输入的特征矩阵 x 和 标签值 y 的线性关系。原创 2024-08-09 12:39:33 · 951 阅读 · 0 评论 -
机器学习——降维算法PCA和SVD(sklearn)
与特征选择类似,我们可以用不同的特征提取技术来减少数据集的特征数量。特征选择和特征提取的区别在于,当我们用诸如 逆序选择之类的特征选择算法 时,数据集的原始特征 保持不变,而当我们用 特征提取 方法时,会将数据变换 或投影到 新特征空间。在降维的背景下,我们可以 把特征提取理解为 数据压缩的一种方法,其目的是保持大部分的相关信息。在实际应用中,特征提取 不仅可以优化存储空间 或 机器学习算法 的计算效率,而且还可以 通过减少 维数 提高预测性能,尤其是当我们 处理非正则化 模型的时候。原创 2024-07-20 17:25:24 · 1591 阅读 · 0 评论 -
机器学习——数据预处理和特征工程(sklearn)
① 大多数机器学习算法中,会选择 StandardScaler 来进行 特征缩放,因为 MinMaxScaler 对异常值 非常敏感。MinMaxScaler 在不涉及距离 度量、梯度、协方差计算以及数据 需要被时使用广泛。② 在嵌入法下,我们 很容易就能够实现 特征选择的目标:减少计算量,提升模型表现。因此,比起要思考 很多统计量的 过滤法来说,嵌入法 可能是更有效的一种方法。然而,在 算法本身很复杂的时候,过滤法的 计算远远比嵌入法要快,所以大型数据中,我们还是会优先考虑过滤法。原创 2024-07-17 01:42:37 · 1807 阅读 · 0 评论 -
机器学习——随机森林(学习笔记)
集成学习 (ensemble learning) 是时下非常流行的 机器学习算法,它本身不是一个 单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上 所有的机器学习领域都可以 看到集成学习的 身影。在现在的 各种算法竞赛中,随机森林,梯度提升树(GBDT),Xgboost等集成算法的身影也随处可见,可见其效果之好,应用之广。集成算法目标:集成算法 会考虑 多个评估器的 建模结果,汇总之后 得到一个综合 的结果,以此来 获取比 单个模型更好的回归或分类表现。原创 2024-07-12 01:52:05 · 1156 阅读 · 0 评论 -
机器学习——决策树(笔记)
决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。原创 2024-07-11 01:37:09 · 1521 阅读 · 1 评论 -
全面了解机器学习
在当今的 科技时代,大量结构化 和 非结构化数据是我们的 丰富资源。机器学习在 20世纪 下半叶演变为 人工智能(Al)的 一个分支,它 通过 自学习算法 从数据中 获得知识来 进行预测。机器学习并不需要 事先对 大量数据进行 人工分析,然后 提取规则 并建立模型,而是 提供了一种更为 有效的方法 来捕获 数据中的 知识,逐步提高 预测模型的性能,以 完成数据驱动的决策。原创 2024-07-02 21:04:35 · 1380 阅读 · 0 评论