- 博客(182)
- 收藏
- 关注
原创 pandas__unstack方法与set_index详解
pandas__unstack方法与set_index详解,多层次索引从索引转换成列名,也可将列名转换成多层次索引
2025-11-10 23:00:53
414
原创 scikit-learn 数据预处理方法详解
本文介绍了机器学习数据预处理中两个关键方法:数据划分和特征缩放。首先详细讲解了train_test_split()函数的使用,包括参数说明(如test_size、random_state等)和典型应用场景,演示了如何将数据集划分为训练集和测试集。其次重点阐述了StandardScaler标准化方法,解析了其参数配置、核心方法(fit/transform等)和工作流程,并比较了标准化与归一化的区别。文章通过实例代码展示了这两种方法的实践应用,强调标准化时应保持训练集和测试集的一致性。
2025-11-09 04:45:00
1291
原创 numpy___数组/图像形状改变(transpose和reshape详解)
numpy 与图像数组的形状与形状改变,shape、transpose详解
2025-11-06 21:23:39
287
原创 线性代数——矩阵、向量详解
矩阵是线性代数的核心概念,广泛应用于数学、物理、计算机科学和工程等领域。本文介绍了矩阵的基本概念和操作: 基本概念:矩阵是由数字排列成的二维表格,包含行向量、列向量、方阵、零矩阵、单位矩阵等特殊类型。矩阵元素的位置由行和列索引确定。 基本操作: 加减法:仅适用于同维度矩阵,对应元素相加减 数乘:标量与矩阵每个元素相乘 乘法:满足特定维数要求,计算涉及点积运算 转置:行列互换,产生新矩阵 逆矩阵:仅方阵可能有逆,满足乘积为单位矩阵 矩阵运算具有独特性质,如乘法不满足交换律,转置运算顺序颠倒等。这些基本概念和操
2025-11-06 21:22:46
1232
原创 统计数学---数据归一化(Data Normalization)
数据归一化是将不同特征的数值范围缩放至统一区间(如[0,1]或[-1,1])的预处理技术。其核心作用是加快梯度下降收敛速度、保证距离度量的公平性和提升模型精度。常用的Min-Max归一化公式为(X-Xmin)/(Xmax-Xmin),但对异常值敏感。Python中可使用sklearn的MinMaxScaler实现,通过fit计算统计量、transform进行转换,并支持自定义缩放范围。归一化特别适用于基于距离计算或梯度下降的模型,能显著提高模型性能和稳定性。
2025-11-01 16:06:45
740
原创 PIL (Python Imaging Library) 相关方法详解1
Python图像处理库Pillow(PIL)功能摘要: Pillow是Python最常用的图像处理库,提供全面的图像操作功能: 核心功能:打开/保存图像、获取属性、转换模式、调整大小、旋转裁剪等 图像处理:滤镜(模糊、锐化等)、增强(亮度/对比度/色彩调整) 绘图功能:绘制点线面、文字、几何图形 实用方法:图像混合、格式转换、与numpy数组互转 高级特性:仿射变换、直方图统计、通道分割合并 所有操作均返回新图像对象,保持原始图像不变(缩略图等少数方法除外)。支持多种图像格式(JPEG/PNG等)和颜色模式
2025-10-31 22:56:19
827
原创 图像概念详解 以及 PIL/Pillow 详解
图像核心概念与放大原理解析 本文系统阐述了数字图像的基础概念及其应用原理。首先详细解释了像素、图像尺寸、分辨率(PPI/DPI)和色彩深度等核心概念,分析了它们对图像质量和物理尺寸的影响。特别对比了不同设备PPI下相同像素图片的实际显示尺寸差异。第二部分深入剖析了图像实际放大与滚轮放大的本质区别:实际放大通过插值算法(NEAREST、BILINEAR等)创造新像素,导致总像素增加但细节模糊;而滚轮放大仅改变显示比例,不增加实际像素。文章通过示例量化了放大过程中的像素变化,并比较了各插值算法的视觉效果差异,揭
2025-10-31 20:50:12
772
原创 回归/分类问题——相关误差指标数学概念详解以及sklearn.metrics相关方法
回归分析关键指标摘要 本文介绍了回归分析中的核心评价指标: SST(总平方和):衡量目标变量自身波动程度,以均值为基准 SSR/RSS(残差平方和):模型预测值与真实值的误差平方和 SSE(解释平方和):模型解释的预测值与均值差异部分 MSE(均方误差):SSR的均值形式,用于训练集(参数优化)和测试集(性能评估) R²(决定系数):核心评估指标,反映模型相比基线模型(使用均值预测)的改进程度,取值在(-∞,1]: 1表示完美拟合 0表示等同于基线 负值表示比基线更差 特别强调R²在测试集的应用价值,以及负
2025-10-30 22:46:34
541
原创 线性回归(Linear Regression)与 scikit-learn线性回归函数详解
线性回归是一种通过线性方程描述自变量与因变量关系的统计方法。其核心公式为y=β₀+β₁x₁+...+βₙxₙ+ε,通过最小化均方误差(MSE)来求解参数β。模型参数包括权重系数和截距项,评价指标常用MSE、RMSE、MAE和R²。参数求解可采用最小二乘法或梯度下降法。在scikit-learn中,LinearRegression类实现了最小二乘线性回归,重要参数包括fit_intercept、copy_X等,训练后可通过coef_和intercept_获取模型参数,核心方法包括fit()、predict()
2025-10-30 21:49:04
1163
原创 统计数学---数据标准化(Data Standardization)
数据标准化是一种将数据转换为均值为0、标准差为1的线性处理方法。其核心是计算z-score:(x-μ)/σ,能够消除单位和量纲影响,使不同变量具有可比性。标准化可提高机器学习模型性能、辅助异常检测(|z|>3为异常值)和统计推断。具体步骤包括计算均值、标准差,再对每个数据点应用z-score公式。示例显示,原始数据[10,50]经标准化后变为[-1.26,1.26],实现了标准正态分布。这种处理在数据分析和建模中具有重要作用。
2025-10-26 03:30:00
871
原创 pandas 和 numpy相关函数详解
np.where方法,se/df.vale_counts方法,pd.cut方法,df.groupby方法详解
2025-10-25 15:59:52
1143
原创 ETCD --- 角色(Role)、用户(User) 和 权限(Permission)与认证开启详解
ETCD --- 角色(Role)、用户(User) 和 权限(Permission)与认证开启详解
2025-03-26 19:20:28
424
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅