摆烂咸鱼～-优快云博客

原创机器学习（11）

集成学习通过组合多个模型提升预测性能，主要包括Bagging、Boosting、Stacking和Voting四种策略。Bagging（如随机森林）通过有放回采样训练多个模型并投票；Boosting（如AdaBoost）则迭代关注错误样本；Stacking将多个模型输出作为新特征进行二次学习；Voting通过多数表决或概率平均合成结果。随机森林和Extra-Trees在决策树基础上增加随机性，而Gradient Boosting通过残差优化逐步改进模型。集成学习能有效降低方差/偏差，但计算成本较高，需根据任

2026-01-07 23:04:43 698

原创机器学习（10）

本文对比了判别式模型和生成式模型的特点：判别式模型直接建模条件概率P(y|x)，关注类别边界；生成式模型则建模联合概率P(x,y)，能生成新样本。重点介绍了朴素贝叶斯分类器，其基于贝叶斯定理，假设特征条件独立，包括高斯、多项式、伯努利等多种变体。文章通过文本分类案例展示了多项式朴素贝叶斯的应用，并分析了其优缺点：优点是简单高效、适合多分类，缺点是独立性假设不现实、零概率问题。最后指出其适用于文本分类、情感分析等场景。

2026-01-05 17:37:05 962

原创机器学习（9-1）

支持向量机（SVM）是一种强大的监督学习算法，通过寻找最优超平面实现分类和回归任务。其核心思想是最大化间隔（margin），即离两类最近点的距离。SVM分为硬间隔（完全线性可分）和软间隔（允许少量错误），通过核技巧处理非线性问题（如高斯核、多项式核）。SVM适用于小样本、非线性数据，具有良好泛化能力，但存在核函数选择困难、内存需求大等缺点。在回归任务中（SVR），通过调整容忍误差参数（epsilon）实现预测。

2026-01-04 18:37:48 1344

原创机器学习（9-2）

本文介绍了SVM分类的实现方法。首先演示了线性SVM分类，包括决策边界和margin的可视化，并展示了不同C值对分类结果的影响。然后探讨了多分类问题，使用OVR方法处理Iris数据集。针对非线性分类问题，提出了两种解决方案：通过多项式特征转换和核函数（多项式核与高斯核）方法。最后分析了高斯核函数中gamma参数对模型的影响，gamma值过大会导致过拟合。文中提供了完整的Python实现代码，涵盖了从数据准备到模型评估的全过程。

2026-01-04 18:36:44 389

原创机器学习（8-1）

神经网络通过类比选举投票机制解释其工作原理：输入特征如选民信息，神经元如评委，权重和偏置反映评委偏好，激活函数决定投票结果。不同激活函数（Sigmoid、Tanh、ReLU等）具有特定用途和优缺点，选择需谨慎。网络通过正向传播计算预测值，反向传播调整参数优化模型。梯度下降算法需合理设置步长和初始值，并注意梯度消失/爆炸问题。神经网络优势在于处理复杂任务和大规模数据，但存在训练难度大、黑盒特性等缺点，适用于无需解释、结果导向的大数据场景。

2025-12-30 20:06:08 629

原创机器学习（8-2）

本文展示了神经网络的基础实现与应用。首先通过线性回归示例演示了使用MLPRegressor进行简单拟合，并手动实现了反向传播权重更新过程。接着探讨了模型选择的关键因素：效果、速度、算力需求和可解释性，通过鸢尾花和手写体数据集比较了KNN、决策树和逻辑回归的性能。最后尝试用单层神经网络处理手写体识别，但效果不佳，提示需要进一步调参优化。全文涵盖了从基础实现到实际应用的神经网络关键知识点，为初学者提供了实践参考。

2025-12-30 19:41:02 362

原创机器学习（7）

特征选择、节点分裂（使用二叉树还是多叉树）、阈值确定。基尼系数 = 从节点里随机抽两个样本，它们类别不一样的概率。条件熵：在已知一个变量后，另一个变量还剩多少不确定性？联合熵：两个随机变量放在一起，有多不确定？信息增益：一个特征能给分类系统带来多少信息。熵：分布的混乱程度或分布程度。相对熵 = 交叉熵-信息熵。

2025-12-29 17:05:22 544

原创机器学习（6-2）

机器学习算法对于新鲜样本的适应能力（比如使用美颜照片训练模型，当面对无美颜的照片时能否测试准确）在不同分类阈值(thresholds)下，观察“预测为正的质量”和“找全正样本能力”之间的权衡。AUC 衡量的是：随机抽一个正样本和一个负样本，模型把正样本排在前面的概率。参数变小但不为 0（所有特征都保留，只是权重变小）所有真正的正样本中，被模型抓住了多少，Recall。（所有真实负样本中，被误判成正的比例）用约束换稳定，降低方差，防止过拟合。：预测为正的里面，有多少是真的。：真正的正样本，被找回了多少。

2025-12-27 19:44:34 878

原创机器学习（6-1）

本文系统介绍了机器学习中的核心概念与实战应用。主要内容包括：1）损失函数类型（平方损失、对数损失、交叉熵等）及其数学表达；2）梯度下降优化算法原理及实现细节；3）决策边界的定义与可视化方法，通过sklearn实现二分类和多分类案例；4）过拟合/欠拟合问题分析，展示多项式回归从欠拟合到过拟合的全过程；5）学习曲线的绘制与解读方法；6）交叉验证技术及其在超参数调优中的应用。文章采用理论讲解与代码实现相结合的方式，使用Python和sklearn库演示了机器学习模型的完整开发流程。

2025-12-26 21:41:39 837

原创机器学习（5-2）

当真值y=1时，若p(预测的概率)越小，误差越大，反之越小。sigmod函数（激活函数）：把线性分布变换为非线性分布。逻辑回归是一个做「分类」的模型，而不是回归模型。当真值y=0时，若p越大，误差越大，反之越小。4、计算量小，内存低，可在线学。2、随机梯度下降快速训练。1、指数选择不当易过拟合。2、特征空间大时性能不好。3、容易欠拟合准确率不高。5、解决过拟合方法较多。1、处理不好特征间相关。1、对异常值非常敏感。

2025-12-25 20:08:29 664

原创机器学习（5-1）

直接将读取的数据转化为numpy的二维数组格式，并使用中位数填充缺失值。，需要 reshape 成。

2025-12-25 19:55:04 767

原创机器学习（4）

收入的数值过大，而年龄的数值过小导致年龄几乎不起作用，算法其实只在“看收入”，这样很不公平。举例：年龄（age:0 ~ 100岁），年收入（income:0 ～ 100000）或者取这 K 个样本的平均值（回归）：把原始数据按比例线性映射到一个。新样本就被分到那一类（分类）的监督学习算法，常用于。当使用欧氏距离计算时，

2025-12-24 21:54:21 1248

原创 JMeter工具的使用（2）

原始文本： 021-1234-1234 022-1234-1235 023-1234-1236 024-1234-1237 025-1234-1238 026-1234-1239 027-1234-1230。该控制器下的取样器都会被执行一次或多次，每次读取不同的变量值。：添加方式：测试计划 --> 线程组--> HTTP请求 --> (右键添加) 后置处理器 --> XPath提取器。：添加方式：测试计划 --> 线程组--> HTTP请求 --> (右键添加) 后置处理器 --> JSON提取器。

2025-12-23 22:16:16 673

原创机器学习（3-2）

对数组进行部分排序，指定一个索引位置，将该位置的元素作为分界点，前面的元素是数组中最小的几个元素，后面的元素保留原有顺序。: 计算数组的中位数，即将数组排序后中间位置的元素（如果元素个数是偶数，取中间两个元素的平均值。: 计算数组元素的方差，表示元素值与均值的偏离程度。: 计算数组的累积和，即每个元素与之前所有元素的和。: 计算数组元素的范围，即最大值与最小值之间的差。: 计算数组元素的标准差，衡量元素值的分散程度。: 对数组中的元素进行升序排序，改变原数组。: 计算数组的平均值（算术平均数）。

2025-12-23 17:36:44 759

原创 JMeter工具的使用（1）

JMeter是Apache组织开发的基于Java的开源软件，用于对系统做功能测试和性能测试。它最初被设计用于Web应用测试，但后来扩展到其他测试领域，例如静态文件、Java 程序、shell 脚本、数据库、FTP、 Mail等。作用：定义全局变量位置：测试计划 --> 线程组--> 配置元件 --> 用户定义的变量要求：使用用户定义的变量配置被测系统的协议、域名和端口。

2025-12-22 22:55:57 657

原创机器学习（3-1）

点击单元格 ---> 按M（进入Markdown模式，按Y进入Code模式）----> 执行（shift + enter）concatenate()方法：使用该方法要保证合并的数组的维度是相同的，默认垂直方向上的合并。问题：数组x是由 1-n 数字组成，求数组x中所有数的平方之和（n自定义）concatenate()实现hstack()方法的功能。vstack()方法：实现竖直方向的合并。hstack()方法：实现水平方向的合并。

2025-12-22 20:42:22 871

原创机器学习（2）

本文介绍了机器学习的基本概念和主要任务。数据集由样本、特征和类别标签组成，如IRIS鸢尾花数据集包含150个样本，每个样本有4个特征和3个类别。机器学习任务主要包括分类（二分类、多分类、多标签分类）和回归。根据学习方式可分为监督学习（分类/回归）、无监督学习（聚类/降维/关联规则）、半监督学习和强化学习。数据可分为结构化（表格数据）和非结构化数据（图像/文本等）。文章还讨论了批量学习与在线学习的区别，以及机器学习中模型泛化、数据质量、可解释性等常见问题。

2025-12-21 17:25:59 613

原创机器学习（1）

计算机从数据中学习规律并改善自身进行预测的过程数据：图片、文本、表格........举例：存在一个区分苹果是好是坏的任务，我们从市场上随机选取一些苹果，记住它们的特征（大小，形状，颜色，产地，含糖量.....），给这些苹果打个标签（好/坏）或者打个分数（7分/8分...），我们目的就是找到规律（即模型，比如我们含糖量高的苹果往往打分比较高），我们要怎么学习并且改善这个规律（使用损失函数，优化算法），预测就是给你一个苹果你使用这个发现的规律来给这个苹果打分或者打标签。

2025-12-21 15:47:43 419

原创 Ego微商小程序------总结版（长文警告❗❗）

摘要：本文介绍了基于微信平台的"Ego微商"小程序开发项目，该应用专注于特色食品线上零售。项目采用LAMP(Linux+Apache+MySQL+PHP)架构部署，详细记录了从环境搭建到代码部署的全过程，包括CentOS7环境配置、PHP7.0安装、MySQL数据库初始化、Apache虚拟主机配置等关键步骤。同时阐述了测试流程，包含需求分析、测试计划制定、用例设计及缺陷跟踪管理。项目实现了通过微信小程序提供轻量级C2C/B2C销售渠道，提升特色食品影响力并满足全国消费者的需求。

2025-12-20 21:31:08 1352

原创 Ego微商小程序----接口测试（2）

本文介绍了商品和订单接口的自动化测试实现。通过Python代码分别封装了商品API（获取分类、商品列表、商品详情）和订单API（获取订单列表、创建订单、查看订单详情）的接口请求，并使用unittest框架编写测试用例进行验证。测试过程中遇到权限问题，发现是未正确获取token导致，通过在请求头中添加token成功解决。相比测试工具，代码测试虽然编写量较大但更灵活高效，适合具备编程能力的测试人员。文章展示了完整的接口测试代码实现流程和问题解决方法。

2025-12-20 20:02:08 665

原创 Ego微商小程序----接口测试（1）

响应状态码：2xx成功，3xx重定向，4xx客户端错误（401无权限，403拒绝进入，404找不到），5xx服务器错误。：通过接口测试，可以及早发现系统集成中的问题，确保在各个模块之间数据的顺利传递，降低因集成问题导致的故障率。：通过接口测试，可以检查接口的安全性，例如验证身份认证、授权和数据加密等，确保系统不易受到攻击。：接口测试可以验证各个组件之间的数据交换是否符合预期，确保它们按照规定的功能正常工作。响应数据：服务器返回数据（json，xml，html）如果在断言中，用到了环境变量中的参数值，通过。

2025-12-19 23:21:01 782

原创 Ego微商小程序实战——用例编写

本文摘要主要围绕Xmind和Excel测试用例编写的要点展开。Xmind部分重点关注主页标签区UI与功能验证、购物车库存边界测试（如加减数量逻辑）以及分类模块的用例设计问题；Excel用例编写则聚焦主页功能、标签区和业务流程的测试覆盖。文章特别指出购物车超库存添加的缺陷和边界值用例设计的混乱问题，强调需要完善数量变化的边界测试（如加1、减1、减至1等场景）。整体呈现了功能测试中的界面操作验证和边界值分析思路。

2025-12-18 20:28:21 292

原创 Ego微商小程序部署问题记录

摘要：本文总结了虚拟机部署小程序时遇到的常见问题及解决方法。主要包括：1）关闭防火墙解决访问问题；2）Apache返回404错误的排查步骤，涉及vhost配置检查、文件路径确认及语法验证；3）调试基础库版本问题导致的JS异常；4）代理设置不当引发的502错误。通过系统检查配置文件和重启服务，最终成功部署小程序。

2025-12-17 16:18:45 592

m0_65179959的博客