自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (1)
  • 收藏
  • 关注

原创 ComfyUI 文生图工作流

ComfyUI文生图基于Stable Diffusion技术,其核心是扩散模型的反向去噪过程。模型通过VAE将图像压缩到潜在空间进行高效计算,再通过UNet网络进行降噪处理。UNet采用U型结构,结合下采样捕捉语义和上采样还原细节,并通过跳跃连接保留精细特征。VAE通过变分自编码实现图像压缩与重建,确保潜在空间的连续性。CLIP文本编码器将文字提示转换为模型可理解的向量,指导图像生成过程。整个系统通过三个组件(CLIP、VAE、UNet)协同工作,实现从文本到高质量图像的转换。

2025-12-23 14:52:10 573

原创 朴素贝叶斯:从理论到实践

朴素贝叶斯方法概述 朴素贝叶斯是一种基于贝叶斯定理的分类方法,其核心思想是通过计算特征在各类别下的条件概率进行分类。该方法假设特征条件独立,即每个特征对分类结果的影响相互独立。通过学习联合概率分布P(X,Y),利用贝叶斯定理计算后验概率,将后验概率最大的类别作为预测结果。参数估计采用极大似然估计,并引入拉普拉斯平滑解决零概率问题。朴素贝叶斯作为生成模型,在文本分类等领域表现优异,具有简单高效的特点。代码实践部分展示了在鸢尾花数据集上的分类应用。

2025-09-21 18:19:13 831

原创 K近邻:从理论到实践

K近邻算法(KNN)是一种基于实例的监督学习方法,通过计算测试样本与训练集中最近k个邻居的距离来决定其类别。核心要素包括:距离度量(如欧氏、曼哈顿距离)、k值选择(平衡近似误差与估计误差)、以及加速搜索的kd树结构。KNN既可用于分类也可用于回归,其性能取决于合适的k值和高效搜索方法。在鸢尾花数据集分类实践中,通过标准化和不同参数组合(权重计算方式、搜索算法)可优化模型表现。该算法简单直观但计算复杂度高,适合低维数据场景。

2025-09-17 18:36:33 814

原创 聚类方法:从理论到实践

本文系统介绍了聚类分析的理论与实践方法,重点阐述了相似度与距离度量、类或簇的特征描述,以及两种典型聚类算法。首先详细讲解了闵可夫斯基距离(包括曼哈顿、欧氏和切比雪夫距离)、马氏距离和相关系数等基础概念。其次,定义了类中心、类直径、散布矩阵和协方差矩阵等描述类特征的指标。在算法层面,重点介绍了层次聚类(特别是聚合聚类)和K均值聚类,包括其核心思想、合并规则和优化目标(最小化簇内平方和)。全文为理解聚类分析提供了系统的理论基础和实用方法。

2025-09-15 10:51:19 643

原创 支持向量机:从理论到实践

本文系统介绍了支持向量机(SVM)的理论与实践。从线性可分SVM的基本概念、间隔最大化原理出发,详细推导了优化问题及其对偶形式。针对非线性可分数据,介绍了软间隔SVM和核方法,分析了常用核函数特性及选择策略。文章还探讨了SVM的扩展应用,包括支持向量回归(SVR)和多类分类方法。SVM通过结构风险最小化和核技巧,在小样本、高维数据分类中表现出色,其解具有稀疏性,仅依赖于少数支持向量。

2025-09-14 09:19:43 976 1

原创 Leetcode高频 SQL 50 题(进阶版)题目记录

SQL 高频题目摘要 本文记录了LeetCode SQL高频50题中的中等难度题目解法: 1398题:查询购买了产品A和B但未购买C的顾客。提供两种解法: 使用子查询和EXISTS/NOT EXISTS 使用条件聚合和JOIN 1112题:查找每位学生的最高成绩科目,成绩相同时选course_id较小的。使用窗口函数和分组查询实现。 1440题:计算布尔表达式的值。题目给出Variables表和Expressions表,要求根据变量值计算表达式结果。 所有题目均提供SQL实现方案,主要涉及子查询、聚合函数、

2025-09-13 13:07:35 921

原创 Leetcode高频 SQL 50 题(基础版)题目记录

本文记录了两道LeetCode SQL中等难度题目的解答: 570. 至少有5名直接下属的经理: 通过自连接Employee表,统计每个经理的直接下属数量,筛选出下属数≥5的经理。关键点:必须使用GROUP BY对经理ID分组,才能正确统计每个经理的下属数量。 1934. 确认率: 计算每个用户的确认率(confirmed消息数/总请求数)。使用LEFT JOIN确保未请求确认的用户显示0,并通过CASE语句和ROUND函数处理计算和四舍五入。结果包含所有注册用户,包括确认率为0的情况。 两道题目都涉及分组

2025-09-09 14:31:02 1097

原创 kaggle房价预测建模:Wrapper 特征选择与 LightGBM + TPE 超参数优化

本文介绍了Kaggle房价预测竞赛的完整解决方案,采用Wrapper特征选择与LightGBM+TPE超参数优化方法。首先对数据进行深入分析,包括缺失值处理(按街区填充中位数、零值填充等)和特征编码。然后通过Wrapper方法进行特征选择,基于LightGBM的K折交叉验证累积特征重要性得分,选取TopK重要特征。最后使用TPE算法优化LightGBM超参数,构建高性能预测模型。该方案实现了端到端的建模流程,可为结构化数据的回归问题提供参考。

2025-09-08 10:24:48 1016

原创 Leetcode高频 SQL 50 题(基础版)题目记录

本文记录了LeetCode SQL中等难度题目的解答过程,包含两题: 570. 至少有5名直接下属的经理:通过自连接Employee表,按经理ID分组统计下属数量,筛选出下属≥5的经理。关键点在于正确使用GROUP BY和HAVING子句。 1934. 确认率:使用CTE计算每个用户的确认请求总数和确认数,通过LEFT JOIN确保未请求用户确认率为0,并四舍五入到两位小数。 1193. 每月交易I(简要提及):需要按月和国家分组统计交易总数、批准交易数及对应金额总和。 解答均采用标准SQL语法,注重分组聚

2025-09-04 12:35:10 718

原创 QS世界大学排名数据可视化

在这份 QS 世界大学排名数据分析中,我们主要完成了以下几个步骤:首先对原始数据进行了清洗与标准化,包括将排名与分数字段统一转换为数值、剔除缺失或异常值,并构造出“排名变化”等衍生变量。随后,我们通过 GroupBy 聚合 与 相关性分析 探索了不同维度与总体得分之间的关系。在可视化方法上,我们结合了 Plotly Express 与 Graph Objects,绘制了柱状图、盒须图、发散色带条形图、地理热力图以及词云等多种图表,既用于展示分布和对比,也用于呈现时间维度的排名变化。为了保证可比性,我们多

2025-08-23 17:18:17 904

原创 pandas :从入门到进阶的系统实践笔记

本文系统介绍了如何使用 Python 的 pandas 库进行结构化数据处理,涵盖了从数据读取、检查、清洗到分组聚合等常见操作。首先,通过示例展示了如何创建和读写 DataFrame,并介绍了数据结构的基本操作。接着,详细讲解了数据载入后的检查与类型管理,确保数据正确性。随后,介绍了行列选取与条件过滤的多种方法,并提供了缺失值处理、去重和映射更新的实用技巧。最后,通过分组、聚合与交叉表的操作,展示了如何高效地进行数据统计与分析。文章通过代码示例和图表,帮助读者快速掌握 pandas 的核心功能,适用于数据分

2025-05-22 12:58:30 1080

原创 聚集索引 vs. 非聚集索引

聚集索引和非聚集索引是数据库中的两种重要索引类型,主要区别在于数据的存储方式和查询效率。聚集索引(如InnoDB的主键索引)将数据行按主键顺序物理存储,叶子节点包含完整行数据,查询时只需一次B+树遍历即可获取整行数据,效率较高。非聚集索引(如二级索引)的叶子节点仅存储索引列和主键值,查询时需先通过二级索引找到主键,再通过主键回表查询完整数据,效率较低。InnoDB支持聚集索引,而MyISAM仅支持非聚集索引。聚集索引适用于主键查找和顺序读取,非聚集索引适用于特定列的过滤和排序,尤其是在覆盖索引的情况下可以避

2025-05-17 09:13:02 968

原创 MYSQL 索引与数据结构笔记

MySQL 索引与数据结构笔记主要探讨了 B-Tree 和 B+ Tree 的差异及其在数据库中的应用。B-Tree 每个节点存储键和数据,适合单点查询,而 B+ Tree 非叶子节点仅存储键,数据集中在叶子节点,并通过链表连接,适合范围查询和减少磁盘 I/O。B+ Tree 的高扇出和低树高使其在数据库索引中表现更优,尤其适合大量数据和高并发读写场景。MySQL 的 InnoDB 存储引擎默认使用 B+ Tree 作为索引结构,因其能有效减少磁盘 I/O、优化范围查询并提高页面利用率。文章还通过示例展示了

2025-05-10 14:02:34 822

原创 MYSQL的多表连接查询以及视图

本文介绍了MySQL中的多表连接查询和视图操作,重点讲解了如何使用DDL语句修改表结构,包括将HIREDATE列的数据类型更改为DATE,以及如何设置EMPNO和DEPTNO为主键并添加外键约束。此外,文章还详细解释了如何使用聚合函数AVG()计算平均工资和提成,并探讨了NULL值在聚合计算中的处理方式,特别是通过COALESCE函数来处理NULL值,确保所有员工的数据都被纳入计算。这些操作有助于确保数据的完整性和一致性,并提高查询的灵活性。

2025-05-09 10:10:41 869

原创 MYSQL的DDL语言和单表查询

MySQL 是基于 SQL 标准构建的开源关系型数据库管理系统,它以轻量、性能优良和跨平台著称,广泛应用于 Web 后端、大数据处理及企业信息化等场景。MySQL 对 SQL 语法进行了兼容与扩展,提供事务支持、索引优化、视图、触发器和存储过程等功能,同时拥有主从复制、分区、集群和高可用架构,为不同规模的应用提供弹性的数据解决方案。借助严谨的 SQL 语言规范和 MySQL 丰富的实现机制,开发者能够以一致的接口完成复杂的数据模型设计与高并发读写操作,实现从原型到生产环境的顺畅迁移。

2025-05-06 16:53:49 976

原创 Markdown编辑器——Typora(Picgo+Github图床)

支持将本地图片快速上传到多种图床(如GitHub、七牛云、阿里云OSS等),并生成相应的URL,便于用户在博客、论坛等地方分享和引用图片。PicGo 提供简洁的用户界面和灵活的插件扩展系统,适合需要频繁上传图片的用户使用。然后点击右上角个人头像,进入Settings–>Developer settings–>Personal access tokens–>Tokens(classic),新生成一个token,并复制。设定仓库名:GitHub的用户名/新建的仓库名称。设定Token:刚刚创建的Token。

2025-01-06 11:36:44 1037

原创 免费好用的Markdown编辑器——MartText(Picgo+Giuhub)

拥有与Typora一样简洁的外观,近乎一致的功能,并且最重要的是,MarkText是开源免费的,可以算是目前Typora的最佳平替。

2024-08-30 13:55:02 1145

原创 集成学习之Boosting方法系列_CatBoost

集成学习是一种机器学习方法,通过将多个弱学习器(weak learners)组合成一个更强大的集成模型来提高预测性能和泛化能力。Boosting 是一种迭代的集成方法,它通过逐步调整训练数据的权重和/或模型的权重来训练多个弱学习器,以便每个弱学习器更关注先前被错误分类的样本。AdaBoost、Gradient Boosting 和 XGBoost 都是 Boosting 的变种。本文将介绍Boosting方法的其中一种:CatBoost。

2024-01-29 09:51:32 2074

原创 集成学习之Boosting方法系列_XGboost

集成学习是一种机器学习方法,通过将多个弱学习器(weak learners)组合成一个更强大的集成模型来提高预测性能和泛化能力。Boosting 是一种迭代的集成方法,它通过逐步调整训练数据的权重和/或模型的权重来训练多个弱学习器,以便每个弱学习器更关注先前被错误分类的样本。AdaBoost、Gradient Boosting 和 XGBoost 都是 Boosting 的变种。本文将介绍Boosting方法的其中一种:XGBoost。

2024-01-28 11:21:18 1620

原创 Kaggle竞赛系列_SpaceshipTitanic金牌方案分析_建模分析

Spaceship Titanic比赛,类似Titanic比赛,只是增加了更多的属性以及更大的数据量,仍是一个二分类问题。今天要分析的是一篇大神的解决方案,看完后觉得干货满满,由衷地敬佩他们对数据分析的细致程度,对比之下只觉得之前自己的分析仅仅是表面功夫,单纯靠着模型的强大能力去完成任务。看来以后还是得不断地向各位前辈大佬学习,完善自己的解决方案!!!项目代码 :Kaggle竞赛系列_SpaceshipTitanic比赛。

2024-01-28 10:40:47 1368 1

原创 Kaggle竞赛系列_SpaceshipTitanic金牌方案分析_数据处理

Spaceship Titanic比赛,类似Titanic比赛,只是增加了更多的属性以及更大的数据量,仍是一个二分类问题。今天要分析的是一篇大神的解决方案,看完后觉得干货满满,由衷地敬佩他们对数据分析的细致程度,对比之下只觉得之前自己的分析仅仅是表面功夫,单纯靠着模型的强大能力去完成任务。看来以后还是得不断地向各位前辈大佬学习,完善自己的解决方案!!!项目代码 :Kaggle竞赛系列_SpaceshipTitanic比赛。

2024-01-27 18:18:09 1439 1

原创 Kaggle竞赛系列_SpaceshipTitanic金牌方案分析_数据分析

Spaceship Titanic比赛,类似Titanic比赛,只是增加了更多的属性以及更大的数据量,仍是一个二分类问题。今天要分析的是一篇大神的解决方案,看完后觉得干货满满,由衷地敬佩他们对数据分析的细致程度,对比之下只觉得之前自己的分析仅仅是表面功夫,单纯靠着模型的强大能力去完成任务。看来以后还是得不断地向各位前辈大佬学习,完善自己的解决方案!!!项目代码 :Kaggle竞赛系列_SpaceshipTitanic比赛。

2024-01-27 16:08:48 2319 2

原创 Kaggle竞赛系列_SpaceshipTitanic比赛

Spaceship Titanic比赛,类似Titanic比赛,只是增加了更多的属性以及更大的数据量,仍是一个二分类问题。我使用的是基于LightGBM,结合交叉验证进行预测的单模方案,最终得分为0.79,有很多地方还可以改进,如果您愿意分享您宝贵的经验和知识,我将不胜感激。该比赛涉及数学建模、机器学习、随机森林、分类算法等多个领域,完整过一遍流程所获甚多。

2024-01-25 13:15:03 1918

原创 kaggle竞赛系列_特征筛选

Kaggle竞赛补充内容:特征筛选特征筛选(Feature Selection)是机器学习和数据分析中的一个重要步骤,其主要目的是从原始特征集合中选择最相关、最有价值的特征,以用于构建模型、提高模型性能或减少计算成本。特征选择的核心思想是从所有可用特征中筛选出对于解决问题最有用的特征,从而提高模型的泛化能力和效率。特征筛选是指从原始的特征集合中挑选出一个子集,以在构建机器学习模型时用于训练模型、提高模型性能或减少计算成本。

2024-01-24 12:44:05 1587

原创 集成学习之Boosting方法系列_LightGBM

集成学习是一种机器学习方法,通过将多个弱学习器(weak learners)组合成一个更强大的集成模型来提高预测性能和泛化能力。Boosting 是一种迭代的集成方法,它通过逐步调整训练数据的权重和/或模型的权重来训练多个弱学习器,以便每个弱学习器更关注先前被错误分类的样本。AdaBoost、Gradient Boosting 和 XGBoost 都是 Boosting 的变种。本文将介绍Boosting方法的其中一种:LightGBM。

2024-01-23 21:14:44 1626 1

原创 数学建模系列_随机森林

数学建模备赛内容62 随机森林模型基本原理_哔哩哔哩_bilibili什么是随机森林随机森林是一种集成学习方法,通过组合多个决策树来解决分类和回归问题。每棵树都是根据随机选择的训练数据和特征构建的,最终的预测结果是基于多个树的投票(分类问题)或平均(回归问题)得出的。随机森林具有良好的泛化能力、鲁棒性和高效性,适用于各种机器学习任务。本质属于集成学习方法、由多棵决策树组成,每棵决策树都是一个分类器,将多个分类器的结果进行投票。(1)具有极高的准确率(2)能够使用在大数据上(3)不需要降维。

2024-01-23 12:38:41 4290 1

原创 数学建模系列_决策树

数学建模备赛内容57 什么是决策树_哔哩哔哩_bilibili什么是决策树:决策树(Decision Tree)是一种常用于机器学习和数据挖掘领域的监督学习算法,它用于建立一个类似于树状结构的模型,用于进行分类和回归任务。决策树模型基于一系列的决策规则,每个规则都将数据集中的样本分割成不同的子集,直到最终达到某个决策或目标。在构建决策树模型时,算法会根据训练数据集中的特征和目标值来自动选择最优的分割点和规则,以最大程度地提高模型的预测性能。

2024-01-20 09:40:14 1926

原创 Kaggle竞赛系列_Titanic比赛

本菜鸡第一次尝试此类比赛,踩了很多坑,也有很多地方还可以改进,最终得分也只有0.76,如果您愿意分享您宝贵的经验和知识,我将不胜感激。“Titanic - Machine Learning from Disaster” 是 Kaggle 平台上的一个知名比赛,参与者需使用机器学习模型预测哪些乘客在泰坦尼克号沉船事故中幸存。比赛提供了包含各种特征的乘客数据,如性别、年龄、舱位等。参赛作品将根据预测幸存结果的准确性进行评估。

2024-01-19 16:37:56 899 1

原创 UCI数据集准备方式

下载完成后会得到一个包含4个文件的压缩包,我们主要对iris.data进行处理。整理好的Iris数据集。

2023-11-21 08:49:20 454 1

原创 最优化方法 线性方程组求解

已知向量,矩阵,线性方程组,其中:编写代码,通过高斯消元法求解,并验证解的准确性。

2023-10-10 12:23:39 1130 1

原创 模式识别——统计决策方法——正态分布时的统计决策

px12πd2∣∑∣12exp−12x−μT∑−1x−μ其中μEx∑Ex−μx−μT其中px2π2d​∣∑∣21​1​exp−21​x−μT∑−1x−μ)}其中μEx∑E{(x−μx−μT。

2023-10-08 17:58:48 620 1

原创 模式识别——统计决策方法——Neyman-Pearson决策规则

如果与最小错误率决策规则相对比,可以看出Neyman-Pearson决策规则也是以似然比为基础的,但两者所使用的阈值不同。作决策,则很可能使实际的决策效果有较大的错误率或较大风险。能否在这种情况下,找到一种合适的分类器设计,使其最大可能的风险为最小。换句话说,如果先验概率值在教大范围内变化,就可能产生的最大风险而是最小的。​ 之前讨论的最小错误率或最小风险决策方法都是在先验概率已知的条件下进行的,先验概率的数值对决策有很密切的关系。,而Neyman-Pearson是由方程组的解获得的一个常数入。

2023-10-06 20:47:47 1067 1

原创 模式识别——统计决策方法——最小风险贝叶斯决策

​ 现在再回到猜硬币的那个简单的例子上来。前面给出的是在最小错误率的原则下得到的决策规则,但是,根据具体的场合不同,我们应关心的有可能并不仅仅是错误率,而是错误所带来的损失:毕竞,把一角误认为是五角与把五角误认为是一角所带来的损失是不同的。​ 同样,在癌细胞识别的例子中,我们不但应该关心所作的决策是否错误,更应该关心决策错误所带来的损失惑风险。比如,如果把正常细胞误判为癌细胞,会给病人带来精神上的负担和不必要的进一步检查,这是一种损失;

2023-09-30 12:21:46 1776

原创 模式识别——统计决策方法——最小错误率贝叶斯决策

​ 从图2-2可以看到,这种决策实际的分界线是图中的虚线位置,如果样本x落在分界线左侧则归为第一类,落在右侧则归为第二类。从最小错误率的要求出发,利用概率论中的贝叶斯公式,就能得出使错误率最小的分类决策,称之为最小错误率贝叶斯决策。把硬币的重量仍记为x,与上面所述的决策过程类似,现在应该考查在已知这枚硬币重量为x情况下硬币属于各类的概率,对两类硬币分别记作。则是x的分布概率,将这两个式子相乘积分得到就是所有样本的平均错误率。是对单个样本x的决策总体错误率,包括将正类x决策为负类,将负类x决策为正类,而。

2023-09-30 12:21:11 2229

原创 脑与认知科学-实验一-认知科学实验设计

观察下面的三组有色文字,请说出每个词语显示出来的颜色​ 第一组:如果文字的意义与显示的字体颜色相同,例如绿色颜色的“绿色”二字,那么说出显示文字的颜色的名称比较容易且迅速,反应时RT会很短。​ 第二组:如果文字是以红色这一颜色显示,而文字是“绿色”二字,那么反应时RT会变长,且辨识很容易出错。​ 第三组:如果文字的意义与显示的字体颜色没有关系,例如老鼠等词语,那么说出显示文字的颜色的名称比第二组容易且迅速,RT比第二组短。​ 斯特鲁普效应展示了人们对事物的认知过程是一个自动化的过程。

2023-09-27 19:44:45 1189 2

原创 novelai本地部署指南

自动安装过程中可能会出现网络问题,一般来说多重新运行几遍webui-user.bat就可以解决问题,或者翻墙再试几次。如果手动添加环境,则在“此电脑”右键,选择”属性“,进入系统信息,选择“高级系统设置”, 进入“环境变量”新建环境变量,将python的文件夹和scripts的地址输入进去,并将这两个环境变上移到顶部。进入控制台,输入python,若弹出以下界面,则安装成功。在安装时选择add to path,将其添加到环境变量。进入控制台,输入git,若弹出以下界面,则安装成功。详细步骤可以参考该文章。

2023-02-25 18:04:21 1184 2

Python爬虫第二课:Request.md

Python爬虫第二课:Request.md

2022-07-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除