毛飞龙-优快云博客

原创 Excel迷你图：在单元格中嵌入趋势洞察

摘要：Excel迷你图（Sparklines）是一种高效的数据趋势可视化工具，能在单元格内以折线、柱状或盈亏形式直观展示数据变化。它适用于财务日报、运营监控、科研数据初筛等场景，帮助用户快速识别趋势模式。创建时需准备连续数据，通过插入功能生成，并可自定义标记点和样式。使用注意事项包括统一纵轴尺度、对齐数据、处理缺失值、避免过度使用等。迷你图自Excel2010起支持，虽不显示细节但能显著提升数据洞察效率，是报表制作的实用工具。

2025-12-01 21:29:04 730

转载【阿里云大模型培训】通过优化提示词来提升回答质量

摘要：本文系统介绍了提示词工程（Prompt Engineering）的核心技巧与框架，旨在通过优化与大语言模型（LLM）的交互方式提升输出质量。主要内容包括：提示词技巧：直接提问：简洁、具体地表达需求（如区分“苹果”指水果或电子设备）。增加示例：通过少样本提示（Few-Shot Prompting）引导模型理解任务规范（如情感分析）。分配角色：赋予模型特定身份（如“营养师”“小学生”）以生成角色化回答。限定风格/格式：明确输出类型（诗歌、论文）或格式（JSON、表格）。

2025-08-17 11:38:01 153

原创深度学习中的三种Embedding技术详解

本文系统介绍了三种深度学习中常用的Embedding方法及其适用场景。针对ID类特征，标准Embedding适合中低基数特征，而IdHashEmbedding采用哈希压缩处理高基数特征；数值型特征则推荐使用RawEmbedding线性变换。三种方法在内存消耗、处理未见特征能力和表达能力上各具特点，需要根据特征类型、基数大小和内存限制进行选择。实践建议高基数ID特征用IdHashEmbedding，中低基数ID特征用标准Embedding，连续数值特征用RawEmbedding，以平衡模型效果与计算效率

2025-08-03 22:06:08 1494

原创神经网络模型训练需要的内存大小计算方法

深度学习模型训练时的内存估算主要考虑输入数据、参数、激活值、梯度和优化器状态五个部分。以32位浮点数为例，每个参数占4字节。针对两层的全连接网络（输入n=1000，隐藏层m=512，输出k=10，batch=256），总内存≈输入数据(1MB)+参数(2.07MB)+激活值(0.53MB)+梯度(2.07MB)+Adam优化器状态(4.14MB)≈9.8MB。其中优化器状态占比最大（约参数的3倍），实际应用中还需考虑混合精度训练、激活压缩等技术来降低内存消耗。

2025-07-27 22:37:53 518

原创 Python类（class）参数self的理解

Python类中的self参数代表类的实例本身，用于访问实例属性和方法。在定义方法时需将self作为第一个参数，通过self.xxx访问实例变量。self机制确保每个实例拥有独立的数据，是Python面向对象编程的核心概念。调用方法时，Python会自动传入self参数，无需手动传递。是否将某个实例参数保存为 self.xxx，取决于你是否希望在类的其他方法中访问它。

2025-07-27 15:59:58 1156

原创使用Miniforge构建数据科学环境

本文介绍了使用miniforge构建数据科学环境的方法

2024-12-22 00:04:21 3692

原创 Mac/Linux系统matplotlib中文支持问题

matplotlib是python中最常用的数据可视化分析工具，Mac和Linux系统无中文字体，不支持中文显示（希望后续可以改进），需要进行字体的下载和设置才能解决。笔者经过实践，发现Mac系统和Linux系统解决方案略有区别，因此分别记录一下，供读者参考。

2024-08-27 13:47:42 1586 1

原创使用miniconda构建数据科学环境

数据科学中，不同时期项目代码往往是由不同的版本的python和第三方数据科学包构建，这些不同版本往往会存在兼容性问题，要运行这些代码，需要管理不同的版本的安装包。Conda是一个开源的包管理和环境管理系统，环境管理允许用户创建不同的独立的虚拟环境，可以在其中安装不同版本的python和包，而且支持方便快速地切换虚拟环境anaconda和miniconda都集成了conda，二者的区别是anaconda预安装了300多个常用的数据科学包，安装包非常大（安装需要4～5G空间），有图形化界面，比较适合新手使用。

2024-08-25 21:53:57 1412

原创深度学习中embedding层的理解

在深度学习领域中，Embedding层扮演着至关重要的角色，尤其在处理文本数据或类别数据。Embedding层的功能有两个：1. 将高维稀疏的输入数据（如单词、类别标签等）转换为低维稠密的向量表示，可以大幅降低数据存储和计算量。2. 低维稠密向量捕获了输入之间的语义和上下文信息，语义相近、类别相近的单词或者类别，其表示向量相似度也高，使得模型能够更好地理解数据信息并进行预测推理。上述两个原因，使得模型能够更好的学习和处理输入数据。

2024-06-10 09:50:18 2824 6

原创深度学习模型断点调试

IDE可以帮助开发者高效地进行代码调试，例如，IDE提供了设置断点的功能，可以在代码运行到特定位置时暂停，以便开发者检查变量值、内存使用情况等信息，理解代码的运行逻辑，更快地定位和修复问题。本文介绍了深度学习模型IDE debug设置方法，深度学习模型涉及到多个python文件，同时，模型参数采用命令行传参的方式，这种情况的debug方式和单个文件有所不同。

2024-04-26 11:11:24 849

原创 Google 开源运筹工具OR-Tools安装和使用

OR-Tools简介、安装和用法示例，用法示例为一个线性规划问题

2024-03-22 08:51:54 4551

原创图及谱聚类商圈聚类中的应用

对某些业务应用，需要将几个到十几个商圈划成一片，按商圈片进行运营，本文介绍了一种使用谱聚类对商圈进行聚类的方法

2023-11-05 22:57:21 704

原创深度学习-tensorflow 使用keras进行深度神经网络训练

深度学习网络的训练可能会很慢、也可能无法收敛，本文介绍使用keras进行深度神经网络训练的加速技巧，包括解决梯度消失和爆炸问题的策略（参数初始化策略、激活函数策略、批量归一化、梯度裁剪）、重用预训练层方法、更快的优化器算法，以及学习率的调度策略。

2023-05-03 11:43:53 2851

原创深度学习-Tensorflow Keras使用函数式API构建复杂模型

在深度学习中，并非所有的网络结构都是顺序神经网络，还存在非顺序神经网络，比如有多个输入或者输出的网络，比较典型的是“Wide&Deep”网络（Heng-Tze Cheng et al.,Wide & Deep Learning for Recommender Systems）, 此时就需要使用函数式API来构建复杂的网络了。

2023-04-09 17:58:17 610

原创深度学习-Tensorflow使用Keras进行模型训练

本文以FasionMNIST/加州房价数据集为例，介绍KerasAPI进行分类问题/回归问题模型训练的方法

2023-03-19 11:17:24 3250 1

原创机器学习-集成学习（模型融合）方法概述

模型融合方法广泛应用于机器学习中，其原因在于，将多个学习器进行融合预测，能够取得比单个学习器更好的效果，实现“三个臭皮匠，顶一个诸葛亮”，其原因在于通过模型融合，能够降低预测的偏差和方差。本文对模型融合中常见的三种方法进行一个简要介绍：包括Bagging、Boosting、Stacking.........

2022-08-13 11:09:31 3600

原创李沐：机器学习者进阶学习建议

MCU计算机博士、亚马逊首席科学家、B站《动手深度学习》课程讲师沐神对机器学习者进阶学习的建议

2022-08-07 16:32:13 607

原创机器学习在竞赛和工业界应用区别

机器学习在竞赛和工业界应用是有很大区别的，竞赛通常关注极致的评价指标，而工业应用会在满足应用标准的前提下，会更加关注模型的稳定性、可解释性和领域专家知识的应用

2022-07-24 16:31:23 521

原创 Python数据分析操作-时间序列

本文为python时间数据处理方法笔记，分享工作中实用的时间数据处理方法，后续持续更新

2022-07-09 12:09:25 746

原创 Linux系统下使用kaggle API下载竞赛数据

在参加Kaggle竞赛或者学习训练时，需要将数据下载到本地或者服务器上。Kaggle提供了2种下载方法，一种是普通的web下载，一般本地的windows/mac系统建议采用这种方法，另外一种是kaggle API下载方法，建议在Linux服务器上使用。......

2022-06-06 08:54:48 2725

原创三步在MacOS Anaconda安装ligthGBM

三步在MacOS Anaconda安装ligthGBM

2022-01-03 17:40:46 3017 2

原创机器学习-集成学习-提升树-LightGBM

GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型，该模型具有训练效果好、不易过拟合等优点。在各种数据挖掘竞赛中也是致命武器，据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。而LightGBM（Light Gradient Boosting Machine）是一个实现GBDT算法的框架，支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点

2022-01-02 12:30:52 466

原创机器学习-集成学习-提升树-Xgboost

xgboost 的全称是eXtreme Gradient Boosting，由华盛顿大学的陈天奇博士提出，在Kaggle的希格斯子信号识别竞赛中使用，因其出众的效率与较高的预测准确度而引起了广泛的关注。GBDT算法只利用了一阶的导数信息，xgboost对损失函数做了二阶的泰勒展开，并在目标函数之外加入了正则项对整体求最优解，用以权衡目标函数的下降和模型的复杂程度，避免过拟合。所以不考虑细节方面，两者最大的不同就是目标函数的定义，接下来就着重从xgboost的目标函数定义上来进行介绍。

2022-01-02 11:47:41 793

原创机器学习-集成学习-梯度提升决策树（GBDT）

提升树（Boosting Tree）是以分类树或者回归树位基本分类器到提升方法，提升树被认为是统计学习中性能最好的方法之一Boosting方法训练基分类器时采用串行的方式，各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加，每一层在训练的时候，对前一层基分类器分错的样本，给予更高的权重（Ada Boosting），或者让新的预测器对前一个预测器到残差进行拟合（GBDT）。预测时，根据各层分类器的结果的加权得到最终结果。

2022-01-01 21:34:03 4387 1

原创机器学习-集成学习：随机森林（Random Forest）

内容参考：https://github.com/NLP-LOVE/ML-NLP/tree/master/Machine%20Learning/3.1%20Random%20Forest略做修改0.集成学习如果你随机向几千专家询问一个复杂的问题，然后汇总他们的回答，在许多情况下，你会发现，这个汇总的答案比最好的那个专家回答得要好。同样，如果你聚合一组预测器（比如分类器或者回归器）的预测，得到的预测结果也比最好的单个预测器要好，这种聚合一组预测器来进行预测的方法，称为集成学习。例如..

2021-12-27 20:41:01 3047

原创机器学习-决策树（Decision Tree）

内容参考自：ML-NLP/Machine Learning/3.Desition Tree at master · NLP-LOVE/ML-NLP · GitHub，有修改1. 什么是决策树1.1 决策树的基本思想其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别，我们可以思考一下一个决策问题：是否去相亲，一个女孩的母亲要给这个女海介绍对象。大家都看得很明白了吧！LR模型是一股脑儿的把所有特征塞入学习，而决策树更像是编程语言中的if-else一样，去做条件判断，这就是根本性的区

2021-12-25 21:04:44 876

转载 [转载]Mac使用vim命令修改配置文件内容

在服务器上部署服务，需要用到jar包起服务，但是不可避免的jar内容有时候需要自己修改配置来适用不同的服务器所在的一个网络环境。不同于windows修改jar包配置文件内容：用压缩工具直接打开jar包修改并保存即可。mac上并没有这样简单易用的mac版工具，于是就打算直接用VIM来实现修改jar包配置文件内容的操作。Vim是一个类似于Vi的著名的功能强大、高度可定制的文本编辑器，下面介绍并使用

2021-12-25 17:55:02 444

原创机器学习-逻辑斯蒂回归（Logistic Regression）

注：内容转自https://github.com/NLP-LOVE/ML-NLP/tree/master/Machine%20Learning，略有修改。目录逻辑1. 什么是逻辑斯蒂回归2. 什么是Sigmoid函数3. 损失函数是什么4.可以进行多分类吗？5.逻辑斯蒂回归有什么优缺点6. 逻辑斯蒂回归有哪些应用7. 逻辑斯蒂回归常用的优化方法有哪些7.1 一阶方法7.2 二阶方法：牛顿法、拟牛顿法：8. 逻辑斯特回归为什么要对特征进行离散化。9. 逻辑回

2021-12-12 17:55:23 3628

原创机器学习-线性回归（Linear Regression）

1.什么是线性回归线性：两个变量之间的关系是一次函数关系的——图象是直线，叫做线性。非线性：两个变量之间的关系不是一次函数关系的——图象不是直线，叫做非线性。回归：人们在测量事物的时候因为客观条件所限，求得的都是测量值，而不是事物真实的值，为了能够得到真实值，无限次的进行测量，最后通过这些测量数据计算回归到真实值，这就是回归的由来。2. 能够解决什么样的问题对大量的观测数据进行处理，从而得到比较符合事物内部规律的数学表达式。也就是说寻找到数据与数据之间的规律所在，从而就可以模拟出结果，也就

2021-12-05 16:57:44 2312

原创 scikit_learn中fit()/transform()/fit_transform()区别和联系

函数功能解释fit()根据训练集数据学习得到数据集的特征，比如均值、中位数、标准差等等transform()将fit()学到数据集特征，应用到数据集，比如学习到数据集平均数为6，应用到填充数据中的缺失值fit_transform() = fit()+transform()即将从数据集中学到的特征（均值、中位数、标准差）应用到数据集中举例此处以使用均值填充缺失值举例>>> import numpy as np>>> from skl.

2021-11-29 22:08:23 2042

转载线性代数知识汇总（转载）

发现一片对线性代数的知识点做了非常好的总结性文章，记录下来，供以后查阅。线性代数知识汇总_MyArrow的专栏-优快云博客_线性代数

2021-10-30 16:47:12 371

转载 Python+Matplotlib制作动画

转载自：https://www.cnblogs.com/endlesscoding/p/10308111.html看到一篇觉得非常不错的Python+Matplotlib制作动画的方法

2021-09-04 22:02:38 340

转载 SVD（奇异值分解）小结

转载自：https://www.cnblogs.com/endlesscoding/p/10033527.html注：奇异值分解在数据降维中有较多的应用，这里把它的原理简单总结一下，并且举一个图片压缩的例子，最后做一个简单的分析，希望能够给大家带来帮助。...

2021-09-04 21:49:28 157

原创 Python中可变数据类型和不可变数据类型

python中数据类型（红色为可变类型）1、字符串 str2、布尔类型 bool3、整数 int4、浮点数 float5、元组 tuple6、日期 date7、列表 list8、字典 dict9、集合 set可变类型和不可变类型的定义这个定义是基于内存地址来说的可变数据类型：变量引用的数据类型，在更改数值的时候，存在不开辟新内存的行为，此数据类型为可变数据类型。不可变数据类型：变量引用的数据类型，在更改数值的时候，不存在不开辟新内存的行...

2021-08-07 06:52:03 4478 3

转载 Python地理可视化工具包 folium介绍

本文内容转载自：https://www.cnblogs.com/feffery/p/9282808.html一、简介　　folium是js上著名的地理信息可视化库leaflet.js为Python提供的接口，通过它，我们可以通过在Python端编写代码操纵数据，来调用leaflet的相关功能，基于内建的osm或自行获取的osm资源和地图原件进行地理信息内容的可视化，以及制作优美的可交互地图。其语法格式类似ggplot2，是通过不断添加图层元素来定义一个Map对象，最后以几种方式将Map对象展现出来。

2021-07-22 16:37:30 4891 1

Mac/Linux系统matplotlib中文支持问题

空空如也