东皇太星-优快云博客

原创二次剩余与二次剩余核

例如故0， 1，4，5，6，9中与10互质的整数1，9为10的二次剩余。

2025-12-23 13:03:28 245

原创分类模型中交叉熵损失计算原理

从 KL 散度的展开式中，提取出交叉熵的定义：P(x)：真实分布中事件x的概率（分类任务中多为 one-hot 编码，仅真实类别为 1，其他为 0）；Q(x)：模型预测分布中事件x的概率（比如分类模型输出的 “类别概率”）。

2025-12-05 12:04:20 255

原创 Transformers Tokenizer 使用详解

创建自定义 tokenizer 配置# 基于现有 tokenizer 创建padding_side="right", # 填充方向truncation_side="right", # 截断方向# 保存和加载自定义 tokenizer。

2025-12-04 22:46:29 353

原创 tokenizer分词器原理介绍

BPE是一种用于自然语言处理的子词切分算法。它的目标是找到一种最优的字符组合方式，使得整个数据集中不同单词的字符组合尽可能的少。这种算法最初被设计用于字节级的数据压缩，后来被应用于NLP。将词汇表中的每个词划分为单个字符。在所有词中统计每两个连续字符（或字符组合）的频率。将频率最高的一对字符（或字符组合）合并为一个新的字符组合。重复上述步骤，直到达到预定的子词数量或者无法继续合并为止。

2025-12-04 14:42:19 326

原创注意力机制（self-attention manchnism）

bibtex。

2025-12-02 11:59:15 782

原创机器学习概念，算法原理及应用

找到一个线性模型（一条直线或一个超平面），使得它能够最好地拟合一组数据点。“线性”：指的是模型是输入特征（x）的线性组合。“回归”：意味着我们要预测的是一个连续的数值（如房价、温度、销售额），而不是一个类别。

2025-11-26 18:52:45 679

原创离散数据向量化的方法有哪些

数据特性：基数大小、类别分布、是否有目标变量模型需求：线性模型需要无偏编码，树模型可以接受有序编码计算资源：内存限制、训练时间要求业务理解：类别间是否存在语义关系在实践中，通常需要尝试多种方法并通过交叉验证来选择最佳编码策略。

2025-11-25 18:04:29 663

原创循环神经网络（RNN）

尽管 Transformer 目前是大模型的基石，但在。

2025-11-25 16:41:24 398

原创卷积神经网络重要论文综述

这些论文构成了现代深度计算机视觉的基础，理解它们的发展脉络对于掌握CNN技术至关重要。以下是卷积神经网络发展历程中的重要论文，按时间顺序和技术类别进行分类整理。

2025-11-23 20:17:51 765

它不是一个复杂的理论突破，而是一个极其优雅和有效的工程解决方案，其“大道至简”的思想深刻地影响了整个领域。直到今天，基于ResNet的架构仍然是许多视觉任务的强大基线。在ResNet出现之前，主流的认知是：网络越深，表达能力越强，性能应该越好。论文中提出了几种不同深度的ResNet变体，最著名的是ResNet-34和ResNet-50/101/152。这种下降不是由过拟合引起的，因为即使在训练集上，深层的模型误差也比浅层模型更高。这是ResNet的核心构建模块。，巧妙地解决了极深神经网络的。

2025-11-23 19:13:06 852 2

原创 VGGNet (2014)（卷积神经网络）

VGGNet 虽然现在已被更高效的架构超越，但其对深度学习领域的影响是深远的，特别是在理解网络深度重要性方面做出了开创性贡献。

2025-11-23 18:52:30 869

原创 AlexNet (2012)(卷积神经网络)

这篇论文题为，由Alex Krizhevsky、Ilya Sutskever和 Geoffrey E. Hinton 完成。它在2012年的ImageNet大规模视觉识别挑战赛中取得了压倒性胜利，将 top-5 错误率从上一年的26.2%大幅降低至15.3%，从而引爆了深度学习的现代浪潮。

2025-11-19 10:45:39 991

原创 LeNet-5 (1998)(卷积神经网络)

论文标题作者发表时间：1998年核心贡献首次成功展示了如何利用梯度下降和反向传播算法来有效训练一个卷积神经网络，并将其成功应用于手写数字识别任务。它定义了现代CNN的基本架构蓝图。LeNet-5就像深度学习领域的“始祖鸟”。它可能不是最强大、最高效的模型，但它包含了构成现代深度学习的几乎所有基本DNA。理解LeNet-5是理解一切后续CNN模型（如AlexNet, VGG, ResNet）的基石。

2025-11-18 23:18:36 811

原创梯度下降求解线性回归问题

梯度下降法有三种方法来求解线性回归问题批量梯度下降法随机梯度下降法根据是否包含动量能力，随机梯度下降法又包含正常随机梯度下降法及动量随机梯度下降法；动量随机梯度下降法主要的目的是为了使收敛尽可能跳出局部，找到全局收敛点。小批量随机代码演示详见gradient_descent.py,该代码包含了批量梯度下降法，随机梯度下降法，小批量随机下降法，动量随机下降法的实现上诉训练使用的测试数据见：数据集：linear_regression_dataset运行结果见：

2025-10-23 22:54:24 413

原创 numpy矩阵运算

高性能：底层用 C/Fortran 实现向量化：避免 Python 循环，提升效率广播机制：智能处理不同形状数组的运算丰富的线性代数函数：覆盖大多数数学需求掌握 NumPy 矩阵运算是进行科学计算、机器学习和数据分析的基础。

2025-10-01 15:25:18 298

原创算法之线性基

线性基，是线性代数中的概念，在信息学竞赛中，前缀线性基是线性基的扩展，他们主要用于处理有关异或和的极值问题。一组线性无关的向量即可作为一组基底，张起一个线性的向量空间，这个基底即称为线性基，利用线性基的基底进行线性运算，可表示向量空间内的所有向量，换句话说，所有向量都可以拆成基底的线性组合。

2025-09-12 22:37:27 552

原创高维前缀和

高维前缀和是干嘛的？计算D维空间中，= ∑(其中x_k ≤ i_kfor all k)。它是普通前缀和向高维的自然推广。核心思想是什么？降维打击。不要一次性考虑所有维度，而是按维度逐个击破。对每一个维度，都做一次一维前缀和的计算。在OI中，最常见的应用是什么？子集和问题 (Sum over Subsets, SOS DP)。把一个N位的二进制数mask看成N维空间中的一个点。求mask的所有子集的和，就等价于求这个点的高维前缀和。子集和的代码怎么写？两层循环。外层循环i从0到N-1。

2025-09-06 19:44:26 1106

原创并查集_路径压缩

并查集是一种用于管理元素所属集合的数据结构，实现为一个森林，其中每棵树表示一个集合，树中的节点表示对应集合中的元素。

2025-09-03 16:30:23 334

原创 python中 deque使用

deque（双端队列）是一个线程安全、内存高效的数据结构，支持从两端快速添加和删除元素（时间复杂度 O(1)）。python是 Python 中一个强大且高效的数据结构，特别适合需要在两端进行频繁添加和删除操作的场景。与列表相比，它在这些操作上具有显著的性能优势，并且是线程安全的。从两端添加和删除元素的时间复杂度为 O(1)支持最大长度限制，超出时会自动从另一端删除元素提供旋转等特殊操作线程安全，适合多线程环境在许多算法问题中非常有用，如滑动窗口、BFS 等。

2025-09-03 10:34:57 426

原创模运算(密码学/数论/算法)

模运算的概念模运算是一种算术运算，常写作a mod n，表示整数a除以正整数n后的余数。模数是模运算中的除数n，它决定了结果的范围。公式表达：对于任意整数a和正整数n，可以将a表示为：a = qn + r，其中0 ≤ r < n，q是整数商，即q = ⌊a/n⌋。a除以n的余数是a mod n。示例：11 mod 7 = 4（11除以7的余数是4）** -11 mod 7 = 3（-11除以7的余数是3）**

2025-08-27 17:18:45 722

原创最短路径问题（图论）

三层遍历，第一层必须为中间层，这样才会逐步将中间层扩大，如果中间层没有放在第一层，会导致每个f[x] 实际只会求取一次，结果不正确。求图中所有顶点之间的最短路径，包括有向图或者无向图，权重正负皆可，用来一次性求所有点之间的最短路径。递推公式，F[K][X][Y] 表示顶点x,y中间最多只经过(0,1,2,…k)这些顶点时的最短路径。

2025-08-22 17:47:50 498

原创树状数组/差分数组/线段树/莫队算法介绍

提供动态区间查询，即区间查询，单点修改，时间复杂度均为O(log n)

2025-08-19 20:02:15 349

原创最小生成树（Kruskal算法和Prim算法）

现在假设有一个很实际的问题：我们要在n个城市中建立一个通信网络，则连通这n个城市需要布置n-1一条通信线路，这个时候我们需要考虑如何在成本最低的情况下建立这个通信网？于是我们就可以引入连通图来解决我们遇到的问题，n个城市就是图上的n个顶点，然后，边表示两个城市的通信线路，每条边上的权重就是我们搭建这条线路所需要的成本，所以现在我们有n个顶点的连通网可以建立不同的生成树，每一颗生成树都可以作为一个通信网，当我们构造这个连通网所花的成本最小时，搭建该连通网的生成树，就称为最小生成树。

2025-08-14 16:27:13 290

原创字符串匹配算法

4、因为p[0]到p[k-1] 等于 p[j-k]到p[j-1]，所以上图中蓝2色块与蓝4色块相等的，现在又要找蓝1色块+黄1色块等于蓝4色块+黄2色块，所以蓝1色块等于蓝2色块，也意味着我们在找p[k]左边的字符串的最长前缀后缀，而这正是next[k]，是不是无巧不成书。3、我们现在要找到新的p[0]到p[k’-1] 等于 p[j-k’]到p[j-1]，那么这个新的k怎么求呢？2、p[0]到p[k-1] 等于 p[j-k]到p[j-1]的，也就是图中最上面K个元素。

2025-08-13 22:01:01 692

原创 Python 常见高阶函数使用介绍

Python 提供了几个内置的高阶函数，用于对可迭代对象进行函数式编程风格的操作。其中最常用的三个是filter()map()和reduce()。

2025-08-11 20:50:35 643

原创 Python bisect 库详细介绍

`bisect` 是 Python 标准库中的一个模块，提供了基于二分查找算法的工具，用于维护有序列表而不必每次插入后都重新排序。

2025-08-11 20:39:51 535

原创最长回文子串（马拉车/Manacher‘s ）算法

求最长回文子串（马拉车/Manacher‘s ）算法与字符匹配查找（kmp）算法介绍

2025-08-09 17:25:24 423

原创图的拓扑排序

对一个有向无环图(Directed Acyclic Graph简称DAG)G进行拓扑排序，是将G中所有顶点排成一个线性序列，使得图中任意一对顶点u和v，若边<u,v>∈E(G)，则u在线性序列中出现在v之前。通常，这样的线性序列称为满足拓扑次序(Topological Order)的序列，简称拓扑序列。简单的说，由某个集合上的一个偏序得到该集合上的一个全序，这个操作称之为拓扑排序。

2025-07-23 15:52:14 200

原创广度优先与深度优先遍历核心逻辑理解及实践

广度优先与深度优先遍历核心逻辑理解及实践

2025-07-08 23:40:07 185

原创 python优先队列使用

heapq是 Python 的一个内置模块，提供了堆队列算法的实现，也称为优先队列算法。以下是关于heapq模块的详细使用说明。

2025-07-05 23:57:13 241

原创 Python OrderedDict 用法详解

是 Python 标准库模块中的有序字典，它记住了键值对的插入顺序，在 Python 3.7+ 中，普通dict也保持了插入顺序，但仍然有一些独特的功能。

2025-07-01 22:24:09 610

原创区间求最值问题高效解决方法

对于区间求最值场景，如果区间不定长度的，可以使用稀疏表进行求解，如果区间是固定长度的，则可以使用分块的思想（与稀疏表原理类似），都是通过压缩状态个数，

2025-06-25 23:30:08 499

原创 python 常见数学公式函数使用详解

掌握这些工具后，你可以轻松实现从基础算术到复杂科学计算的各类数学任务！Python 提供了丰富的数学计算支持，包括内置函数、标准库（

2025-06-22 22:07:13 610

原创稀疏表（Sparse Table，ST原理及应用场景

稀疏表

2025-06-22 21:30:19 406

原创单调栈原理与应用

单调栈（Monotonic Stack）是一种特殊的栈数据结构，其核心特性是栈中的元素始终保持单调递增或单调递减的顺序。依次遍历数组，如果出现栈顶元素小于当前元素，则循环弹出栈顶元素，直到遇到栈顶元素大于当前元素，则将当前元素入栈，可以用来快速计算第一个比当前元素大的元素值。依次遍历数组，如果出现栈顶元素大于当前元素，则循环弹出栈顶元素，直到遇到栈顶元素小于当前元素，则将当前元素入栈，可以用来快速计算第一个比当前元素小的元素值。：给定一个数组，为每个元素找到其右侧（或左侧）第一个比它大（或小）的元素。

2025-06-22 16:42:29 390

realistic-linear-regression-dataset

ppt视觉风格构成矩阵模板

空空如也