- 博客(56)
- 收藏
- 关注
原创 *差分自回归移动平均模型(ARIMA)
ARIMA 是时间序列预测的经典工具,通过差分消除趋势/季节性,结合 AR 和 MA 捕捉数据规律。适用于线性趋势明显的短期预测,但对复杂非线性问题需结合其他模型(如 LSTM)或优化算法(如鲸鱼优化算法)提升精度。
2025-04-15 15:07:23
667
原创 集成学习介绍
集成学习(Ensemble Learning)是一种机器学习范式,它通过组合多个模型的预测来提高整体模型的性能。单一模型可能在某些方面表现不佳或具有较高的偏差或方差,而集成方法能够通过结合多个模型的优点来克服这些问题,从而提供更稳定和准确的预测结果。集成学习通常用于改进分类、回归以及异常检测等任务。
2025-04-14 15:00:42
310
原创 超参数优化方法
在选择超参数优化方法时,结果可能会因为不同的方法而有所不同。这是因为每种方法对超参数空间的探索方式不同,导致它们可能找到不同的局部最优解或全局最优解。如何选择合适的方法,取决于问题的特性、计算资源以及时间限制等多方面因素。选择超参数优化方法时,没有一种方法适用于所有场景。关键是根据问题的特性、资源限制和目标函数评估成本来权衡。如果你不确定哪种方法最适合,可以尝试从随机搜索开始,获得一个初步结果后,再用贝叶斯优化进行精细化调整。
2025-04-14 14:27:34
528
原创 交叉验证(Cross Validation)
交叉验证(Cross Validation)是一种用于评估机器学习模型性能的统计方法,目的是更可靠地估计模型在**未见数据(即测试集)**上的表现,避免过拟合或评估偏差。
2025-04-13 10:49:29
325
原创 特征选择与特征转换的核心区别
特征选择:通过筛选保留关键特征,适合需保留可解释性的场景。特征转换:通过重构生成新特征,适合需压缩维度且对可解释性要求较低的场景。选择依据:根据业务需求(如可解释性、计算效率、模型性能)灵活选择方法。
2025-04-12 14:06:02
814
原创 pandas.DataFrame.at 按照index和列名处理单一数据
csv文件数据传到execl文件思路:先确定csv的结构,获取csv指定列的数据。确定execl缺失的列的索引,遍历索引,使用pandas.Series.at 函数修改成对应的值。
2025-04-11 16:36:03
291
原创 pandas.Series.any 方法
可以选择沿某个轴进行计算。除非至少有一个元素在 Series 或 DataFrame 的某轴上为 True(或等价值,如非零或非空),否则返回 False。
2025-04-10 15:47:01
408
原创 Series和 DataFrame是 Pandas 库中的两种核心数据结构
你应该使用Series处理单一类型的一维数据集。进行简单的时间序列分析。执行基本的统计计算。数据清洗和预处理。需要灵活的标签索引或字符串操作。从DataFrame中提取某一列进行单独处理。Series简单且高效,**适用于大多数需要处理一维数据的情况。**如果你的数据集更为复杂,涉及多个变量和多维数据,则应考虑使用DataFrame。然而,即使在这种情况下,Series仍然可以作为DataFrame的一部分被频繁使用。Series。
2025-04-10 13:53:18
961
原创 pandas.DataFrame.apply
apply 方法在 pandas 中的主要作用是允许用户对 DataFrame 的行或列应用自定义函数,从而实现数据的灵活处理和转换。它能够沿指定轴(行或列)应用一个函数,并根据返回结果调整输出格式。
2025-04-10 10:13:19
990
原创 时间序列频率转换
pandas.DataFrame.resample 重采样。对象必须具有日期时间类型的索引(如。关键字参数传递日期时间类型数据列/索引的标签。
2025-04-09 17:36:32
199
原创 pandas.DataFrame.dtypes--查看和验证 DataFrame 列的数据类型!
使用.dtype查看单列的数据类型。使用.dtypes查看所有列的数据类型。使用.info()获取更详细的列信息。如果需要进一步判断类型,可以结合条件语句进行检查。通过这些方法,你可以轻松查看和验证 DataFrame 列的数据类型!
2025-04-09 15:20:06
264
原创 Pandas-按索引从df中读取指定一个或者多个元素
Purely integer-location based indexing for selection by position. 按索引读取指定一个或者多个元素。
2025-04-09 14:23:14
154
原创 数据预处理
在数据处理中,编码(Encoding)是将非数值型或复杂结构的数据转换为适合算法处理的数值形式的过程。通过合理选择编码方式,可以提升数据表达效果,同时平衡计算效率和模型性能。
2025-04-09 09:58:55
281
原创 在未归一化的线性回归模型中,特征的尺度差异可能导致模型对特征重要性的误判
通过归一化,我们将特征的范围标准化为 [0, 1],并重新调整了系数,使得模型能够公平地评估特征的重要性。通过数学公式来更清晰地说明归一化对模型的影响,以及它如何改变特征的重要性评估。归一化将特征缩放到相同的范围(如 [0, 1])。希望这个数学推导能帮助你更好地理解归一化的作用!直接反映了两者的总影响。
2025-04-02 15:06:57
1039
原创 np.mean 是 NumPy 库中的一个函数
np.mean是 NumPy 库中的一个函数,用于计算给定数组或数组元素的算术平均值(即均值)。算术平均值是所有数值加总后除以数值的数量得到的结果。
2025-04-01 17:17:44
256
原创 PyTorch --torch.cat张量拼接原理
在 PyTorch 的 torch.cat 函数中,out 参数用于指定输出张量的存储位置。是否使用 out 参数直接影响结果的存储方式和张量的内存行为。
2025-03-31 17:34:39
414
原创 Python 函数重载
@overload装饰器定义的函数签名提示使用此函数的几种方法,但在运行时,会调用共同的实现函数。因此自己需要提供实现函数,能够包含所有输入参数的情况。
2025-03-31 15:20:03
273
原创 Python--内置函数 `type()` 与 `isinstance()区别
在 Python 中,判断对象的类型可以使用内置函数 type() 或 isinstance()。使用type()进行严格的类型匹配。使用isinstance()进行更灵活的类型检查(包括继承关系)。根据实际需求选择合适的方法,并尽量减少对类型检查的依赖。
2025-03-31 14:45:03
269
原创 PyTorch optim包简介
PyTorch 的包是一个用于优化神经网络模型参数的核心工具。它提供了多种优化算法的实现,帮助用户高效地训练深度学习模型。在训练之前,定义好模型和损失函数。model = MyModel() # 自定义模型loss_fn = nn.CrossEntropyLoss() # 损失函数PyTorch 的optim包为深度学习模型的训练提供了强大的支持。通过选择合适的优化器和调参策略,你可以更高效地训练模型,并获得更好的性能。无论是简单的线性回归还是复杂的深度神经网络,optim包都能满足你的需求。
2025-03-28 15:54:00
455
原创 Pytorch--tensor.view()
在 PyTorch 中,tensor.view()是一个常用的方法,用于改变张量(Tensor)的形状(shape),但不会改变其数据本身。
2025-03-27 11:35:49
735
原创 缓存设计模式
缓存模式组合的依据主要取决于你的应用场景,特别是数据一致性要求、性能需求、读取/写入频率、以及缓存过期策略等因素。在实际开发中,可以根据具体的需求灵活选择或组合这些模式,以达到最佳的系统性能和数据一致性。
2025-03-23 14:57:02
884
原创 MySQL 的多版本并发控制
是 MySQL InnoDB 引擎的一种并发控制机制,,让事务高效并发执行,同时避免大部分锁竞争!MVCC 主要依赖 undo log。结果不一致,因为另一事务。,哪些事务的更改不可见。,避免了“不可重复读”。
2025-03-22 19:00:57
677
原创 MySQL 事务(Transaction)详解
事务(Transaction)是一组要么全部执行,要么全部回滚的 SQL 语句,用于保证数据一致性。
2025-03-22 18:52:24
837
原创 B树和 B+树
B树和 B+树是两种广泛用于数据库和文件系统的平衡树数据结构,主要用于索引和存储大规模数据。它们的核心目标是提高磁盘 I/O 效率,从而加快查询和更新操作。:如果索引列不包含所有查询需要的字段,就必须回表,导致额外的磁盘 I/O。
2025-03-22 10:59:57
1047
原创 LeetCode -- 328. 奇偶链表
给定单链表的头节点 head ,将所有索引为奇数的节点和索引为偶数的节点分别组合在一起,然后返回重新排序的列表。第一个节点的索引被认为是 奇数 , 第二个节点的索引为 偶数 ,以此类推。请注意,偶数组和奇数组内部的相对顺序应该与输入时保持一致。你必须在 O(1) 的额外空间复杂度和 O(n) 的时间复杂度下解决这个问题。输入: head = [1,2,3,4,5]输出: [1,3,5,2,4]输入: head = [2,1,3,5,6,4,7]输出: [2,3,6,7,1,5,4]
2025-03-19 18:15:00
302
原创 Python --Dict 字典(散列表)
在Python中,字典(dict)是一种非常强大且灵活的数据结构,它允许你存储和管理键值对(key-value pairs)。字典的作用广泛,几乎可以在任何需要高效查找、插入和删除数据的场景中使用。
2025-03-18 10:05:05
314
原创 vllm --安装vllm
默认使用HuggingFace.容易下载超时。所以就按照上述命令来本地下载模型,下载模型成功后即可与模型交流。出现导入模块错误,安装正确版本的模块即可。使用conda安装,前提安装conda。安装modelscope库。.(确定GPU可用)
2025-03-17 14:37:00
451
1
原创 LeetCode.3217 -- 链表 -- 从链表中移除在数组中存在的节点
给你一个整数数组nums和一个链表的头节点head。从链表中移除所有存在于nums中的节点后,返回修改后的链表的头节点。
2025-03-16 17:53:23
413
原创 LeetCode.203--链表--移除链表元素
删除节点通常需要遍历链表,同时维护一个前驱指针,以便在当前节点需要被删除时,能够正确地调整指针跳过该节点。这里的关键是处理头节点可能被删除的情况,因为头节点的删除会改变链表的起始位置。为了简化逻辑,使用一个虚拟头节点(dummynode)是一个常见的技巧,它可以统一删除操作的处理方式,避免对头节点进行特殊判断。
2025-03-16 17:03:10
138
原创 LeetCode--2181. 链表--合并零之间的节点
给你一个链表的头节点head,该链表包含由 0 分隔开的一连串整数。链表的 开端 和 末尾 的节点都满足。对于每两个相邻的 0,请你将它们之间的所有节点合并成一个节点,其值是所有已合并节点的值之和。然后将所有 0 移除,修改后的链表不应该含有任何 0。返回修改后链表的头节点head。
2025-03-16 14:08:41
314
原创 LeetCode.2058--链表--遍历链表
为什么需要 first 和 prev?first 的作用first 用于记录第一个临界点的位置。它的主要作用是: 确定链表中是否存在临界点:如果遍历结束后 first 仍然为初始值(如-1),说明链表中没有临界点。计算最大距离:最大距离是从第一个临界点到最后一个临界点的距离。因此,记录第一个临界点的位置是必要的。prev 的作用prev 用于记录上一个临界点的位置。它的主要作用是: 计算相邻临界点之间的距离:每次找到一个新的临界点时,通过当前临界点的位置 i。
2025-03-16 12:59:55
472
原创 Redis持久化机制
如果你更关心性能和快速恢复,那么RDB可能是更好的选择;如果你更关注数据完整性和避免数据丢失,那么AOF更适合你;对于某些应用场景,结合使用这两种方式也是个不错的选择,这样可以在保持高性能的同时也提供较好的数据保护。
2025-03-13 10:57:18
253
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人