- 博客(58)
- 收藏
- 关注
原创 哈希(Hash)算法与查找
哈希算法(Hash),简单来说就是一个“数据粉碎机”。你给它输入任意内容(文字、文件、密码等),它会吐出一串固定长度的乱码(叫“哈希值”)。
2025-04-07 17:02:50
695
原创 蓝桥杯真题-分糖果-题解
从根节点开始,首先访问它的第一个邻接节点,然后递归地对这个邻接节点执行相同的操作,直到当前节点的所有邻接节点都被访问过。具体的分法用两层for循环在(0,n+1)和(0,m+1)进行枚举寻找,并且增加限制条件a+b小于等于2,大于等于5。的思想,进行递归,设置深度,以及两个糖果的个数a和b,最终答案用全局变量(global)res表示,当深度为7也就是第七个孩子,且糖果为0时则是一种分法。复述:两种糖果,分别有9和16,分给7人,每个人得到的最少2,最多5,必需全部分完,几种分法?深度优先搜索(DFS)
2025-04-05 22:32:54
397
原创 Conda 常用命令大全
随着使用,conda 安装的包也越来越多;conda remove -n your_env_name --all 其中,-n与--name等价,表示虚拟环境名。其中,通过 -n或--name 来自定义的环境名称,如:jupyter_venv;对方拿到environment.yml文件后,将该文件放在工作目录下,可以通过以下命令从该文件创建环境即可。上面的设置表示从channel中安装包时显示channel的url,这样就可以知道包的安装来源了。一个分享环境的快速方法就是给他一个你的环境的.yml文件。
2025-04-04 15:27:12
655
原创 【机器学习】支持向量机
支持向量机(Support Vector Machine,)是一种模型,它的基本模型定义为特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的学习策略就是间隔最大化,可形式化为一个求解凸二次规划问题的过程。
2025-03-27 11:23:18
930
原创 【hadoop】远程调试环境
根据上一节,我们已经安装完成hadoop伪分布式环境还没安装的小伙伴可以看看这个帖子这一节我们要实现使用vscode进行远程连接,并且完成java配置与测试。
2025-03-26 16:48:32
788
原创 【2024_CUMCM】中心对数变换(CLR)[附代码]
中心对数变换(CLR)是一种针对成分数据的重要转换方法,它通过将成分数据转换为对数比值,有助于在统计分析中更有效地处理这类数据的特性。
2024-07-14 16:26:05
5911
原创 【2024_CUMCM】时间序列1
引言:时间序列也称动态序列,是指将某种现象的指标数值按照时间顺序排列而成的数值序列。时间序列分析大致可分成三大部分,分别是描述过去、分析规律和预测未来。
2024-07-13 15:31:42
1014
原创 【2024_CUMCM】插值算法(附代码)
在数模比赛中,常常会出现数据的分析时的数据不足或缺失,这时我们想要补数据,并且需要补上一些较为靠谱的数据,此时就需要用到插值法。三次样条插值法、分段三次埃尔米特插值法
2024-07-12 17:09:48
2649
原创 【2024_CUMCM】熵权TOPSIS方法
熵权topsis法其实应该称为前面我们学过层次分析法,是判断矩阵的确定依赖于专家,如果专家的判断存在主观性的话,会对结果产生很大的影响。(主观性太强)所以,相对于层次分析法,熵权法是一种较为的方法指标的变异程度越小,所反映的信息量也越少,其对应的权值也应该越低(客观 = 数据本身就可以告诉我们权重)
2024-07-12 11:35:50
1780
原创 【2024_CUMCM】微分方程
常微分方程涉及单个自变量及其导数,而偏微分方程涉及多个自变量及其偏导数常微分,其中y是待求函数,x是自变量偏微分,其中u是待求函数,t和x是自变量。
2024-07-12 11:05:29
922
原创 【2024_CUMCM】机器学习导论、不平衡分类模型(重采样)、交叉验证(附代码)
这种举例子就懂了,例如根据体检数据判断是否患病,那根据常识,不患病的人肯定说远多于患病人数;例如检测欺诈性信用卡交易。如下图所示,欺诈性交易约为400笔,而非欺诈性交易为约90000笔。如果对于这种不平衡模型之间进行训练,你会发现调到最后,预测出不患病的准确率接近百分百,预测患病的准确率为0,这显然是不行的通过重采样进行解决用于处理高度不平衡数据集的一种广泛采用的类不平衡技术称为重采样。它包括从多数类中删除样本(欠采样)和/或从少数类中添加更多样本(过采样。
2024-07-11 11:47:15
923
原创 【2024_CUMCM】TOPSIS法(优劣解距离法)
TOPSIS法(Technique for Order Preference by Similarity to Ideal Solution)可翻译为逼近理想解排序法,国内常简称为优劣解距离法。TOPSIS 法是一种常用的综合评价方法,其能充分利用原始数据的信息, 其结果能精确地反映各评价方案之间的差距。
2024-07-10 19:42:04
1164
原创 【2024_CUMCM】LINGO入门+动态规划
基本想法:将原问题转换为一系列相互联系的子问题,然后通过逐层递推求得最后的解基本思想:解决最优解问题,满足最优性原理(最优策略的任何一部分子策略必需是最优的)在这类问题中,可能会有许多可行解,每一个解都对应一个值,我们希望找到具有最优值的解。动态规划算法中蕴含着递归的思想,但是递归问题中会出现某些子问题被计算多次,而如果利用动态规划算法,可以把已经计算过的子问题的解给装起来,然后用到的时候再拿出来,减少计算次数。例如:斐波拉契数列递归求法//定义主函数int main()//数组。
2024-07-09 17:49:48
1490
原创 【2024_CUMCM】T检验、F检验、卡方检验
分类数据(categorical data)也称定类数据。通常用来描述事物的属性或特征,而不是度量其数量。例如,性别(男、女)、民族、颜色、行业类型等都是分类数据的例子。
2024-07-07 22:15:27
481
原创 【2024_CUMCM】时间序列算法ARMA
ARMA模型,全称为自回归移动平均模型(Autoregressive Integrated Moving Average Model),是一种常用于时间序列分析的统计模型。它结合了自回归模型(AR)和移动平均模型(MA)的特性,能够描述时间序列数据中的自相关性和随机扰动之间的关系。ARMA模型通常表示为ARMA(p, q)形式,其中p表示自回归项的数量,q表示移动平均项的数量。
2024-07-07 22:00:34
1191
原创 【2024_CUMCM】数据预处理、数据分析、数据可视化
问题说白了就是探究品类和销售量这两个,根据题意,我们先进行,按照以往的步骤是针对缺失值、重复值、异常值。我认为这道题应该是,需要思考到情境下的特殊情况和特殊数据,再进行处理。然后就可以开始数据分析,通过函数引入数量、均值、最值、百分位数、等描述统计量,并通过如热力图、箱线图、折线图、条形图、直方图更清晰探究其关联关系。
2024-07-07 20:15:51
1174
原创 NLTK下载及其报错问题,包解决
所以就开始想办法解决,最开始以为是找不到wordnet包,所以就先手动下载WordNet,然后把dowload改为相对地址了,但是发现问题并没有解决,还是用不了,所以就看了官网。NLTK一般是在作自然语言处理时用到,最开始时,我是直接在conda进行`conda install nltk`进行安装,以为就可以直接使用,但是运行时总会出现以下情况。对于window系统,host路径为`C:\Windows\System32\drivers\etc`,直接访问,然后使用记事本或者BowPad进行修改。
2024-07-05 17:03:00
1296
原创 【MySQL】E-R图-关系数据模型-3NF--精讲+练习(巨全面)
第一范式(1NF)规定表中的每个列必须是不可分割的基本数据项,即表中的每个单元格必须包含单一的值。如果一个列中包含多个值,则需要将该列拆分为多个独立的列,以确保表结构的原子性。第二范式(2NF)是在1NF基础上进一步要求,表中必须有主键,且非主键列必须完全依赖于整条主键,而不是主键的一部分。如果一个表有组合主键,则非主键列不能仅依赖于这个组合键的一部分。第三范式(3NF)是在2NF基础上继续要求,表中任何非主属性不依赖于其他非主属性,即不存在传递依赖。
2024-06-14 15:52:45
4457
原创 【Linux】易错点——/etc/passwd ; /etc/shadow;ifconfig;route;chmod;ps;mv
【Linux】易错点——/etc/passwd ; /etc/shadow;ifconfig;route;chmod;ps;mv
2024-06-13 21:17:41
1001
原创 【Python】(一)复习——面向对象
类(Class):用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。定义在方法中的变量,只作用于当前实例的类。在类的声明中,属性是用变量来表示的。这种变量就称为实例变量,是在类声明的内部但是在类的其他成员方法之外声明的。即一个派生类(derived class)继承基类(base class)的字段和方法。继承也允许把一个派生类的对象作为一个基类对象对待。
2024-06-12 09:00:00
299
原创 【Python】(一)复习重点——控制流
按顺序。这类结构最直观,我们前面接触到的程序都是一行一行代码从头到尾执行,这是语言默认地、也是最简单的控制结构。
2024-06-11 22:46:50
235
原创 【Linux】shell脚本变量——系统变量、环境变量和用户自定义变量
用户自定义变量是由用户在其shell会话中创建的变量,它们只在创建它们的那个shell会话中有效。这些变量通常用于存储临时信息或用户特定的配置。用户自定义变量的创建和使用不需要任何特殊的命令,只需直接赋值即可。
2024-06-11 21:10:55
704
原创 【Python】(一)复习重点——类型;结构
元组(tuple)与列表类似,不同之处在于元组的元素不能修改。a, b, c = 1, 2, "runoob" # 多个对象指定多个变量。{'b', 'c', 'a', 'r', 'd'} ——集合元素不重复。列表是有序的对象集合,字典是无序的对象集合。{'r', 'b', 'd'} ——在a里面,但不在b里面。字典是一种映射类型,字典用 { } 标识,它是一个无序的。{'c', 'a'} ——a,b的公共部分。3->步长为-1,表示逆向,每步为1。的数据类型,用于存储唯一的元素。
2024-06-11 09:20:54
822
原创 【Linux】ls命令
这个命令主要是用于显示指定工作目录下之内容(列出目前工作目录所含的文件及子目录)。掌握几个重点的常使用的就可以:ls -l # 以显示当前目录中的文件和目录ls -a # 显示当前目录中的所有文件和目录,包括隐藏文件ls -lh # 以人类可读的方式显示当前目录中的文件和目录大小ls -t # 按照修改时间排序显示当前目录中的文件和目录。
2024-06-10 23:59:52
640
原创 【Python】易错点——数组;列表;内存分配
在许多其他编程语言中,通常是一种基本的数据结构,它们在内存中,这使得数组在某些操作上具有较高的性能。例如,数组的随机访问速度通常比链表快,因为可以直接通过索引访问任何元素,而不需要从头开始遍历。相比之下,(list)是一种,它提供了更多的灵活性,如动态大小调整和多样化的数据类型。然而,这种灵活性有时会牺牲性能。例如,当列表,这个操作的平均时间复杂度是O(n)。but说回来,Python的列表在某些操作上仍然表现良好。例如,列表的与数组相当,因为它们都提供了直接的内存访问。
2024-06-10 23:31:52
543
原创 【MySQL】易错点——update;match();事务;哈希值;哈希冲突
【MySQL】易错点——update;match();事务;哈希值;哈希冲突
2024-06-09 09:00:00
626
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人