- 博客(240)
- 收藏
- 关注
原创 随机森林原理&sklearn实现
N个训练样本(这种采样方式称为bootstrap sample方法),作为该树的训练集;随机地从M个特征中选取m个特征子集,每次树进行分裂时,从这m个特征中选择最优的;森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低。2)如果每个样本的特征维度为M,指定一个常数m<<M,3)每棵树都尽最大程度的生长,并且没有剪枝过程。1)如果训练集大小为N,对于每棵树而言,随机森林分类效果(错误率)与两个因素有关。
2024-03-09 19:25:50
876
原创 朴素贝叶斯基本原理&sklearn实现
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法, 分类原理就是利用 ### 贝叶斯公式 ### 根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率作为该特征所属的类。在某个分类下, 为防止训练集中某个特征值和某个类别未同时出现过,导致预测概率为0。所以需要进行平滑处理。当平滑系数为1时,为拉普拉斯平滑。转化: ### p(类别|特征)=p(特征|类别)*p(类别)/p(特征) ###
2024-03-09 19:00:49
469
原创 支持向量机(SVM)算法基本原理&skearn实现
支持向量机(Support Vector Machine,简称SVM)是一种用来解决二分类问题的机器学习算法,它通过在样本空间中找到一个划分超平面,将不同类别的样本分开,同时使得两个点集(两个点集中的支持向量点) 到此平面的最小距离最大,###使得两个点集中的边缘点(支持向量点)到此平面的距离最大—从而使其对误差的容忍度最大###。之所以选择距离最大的超平面是因为距离最大的超平面具有最好的泛化性能。
2024-03-09 18:56:08
1777
1
原创 临近取样(KNN)算法基本原理&sklearn实现
KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,KNN算法是有监督学习中的分类算法,它看起来和Kmeans有点像(Kmeans是无监督学习算法),但却是有本质区别的。KNN的全称是K Nearest Neighbors,意思K个最近邻居。KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别。KNN核心功能是解决有监督的【分类问题】。KNN能够快速高效地解决建立在特殊数据集上的预测分类问题,但其不产生模型,因此算法准确性并不具备强可推广性。
2024-03-09 18:24:52
582
原创 决策树基本原理&sklearn实现
决策树算法是一种有监督学习算法,利用分类的思想,根据数据的特征构建数学模型,从而达到数据的筛选,决策的目标。决策树( Decision Tree) 又称为判定树,是数据挖掘技术中的一种重要的【分类与回归方法】,它是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。决策树(Decision Tree)是一个树结构1. 结点和有向边组成2. 结点分为:内部结点 和 叶子结点。
2024-03-09 18:09:27
729
原创 逻辑回归原理&skearn简单实现
Logistic 不应该翻译成“逻辑”,因其语义来自Logarithm:对数,这也更体现了Logistic Regression的本质。accuracy_score函数接受两个参数,分别是预测标签和真实标签,返回一个准确率的浮点数值。与线性回归不同的是应用的模型不同与评估模型好坏的函数不同,且这两者均为sklearn提供好的。逻辑回归的本质是将线性回归进行一个变换,该模型的输出变量范围始终在 0 和 1 之间。理解“逻辑回归”的名字,需要拆开理解,拆成两部分:“逻辑”和“回归”逻辑函数在逻辑回归中为。
2024-03-09 12:04:13
291
原创 简单线性回归原理&sklearn简单实现
有时分类问题也可以转化为回归问题,例如的肺癌预测,我们可以用回归模型先预测出患肺癌的概率,然后再给定一个阈值, 例如50%,概率值在50%以下的人划为没有肺癌,50%以上则认为患有肺癌。当给定参数β0和β1的时候,画在坐标图内是一条直线(这就是“线性”的含义)当我们只用一个x来预测y,就是一元线性回归,也就是在找一个直线来拟合数据。回归算法是相对分类算法而言的,与我们想要预测的目标变量y的值类型有关。线性回归就是要找一条直线,并且让这条直线尽可能地拟合图中的数据点。特征集对应的标签集y。
2024-03-09 11:53:40
582
原创 神经网络分类
而且其比较好的特点是用树状可以降低序列的长度,从 O(n)降低到 O(log(n)),熟悉数据结构的朋友都不陌生。和后文将提到的自动编码器Q相似,我们期待堆叠的RBF有数据重建能力,及输入一些数据经过RBF我们还可以重建这些数据,这代表我们学到了这些数据的重要特征将RBF堆叠的原因就是将底层RBF学到的特征逐渐传递的上层的RBF上,逐渐抽取复杂的特征。DBN最主要的特色可以理解为两阶段学习,阶段1用堆的RBM通过无监督学习进行预训练(Pretrain),阶段2用普通的前馈网络进行微调。
2024-03-09 11:15:23
954
原创 损失函数&代价函数&风险函数&目标函数
如:L(Y,f(x))=(Y-f(x))^2,这个函数就是【损失函数】,损失函数越小,代表模型拟合的越好,但是损失函数不是越小越好,太小容易出现过拟合的现象,从而降低模型的泛化能力。f(x)关于训练样本集的平均损失称为经验风险,即T(x)=1/N(L(Y1,f(x1))+..+L(YN,f(xn))),此时的目标就是求经验风险T(x)的最小化。目标函数:即最终的优化函数,min(T(x))+ʎJ(f),包含经验风险和结构风险。--损失函数的期望,可以认为是平均意义下的损失。结构风险的定义,就是。
2024-03-09 10:57:13
762
原创 机器学习过程&四要素
更新模型的参数值(经验),以优化处理任务的指标表现,最终学习出较优的模型,并运用模型对数据进行分析与预测以完成任务。因此,可以通过优化算法(如梯度下降算法、牛顿法等)有限次迭代优化模型参数,尽可能降低损失函数的值,获得较优参数。有了极大化降低损失函数为目标,第一反应通常是求解损失函数的最小值以获得最优的模型参数。模型(机器学习模型)简单来说就是,学习数据特征和标签的关系或者学习数据特征内部的规律。(即假设要学习的模型属于某个函数的集合,也称为假设空间),通过。好的模型:预测值和实际值之间的误差尽可能的小。
2024-03-09 10:42:35
1057
原创 centos文件属性
d:目录, l:链接文件,c:字符文件, -:普通文件 b:块设备文件。,r:读,w:写,x:可执行,如果没有权限会显示-8-10: 其它用户的权限,rwx。5-7:所属用户组的权限,rwx。第2-4字符:文件拥有者。第一个字符:代表文件。
2024-03-06 18:58:07
251
原创 nohup 命令
nohup : 不挂断的运行,注意并没有后台运行的功能,就是指,用nohup运行命令可以使命令永久的执行下去,和用户终端没有关系,例如我们断开SSH连接都不会影响他的运行,注意了nohup没有后台运行的意思;如果你正在运行一个进程,而且你觉得在退出帐户时该进程还不会结束,那么可以使用nohup命令。1. nohup 是 no hang up 的缩写,就是不挂断的意思。&是指在后台运行,但当用户推出(挂起)的时候,命令自动也跟着退出。该命令可以在你退出帐户/关闭终端之后继续运行相应的进程。
2024-03-06 18:55:00
4337
原创 chmod+x 命令
chmod +x four_diag.sh 才行。绿色表示可执行文件,可执行的程序;红色表示压缩文件或包文件;浅蓝色表示链接文件;
2024-03-06 18:37:11
1527
原创 centos ps命令
1. ps : Process Status的缩写,用于查询系统的进程状态。-o 以用户自定义形式显示进程信息。-A 显示所有进程(同-e)-a 显示当前终端的所有进程。-u 显示进程的用户信息。-f 显示程序间的关系。
2024-03-06 18:26:12
672
原创 centos cat命令
cat命令主要有两个功能:显示文件内容和创建文件:1. 显示文件内容cat /dev/opt/text.log2. 在终端中查看多个文件的内容cat test1.txt test2.txt3. 在终端显示文件内容带行号 cat -n test1.txt4. 将标准输出与重定向运算符一起使用 cat test2 > test1 # test1内容将被test2内容覆盖5. 使用Cat命令创建文件 1) cat > test3.txt 2)
2024-03-06 17:53:45
1202
原创 Linux 文件操作命令
v: 显示所有过程;-f: 使用档案名字,是必须的,是最后一个参数)find -type f -print0 | xargs -r0 grep -F ‘expr’ 在当前目录及其子目录的常规文件中查找 ‘expr’find -name ‘*.[ch]’ | xargs grep -E ‘expr’ 在当前目录及其子目录所有.c和.h文件中查找 ‘expr’find -maxdepth 1 -type f | xargs grep -F ‘expr’ 在当前目录中查找 ‘expr’
2024-03-06 17:49:21
1191
原创 Linux命令之 2>&1 和 /dev/null
有时候我们常看到类似这样的脚本调用:这里的2>&1是什么意思?该如何理解?先说结论:上面的调用表明将./test.sh的输出重定向到log.txt文件中,同时将标准错误也重定向到log.txt文件中。以这样的方式调用脚本,可以很好的将错误信息保存,帮助我们定位问题。
2024-03-06 16:07:59
795
原创 Linux下任务管理工具--crontab
5)混合值,支持以上类型的组合,如指定每小时0至10分,22、33分以及0-60分钟每隔20分钟执行任务,如下。这里的分钟值采取了多种类型组合指定,包括连续范围值(0-7),列表值(22,33),步长值(*/20)。第五列单位为星期,表示每星期第几天,范围0-7,0与7表示星期日,其他分别为星期1-6;# | | | | .---- 星期 (0 - 7) (星期日可为0或7)# .---------------- 分 (0 - 59)# | .------------- 时 (0 - 23)
2024-03-06 15:59:34
935
原创 国产数据库调研
成功安装数据库 GBase 8s 后,数据库会自动处于启动状态,可通过 ps -ef|grep oninit 命令检查服务进程是否存在。卸载 GBase 8s 数据库系统时,需要先停止数据库服务,切换到 root 用户,进入安装目录下的。uninstall/uninstall_ids,执行该目录下的 uninstallids 命令进行卸载。【停止数据库服务】:以 gbasedbt 用户身份登录后,输入 onmode -ky,可停止数据库服务。1. 硬件要求:不高,最低配置: 内存4G,处理器1*2核。
2024-03-05 16:48:41
1416
原创 mysql 事务的隔离级别
采用哪种隔离级别要根据系统需求权衡决定,其中,可重复读是 MySQL(INNODB) 的默认级别。2)可重复读:在一个事务内,最开始读到的数据和事务结束前任意时刻读到的同一批数据都是一致的。1)脏读:读到了其它事务未提交的数据即脏读,未提交意味着数据有可能会被回滚,也就是最终有可能不会存储到数据库中,此时事务B插入了与事务A更改前的记录相同的记录行,并且在事务A提交之前先提交了。此时,事务A的查询,会发现刚刚的更改不起作用,但其实是刚刚事务B插进来的。3)幻读:事务A对某些行的内容做了更改,但还未提交。
2024-03-03 17:25:38
370
原创 mysql查询条件字符串赋给数值类型时的查询逻辑
实际查询时:age=7。# 实际查询时:age=0。# mysql 查询语句 将字符串赋给数字类型的字段时,查询的逻辑。
2024-03-03 17:23:13
207
原创 mysql 性能调优&参数&配置文件
--###########################-- Bin-Log设置 开始 --#############################################--###########################-- Bin-Log设置 结束 --############################################ 本配置参考 https://imysql.com/my-cnf-wizard.html #
2024-03-03 17:14:41
588
原创 mysql字符串精度对于性能影响
结论:字符串类型字段的定义,不要过长,一般比实际长度大10%即可。图省事如所有都定义成255长度或者text,在数据量较大或进行较为复杂的查询计算时,会降低查询的效率。mysql中对于字符串精度 如 varchar(20)和varchar(255)对性能的影响分析。
2024-03-03 16:56:38
349
原创 python-类-01-介绍
类(Class): 用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。
2024-02-22 12:36:09
232
原创 python 函数-05-参数逆收集
在参数外部定义好了的列表、元组、字典等,可以在传参的时候被“炸开”,其中的内容被自动分配到参数列表中,叫做参数逆收集。“炸”列表或者元组,需要在实参的前面添加一个星号。“炸”字典,需要在实参的前面添加两个星号。
2024-02-21 19:25:30
535
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人