
机器学习
文章平均质量分 95
不会Java的MING
Java虐我千百遍,我待Java如初恋
展开
-
泰坦尼克沉船存活率(机器学习,Python)
总体来说,这些结论说明在泰坦尼克号上,逃生时有一定的优先考虑,年龄、性别、船票等级、有无亲属等因素都可能影响乘客的生还率,泰坦尼克号沉船幸存者多为老人、小孩和妇女,而牺牲者多为年轻的男士,这样的历史数据,让我感受到了人性之美与善。:目前使用的数据仅包含部分乘客的信息,未来可以寻找更多相关的数据,例如那些没有生还的乘客信息、关于乘客的职业等信息。由于名字之间的头衔有着明显的区别,名字之中包含着具体的称谓,可以将称谓提取出来作为变量,可能就是不同等级有着不同的称谓,比如,结婚的人是一种,普通的人又是一种。原创 2023-05-24 19:37:24 · 3400 阅读 · 0 评论 -
机器学习(有监督学习,掌握逻辑回归模型,掌握K近邻分类 原理,掌握决策树模型类型和原理)
ID3、C4.5和CART算法均只适合在小规模数据集上使用ID3、C4.5和CART算法都是单变量决策树当属性值取值比较多的时候,最好考虑C4.5算法,ID3得出的效果会比较差决策树分类一般情况只适合小数据量的情况(数据可以放内存)CART算法是三种算法中最常用的一种决策树构建算法三种算法的区别仅仅只是对于当前树的评价标准不同而已,ID3使用信息增益、C4.5使用信息增益率、CART使用基尼系数。CART算法构建的一定是二叉树,ID3和C4.5构建的不一定是二叉树。原创 2023-05-11 15:12:42 · 282 阅读 · 0 评论 -
机器学习(数据准备和特征工程)
通过以上过程,我们可以得到结论,在使用IQR原则进行异常值检测时,需要通过计算出数据的上下临界值,然后判断数据是否超出这个范围来决定是否为异常值,通过计算数据集的四分位数、IQR和临界值,可以得出哪些数据是异常值,即小于下临界值或大于上临界值的数据被视为异常值。首先,需要计算出数据集的四分位数Q1,Q2,Q3,其中Q1表示数据排序后中间位置左边的数的中位数,Q2表示数据的中位数,Q3表示数据排序后中间位置右边的数的中位数。4.需要的计算量为数据集的四分位数,四分位间距,下临界值和上临界值。原创 2023-05-08 16:44:50 · 515 阅读 · 0 评论