机器学习
文章平均质量分 85
tandembike
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
决策树的对比
决策树的演化:ID3->C4.5->CART 下面用图表,直观地对比下这三种决策树 1 如何选择要划分的特征 1.1 我们的目的 首先要了解的是,我们要做的事,是尽快的把 如何衡量 熵和基尼系统 ID3在判断先对哪个特征进行划分时,是用的信息增益进行判断 但是信息增益的缺点在于 于是对信息增益进行了改进 CART在C4.5的基础上,又进行了改进,使用的是基尼系数 对缺失值的处理 输入自变量 目标因变量 剪枝 预剪枝和后剪枝 不同的后剪枝方式 https://blog.youkuaiyun.com/wei原创 2021-06-01 22:09:09 · 619 阅读 · 0 评论 -
逻辑回归原理
看了一个很不错的关于逻辑回归的视频,感觉很不错,整理一下 https://www.bilibili.com/video/BV1As411j7zw 逻辑回归,虽然名字里带有回归二字,其实是一个分类模型。为什么叫回归呢,我猜可能是逻辑回归也是在线性回归的基础上推导而来的 假设我们有如下的样本,其中圆形代表的是+1,三角形代表的是-1.对于二分类问题而言,我们就是要找到一条线,把圆形和三角形分开。 现在中间的那条线就是我们想要的线,它的函数是z=WX=w0+w1x1+w2x2 线性回归的z的取值,是整个实数集,而原创 2021-05-30 23:42:46 · 264 阅读 · 2 评论 -
样本不平衡的处理
图片的样本不平衡 可以通过裁剪、翻转等进行数据增强,由于没有做过图片的样本不平衡,所以这里先不说 NLP的样本不平衡 最近在进行文本分类时,发现存在样本不平衡的情况。于是我采用了网上说的几种方法,逐一进行数据增强,发现起到了效果。 这些方法包括: 随机近义词替换(基于已有的词典) 随机近义词替换(基于训练好的word2vec模型) 随机同音词替换(基于已有的词典) 随机删除字词 随机调换字词间的顺序 反向翻译(先将中文翻译成英文,再通过翻译好的英文再翻译回中文) ...原创 2021-05-27 20:29:41 · 450 阅读 · 0 评论
分享