- 博客(5)
- 收藏
- 关注
转载 机器学习中训练集和测试集比例
在搜索机器学习相关信息偶然看到一篇文章的图片。了解不同数据情况下的数据配比。这里记录下:当数据量比较小时,可以使用 7 :3 训练数据和测试数据(西瓜书中描述 常见的做法是将大约 2/3 ~ 4/5 的样本数据用于训练,剩余样本用于测试)或者 6: 2 : 2 训练数据,验证数据和测试数据当数据量非常大时,可以使用 98 : 1 : 1 训练数据,验证数据和测试数据 这个配比...
2018-11-06 17:24:18
42894
2
原创 mac软件安装工具HomeBrew
Homebrew简称brew,OSX上的软件包管理工具,在Mac终端可以通过brew安装、更新、卸载软件。 安装过程打开终端直接输入下面指令回车: ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" 注意:如果当前的用户是管理员,需要对权限进行许可,在...
2018-08-24 19:51:15
532
转载 统计学三大相关系数
(转自 微信公众号克里克学苑)三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。person correlation coefficient(皮尔森相关性系数)公式如下: 重点关注第一个等号后面的公式,最后面的是推导...
2018-08-24 11:11:42
45466
1
转载 机器学习常用的归一化方法
在机器学习中,数据归一化是非常重要,它可能会导致模型坏掉或者训练出一个很奇怪的模型,为了让机器学习的模型更加适合实际情况,需要对数据进行归一化处理。1.机器学习中常用的归一化方法:2. 不同归一化方法分析:2.1 线性变换和极差法(线性归一化)将原始数据线性化的方法转换到[0 1]的范围,该方法实现对原始数据的等比例缩放。通过利用变量取值的最大值和最小值(或者最大值)将原始...
2018-08-21 14:24:47
1544
转载 常用距离公式
余弦距离公式 余弦相似度用向量空间中两个向量的夹角的余弦值来衡量两个文本间的相似度,相比距离度量,余弦相似度更加注重两个向量在方向上的差异,一般情况下,用Embedding得到两个文本的向量表示之后,可以使用余弦相似度计算两个文本之间的相似度。计算公式如下: Jaccard(杰卡德)距离 主要用...
2018-08-21 11:36:54
3016
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人