- 博客(17)
- 收藏
- 关注
原创 数据对象的属性(特征)类型
在数据挖掘/机器学习过程中,当我们在对属性进行处理时,分清属性的类型是有必要的,不同类型的属性需要使用不同的处理方法,如在对对象的标识列进行处理时,对该列进行数学运算是没有意义的,因为对象的标识列一般是标称属性,只是起到唯一标识的作用。
2017-07-19 09:43:44
11604
原创 数据规范化(归一化)方法
数据挖掘中,在训练模型之前,需要对特征进行一定的处理,最常见的处理方式之一就是数据的规范化。数据的规范化的作用主要有两个:去掉量纲,使得指标之间具有可比性;将数据限制到一定区间,使得运算更为便捷。
2017-06-22 09:03:38
20168
原创 过拟合的解决方法
数据挖掘的实际工程中,常常出现模型在训练数据集上的效果好,而在测试集上的效果差的情况,也就是模型的泛化能力很差,这就是常说的过拟合。此处给出几种常见的过拟合解决方法。
2017-06-20 19:49:54
1202
原创 多重共线性的解决方法
多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
2017-06-19 16:18:20
24025
原创 主成分分析的计算方法
主成分分析(Principal Component Analysis,PCA),是通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
2017-06-19 15:40:03
14612
原创 20瓶药里面有19瓶真药和1瓶假药
20瓶药里面有19瓶真药和1瓶假药,已知每颗真药的重量是1g,假药的重量是1.1g,现有一架精度很高的天枰。问怎么只称一次就能找出其中的那瓶假药。
2017-04-25 16:46:30
5859
原创 下面哪个函数不能作为C++ std::sort的比较函数。
看到过阿里巴巴的一道笔试题,题目是:下面哪个函数不能作为C++ std::sort的比较函数。刚开始拿到这个题不知道出题的考点在哪,所以不知道怎么做,直到看到另外一篇博客(博客地址:http://blog.youkuaiyun.com/lingling_1/article/details/46453013)我才恍然大悟。
2017-04-25 15:55:48
1783
原创 在防止溢出的情况下求两个整数的平均数。(向下取整)
已知两个整数a、b,a和b的值均没有出现溢出,而a + b有可能出现溢出,现在需要在防止溢出的情况下求a和b的平均值,该平均值取其实际值的向下取整。
2017-04-21 23:34:28
1536
原创 猜帽子颜色问题(阿里巴巴面试题)
10个人从前往后站成一排,每人头上戴一顶帽子,帽子的颜色要么是黑色,要么是白色,每个人只能看到自己前面的人的帽子的颜色,但是能听到他后面的人所讲的话。当他们带上帽子后,从最后一个人开始说自己头上帽子的颜色。在带上帽子前,犯人们可以自己提前商量一个策略(只能说一个数字和一个汉字,这个汉字是要么是黑,要么是白),使得获救的人数最多。问应该如何设计这个策略。
2017-04-18 15:36:44
14099
1
原创 轮流拿(取)东西问题
假设有A、B两个人,轮流从一堆物品中拿物品,每次只能拿限定的个数,判断谁一定会拿到最后一个物品或者要想拿到最后一个物品应该采取什么样的策略。
2017-04-18 14:44:42
17902
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人