机器学习的算法大家都明白,关键是经验的多少。
总结“http://www.52ml.net/15845.html”:
1. 损失函数
不一定使用常规的,需要按照具体问题修改。
2. 别拿线性模型用在非线性问题上
3. 注意“野值”:是特殊处理,还是可以忽略不计。过滤或者使用对野值不敏感的算法
4. 样例数量相对特征数据量少,用高bias/低variance模型(欠拟合);反之,样例数量增多时,用低bias/高variance模型(过拟合)
http://en.wikipedia.org/wiki/Bias%E2%80%93variance_dilemma
5. l1, l2 正规化,需要先标准化:http://blog.youkuaiyun.com/sunmenggmail/article/details/8867928