机器学习
文章平均质量分 76
geellin
汲取机器学习与算法新鲜血液的渣渣
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
BP神经网络的自适应步长问题
BP中文名为误差后向传播算法,其是针对前馈神经网络的常用训练算法。BP的算法原理资料很多,这里就不一一赘述。一、算法的思考与改进 BP算法虽然很强大,但是其收敛速度慢,训练时间长、容易落入局部最优值等缺点一直为人诟病。而对于BP算法的改进方法有如:自适应步长、增加动量项等。固定步长:如下对于这是简单的线性数据拟合,差不到200+次迭代神经网络才收敛: 调整策略1:原创 2016-03-08 19:38:50 · 12324 阅读 · 2 评论 -
k-近邻算法学习
一、概念与原理 K最近邻(k-Nearest Neighbour,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。原创 2016-04-09 22:17:28 · 667 阅读 · 0 评论 -
新手kaggle比赛总结之一
这是参加的第二个kaggle的比赛,其与前一阵子Expedia比赛很相似,其预测目标集合都是非常大的。这是比赛入口:[https://www.kaggle.com/c/facebook-v-predicting-check-ins](https://www.kaggle.com/c/facebook-v-predicting-check-ins)1、关于赛题比赛题目要求是预测登入原创 2016-06-30 09:59:11 · 4229 阅读 · 0 评论 -
python大规模数据处理技巧之一:数据常用操作
面对读取上G的数据,python不能像做简单代码验证那样随意,必须考虑到相应的代码的实现形式将对效率的影响。如下所示,对pandas对象的行计数实现方式不同,运行的效率差别非常大。虽然时间看起来都微不足道,但一旦运行次数达到百万级别时,其运行时间就根本不可能忽略不计了:故接下来的几个文章将会整理下渣渣在关于在大规模数据实践上遇到的一些问题,并且给予一些技巧的总结,有错误之处望指正。一、外部csv文件原创 2016-06-16 09:14:57 · 32677 阅读 · 0 评论 -
python大规模数据处理技巧之二:机器学习中常用操作
1、 数据预处理随机化操作机器学习中的常用随机化操作中可以使用random包做不重复随机数生成,以此生成的随机数作为数据集下标去截取相应数据集。下面这句简单有效的代码可以帮助实现基本所有的随机化预处理操作。import randomsamp_ids = [i for i in sorted(random.sample(range(nItem),原创 2016-06-21 10:28:33 · 4634 阅读 · 0 评论
分享