
《Machine Learning in Action》
文章平均质量分 50
mmc2015
北大信科学院,关注深度强化学习。http://net.pku.edu.cn/~maohangyu/
展开
-
机器学习实战——第一章:机器学习基础
本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。python:建议使用2.7python常用函数库:NumPy、scikit-learn等python集成环境:anaconda原创 2015-05-17 08:46:05 · 746 阅读 · 0 评论 -
机器学习实战——第九章:树回归
本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。python:建议使用2.7python常用函数库:NumPy、scikit-learn等python集成环境:anaconda毕业季,玩了20天。为什么需要树回归:当数据拥有众多特征并且特征之间关系十分复杂时,构建全原创 2015-06-29 19:25:25 · 964 阅读 · 0 评论 -
机器学习实战——第十三/十四章:利用PCA和SVD来简化数据
本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。python:建议使用2.7python常用函数库:NumPy、scikit-learn等python集成环境:anaconda毕业季,玩了20天。降维的好处:使数据集更易使用;降低算法开销;去除噪声;使结果更原创 2015-06-30 08:22:02 · 1336 阅读 · 0 评论 -
机器学习实战——第十一/十二章:关联规则挖掘Apriori算法和FP-growth算法
本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。python:建议使用2.7python常用函数库:NumPy、scikit-learn等python集成环境:anaconda毕业季,玩了20天。Apriori缺点:只关心物品是否出现,不关心出现的次数。每次增加频繁原创 2015-06-29 20:21:16 · 3838 阅读 · 0 评论 -
机器学习实战——第十章:K-mean聚类
本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。python:建议使用2.7python常用函数库:NumPy、scikit-learn等python集成环境:anaconda毕业季,玩了20天。优点:1、编程容易实现。缺点:原创 2015-06-29 19:44:26 · 2090 阅读 · 0 评论 -
机器学习实战——第八章:用回归预测数值型数据
本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。python:建议使用2.7python常用函数库:NumPy、scikit-learn等python集成环境:anaconda毕业季,玩了20天。使用时注意事项:0、线性回归和非线性回归:线性回归意味着可以将原创 2015-06-25 20:24:54 · 1678 阅读 · 0 评论 -
机器学习实战——第七章:处理非均衡分类问题
在前面六章的所有分类介绍中,我们都假设所有类别的分类代价是一样的。坦白地说,在大多数情况下不同类别的分类代价并不相等,如治病我们情愿误判也不愿漏判,垃圾邮件,可以使收件箱里出现垃圾邮件,但不希望正常邮件放进垃圾邮件夹中。在本节中,我们将会考察一种新的分类器性能度量方法,并通过图像技术来对在上述非均衡问题。1、混淆矩阵:争取率、召回率2、ROC曲线:接受者操作特征原创 2015-06-24 10:17:50 · 1142 阅读 · 0 评论 -
机器学习实战——第七章:AdaBoost元算法
本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。python:建议使用2.7python常用函数库:NumPy、scikit-learn等python集成环境:anaconda毕业季,玩了20天。优点:1、最好的监督学习方法:泛化错误率低,易实现,无原创 2015-06-24 09:19:22 · 1247 阅读 · 0 评论 -
机器学习实战——第六章:支持向量机
本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。python:建议使用2.7python常用函数库:NumPy、scikit-learn等python集成环境:anaconda毕业季,玩了20天。优点:1、泛化错误率低,计算开销小,结果易解释。原创 2015-06-24 09:09:03 · 1445 阅读 · 0 评论 -
机器学习实战——第五章:Logistic回归
本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。python:建议使用2.7python常用函数库:NumPy、scikit-learn等python集成环境:anaconda优点:1、简单、易于理解缺点:1、容易欠拟合,效果不很好2、要求error函数在当前点是有定义、并原创 2015-05-17 10:29:33 · 1339 阅读 · 0 评论 -
机器学习实战——第四章:朴素贝叶斯
本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。python:建议使用2.7python常用函数库:NumPy、scikit-learn等python集成环境:anaconda优点:1、可以处理多元分类问题2、对异常值不敏感3、训练数据较少也比较有效4、简单高效缺点:原创 2015-05-17 09:55:26 · 904 阅读 · 0 评论 -
机器学习实战——第三章:决策树ID3/C4.5
本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。python:建议使用2.7python常用函数库:NumPy、scikit-learn等python集成环境:anaconda优点:1、容易理解,能给出数据的内在含义2、对异常值不敏感3、容易将树转换为规则4、能够将训练好的决策树存原创 2015-05-17 09:06:04 · 1055 阅读 · 0 评论 -
机器学习实战——第二章:K-近邻算法
本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。python:建议使用2.7python常用函数库:NumPy、scikit-learn等python集成环境:anaconda优点:对异常值不敏感、无数据输入假设缺点:计算复杂度高(对每一个测试样本要跑一边KNN,距离计算也很耗时)、空间复杂度高(原创 2015-05-17 08:54:49 · 968 阅读 · 4 评论 -
机器学习实战——总结
第一:看源码陷入了代码的细节,不能从本质上理解某些算法,仅仅达到了会使用的程度,SVM是最大的证明。第二:有些时候看看源码才会知道某些算法的使用是非常灵巧的,如决策树和CART的结合。第三:本质上是一种之前工作的重复,没有实质性新的认识,以后看东西一定要注意筛选,不要老重复已有的工作。。。。。毕业了。。。。。原创 2015-06-30 09:25:46 · 840 阅读 · 0 评论