
机器学习
宋应
这个作者很懒,什么都没留下…
展开
-
《我眼中的机器学习》 --1 【数学基石】
【前言】最近有在上一个机器学习培训班,开篇老师就有在将机器学习需要哪些数学知识,总的来说是微积分、概率与数理统计、矩阵、凸优化相关知识。随着老师在讲这些内容,会感觉到自己在重新认识数学的作用。以前学数学,会感觉自己学了过不了多久就忘了,完全不知道这些东西有什么用。现在自己也会不知道这些知识怎么用,不过至少自己能够去感知数学本身所蕴含的那份美,以及他对我们这个世界的描述。【我发现】原创 2015-10-21 20:46:18 · 726 阅读 · 0 评论 -
数据挖掘之数据探索
本文探索: 1. 探索类别特征,查看每个类别特征有多少种类 2. 探索数值特征,离散化方式 3. 去除大多数是同一值的特征 4. 处理时间型特征一、查看每个类别特征有多少种类def FindNumOfCatFeacture(data, feacture_cols, Flag_dropcat = 50): ''' 函数说明:寻找每一个类别特征有多少种种类, 及去除种类多的特征原创 2016-03-31 10:37:32 · 722 阅读 · 0 评论 -
数据探索之缺失值处理及代码实现
在数据挖掘中,前期数据预处理,会涉及到很多缺失值的处理问题。 现以python代码实现为例,看如何具体处理的。所需python包from pandas import Series, DataFrameimport pandas as pd寻找缺失值def FindFeactureNAorValue(data, feacture_cols, axis=0, value = 'NA', prob原创 2016-03-31 10:25:38 · 3656 阅读 · 0 评论 -
XGBoost参数说明
XGBoost Parameters来源:(https://github.com/dmlc/xgboost/blob/master/doc/parameter.md) Before running XGboost, we must set three types of parameters: general parameters, booster parameters and task param原创 2015-12-25 15:35:14 · 4240 阅读 · 0 评论 -
scikit-learn中PCA的使用方法
scikit-learn中PCA的使用方法来源:http://blog.youkuaiyun.com/u012162613/article/details/42192293 参考:sklearn.decomposition.PCA在前一篇文章 主成分分析(PCA) 中,我基于python和numpy实现了PCA算法,主要是为了加深对算法的理解,算法的实现很粗糙,实际应用中我们一般调用成熟的包,本文就结束sci转载 2015-12-23 22:06:03 · 1824 阅读 · 0 评论 -
Python中机器学习库scikit-learn的安装
-前言:使用scikit-learn官网上的方法,安装总是出问题。 其方法为:pip install -U scikit-learn-重新使用下载第三方库到本地安装 需要安装的库有:numpy,scipy,matplotlib,scikit-learn 具体安装方法参考:(http://blog.youkuaiyun.com/songying2012/article/details/50384578)原创 2015-12-23 09:57:04 · 799 阅读 · 0 评论 -
Python第三方库的安装方法
三种安装方式文章参考:(http://www.jb51.net/article/68231.htm)1. 通过setuptools来安装python模块2. 通过pip来安装python模块在cmd中执行命令,pip install -U 库名 卸载库可以用,pip uninstall 库名 查看所有安装库及版本,pip list3. 直接从网上下载下可执行文件来安装三种方法第原创 2015-12-23 09:45:19 · 1170 阅读 · 0 评论 -
xgboost在Python的安装
xgboost在Python的安装第一步:在github下载xgboost,地址:github,xgboost第二步,编译生成xgboost_wrapper.dll(用于python)。用vs打开xgboost-master源文件夹下的windows文件夹,打开解决方案,官方说明是需要使用x64,release,但是我的电脑是win 8.1 32位的,只好选择了win 32转载 2015-12-23 09:21:53 · 8224 阅读 · 0 评论 -
机器学习和数据挖掘推荐书单
机器学习和数据挖掘推荐书单 有了这些书,再也不愁下了班没妹纸该咋办了。慢慢来,认真学,揭开机器学习和数据挖掘这一神秘的面纱吧!《机器学习实战》:本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算转载 2015-10-30 10:31:32 · 1025 阅读 · 0 评论 -
机器学习中评价指标总结
前言评价一个机器学习任务好坏有很多指标,最常见的是准确率(acc),但准确率在某些场合下并不是一个好的评价指标,如在类别不平衡中。其他一些常见的评价指标如下:混淆矩阵,灵敏度,特异性,精确度,召回率,F1度量,Kappa统计… …具体评价指标介绍尝试从评价指标概念,数学表示,应用场所,优缺点等方面介绍准确率(acc)原创 2016-07-20 17:14:28 · 2635 阅读 · 0 评论