
机器学习
山谷來客
君子生非異也,善假於物也。
展开
-
R语言文本读取异常处理
# R语言文本读取异常处理# 分类:垃圾邮件过滤# 案例来源:# 《机器学习:实用案例解析》 第三章 # 处理过程:读取文件下所有的邮件,提取邮件正文# 并将其各自合并在一个向量中放置,最后汇总# 到一个向量中。# 目的:由于书中的代码实际运行时,会暴露出多个错误和# 警告,解决此类问题,同时满足尽可能的不丢弃数据信息原创 2016-03-20 13:33:14 · 2546 阅读 · 0 评论 -
随机森林简单例子
# -*- coding: utf-8 -*-import osimport pandas as pdimport numpy as npos.chdir('E:/MYPROJECT/PythonProject')## 训练集traindata=pd.read_csv("traindata.csv")traindata_colname=list(trai原创 2016-08-10 18:50:48 · 6919 阅读 · 0 评论 -
XGBoost参数调优完全指南(附Python代码)
译注:文内提供的代码和运行结果有一定差异,可以从这里下载完整代码对照参考。另外,我自己跟着教程做的时候,发现我的库无法解析字符串类型的特征,所以只用其中一部分特征做的,具体数值跟文章中不一样,反而可以帮助理解文章。所以大家其实也可以小小修改一下代码,不一定要完全跟着教程做~ ^0^需要提前安装好的库:numpy,matplotlib,pandas,xgboost,scikit-learn转载 2016-11-05 15:57:54 · 2094 阅读 · 1 评论 -
机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博:@leftnoteasy前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解转载 2016-12-14 23:20:46 · 836 阅读 · 0 评论 -
机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 第二篇的文章中谈到,和部门老大一宁出去outing的时候,他给了我相当多的机器学习的建议,里面涉及到很多的算法的意义、学习方法等等。一宁上次给我提到,转载 2016-12-14 23:24:50 · 381 阅读 · 0 评论 -
win10上Anaconda 多版本共存与tensorflow安装
当前环境:win10, Anaconda2,Python2.7目标:在不影响当前软件环境下,安装tensorflow 目前TensorFlow在Windows下只支持Python 3.5版本,而我系统上只装有python2.7。而安装tensorflow需要python的依赖包,所以我选择安装Anaconda 3的版本,省去安装其它包的麻烦。由于平时很多工作还是要用到python2.7原创 2016-12-23 13:48:35 · 11202 阅读 · 2 评论 -
在windows 10环境下安装xgboost
1、 安装MinGW64MinGW64官网下载不稳定,总是失败。我采用其编译器集成包TDM-GCC-64。TDM-GCC-64下载地址:http://tdm-gcc.tdragon.net/。我选择的是:tdm64-gcc-5.1.0-2.exe,如果下载过慢,可以选择切换镜像:如东京。下载完后,再安装即可。或者,可以用其它集成环境,参考:https://www.zhihu.原创 2017-04-16 14:30:17 · 1891 阅读 · 1 评论 -
用XGBoost做时间序列预测—forecastxgb包
文章来源:https://zhuanlan.zhihu.com/p/24236567注:复制的文档中,图片没能复制过来,如需了解详情,请看原文。作为forecast包与xgboost包的重度依赖者,最近看到整合两家之长的forecastxgb包甚是兴奋,便忍不住翻译forecastxgb包的一些时间序列预测例子与大家交流。一.安装目前forecastxgb包还在转载 2017-04-23 23:48:48 · 17875 阅读 · 0 评论 -
评分卡模型剖析(woe、IV、ROC、信息熵)
摘要: 信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。 本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户;则WOE(weight of E信转载 2017-11-08 13:41:35 · 1359 阅读 · 0 评论