- 博客(32)
- 资源 (18)
- 收藏
- 关注
原创 R语言安装.tar.gz包方法
以安装 fUnitRoots 包为例。1.安装Rtools 下载:https://cran.r-project.org/ 点击R Binaries -》windows-》Rtools,下载Rtools33.exe 下载Rtools34.exe,安装在c:\Rtools, 安装时path打上勾,自动添加路径(自动添加路径,免得自己添加带来不必要的麻烦)。2.安装fUnitRoots (
2017-08-28 16:09:22
26457
3
原创 LR用户挖掘,如何选取阈值
在用逻辑回归做潜在用户挖掘时,阀值(Z)的选取是一个头疼的问题。取太高,查全率虽然高了,但是查询条件过于严格,挖掘出的潜在用户过少。取的太低,资源浪费的太多。对于一般的营销而言,这个问题很好解决,只要按照预算,从高往下选取就可以了。但对于其他没有预算约束的情况就比较麻烦。希望下面的公式可以给予一些启发Z=Ln((qc)/(QC))q-发生显性结果的先验概率,比如信用卡用户发生违约的以往
2017-07-13 17:48:53
3353
原创 anaconda2安装igraph
igraph的python 版本使用 http://igraph.org/python/doc/tutorial/install.html#installing-igraph 因为目前要求packages for Python 2.6, Python 2.7 and Python 3.2, 在我已安装anaconda2(基于Python 2.7的)的前提下,在cmd通过命令pip instal
2017-05-24 18:04:23
5594
1
原创 python 判断为空nan, null
pandas 空值定义为numpy.nan对整体的series或Dataframe判断是否未空,用isnull() eg: pd.isnull(df1) #df1是dataframe变量对单独的某个值判断,可以用 np.isnan() eg: np.isnan(df1.ix[0,3]) #对df1的第0行第3列判断nan遇到问题解决:http://www.cnblogs.com/itdyb/
2017-03-14 13:54:40
123021
3
原创 反欺诈资料 搜索与整理
无监督反欺诈 http://www.360doc.com/content/17/0111/22/32626470_621872620.shtmlpython +随机森林 http://blog.youkuaiyun.com/tbdp6411/article/details/49686447
2017-03-03 15:36:40
1400
原创 python 中函数format()函数进行字符串格式化
如下[“{:02d}”.format(i) for i in range(24)] 得到00,…24的字符list. :号后面带填充的字符,只能是一个字符,不指定的话默认是用空格填充,这里用0填充; “{:02d}”.format(i)表示将i变为两位十进制数字的字符串,不够两位用0填充。in[17]:["{:02d}".format(i) for i in range(24)]Out[17]
2017-02-16 23:12:06
7703
原创 anaconda 安装scrapy
scrapy是一个python的爬虫框架。1.首先查看anaconda中是否装有scrapy工具包,具体方法如下: cmd命令中,输入 conda list,查看所有已经安装的工具包及版本号。 发现没有scrapy,。。。 2.输入 conda install -c scrapinghub scrapy ,等待片刻后,提示需要安装的相关工具包。 3.proceed下输入y,回车, 自动进
2017-02-12 11:24:13
4681
原创 python 快速排序法
递归实现快速排序法:def quitsort(arr): if len(arr)<=1: return arr pivot=arr[len(arr)/2] left=[x for x in arr if x<pivot] middle=[x for x in arr if x==pivot] right=[x for x in arr if x
2017-01-19 14:15:12
737
原创 anaconda 中安装seaborn ,plotly,jieba
Seaborn是斯坦福大学出的一个非常好用的可视化包。 原始安装的anaconda 中,并没有包含seaborn,需要安装。 具体安装方法:1.从电脑的开始,打开cmd命令窗口,然后输入 conda install seaborn 或者 anaconda prompt 窗口,输入conda install seaborn 或者 pip install seaborn 在安装的过程
2017-01-18 18:27:23
26708
3
原创 python出错:local variable XXX referenced before assignment
出错:局部变量XXX在定义前被引用 如上在多次调用函数时使用返回的值bestThreshVal 时,提示local variable bestThreshVal referenced before assignment。 原因是,在这个被调用函数中,bestThreshVal 是在if 条件语句中得到的一个局部值,并返回。应该在for 循环外定义bestThreshVal 一个初值。如下简单例子
2016-12-21 15:01:05
11227
1
原创 anaconda 使用import sklearn.model_selection 出错ImportError: No module named model_selection
在anaconda的spider窗口中使用model selection中的函数时,需要import,比如 from sklearn.model_selection import cross_val_score 时出现: ImportError: No module named model_selection 查看原因: 在anaconda中通过如下命令查看sklearn的版本: in:
2016-12-19 13:47:55
3646
原创 navicat for mysql ,从远程数据库中到数据到本地数据库(笨办法)
启动远程的数据库服务器,打开想要导出的数据库中的某表。 有两种简单粗暴的方法: 方法一: 如图,假如想导出表grade,那么选择“导出向导”,选择表类型: 下一步,将表grade导出到指定的路径中,需要选择一些附加项。 假如保存的为txt类型,那么若需要列标题,那么勾选;文本限定符可以选择“ 或‘,分隔符通常用逗号,时间习惯用横杠—隔开。然后,打开本地数据库,现在“导入向导”,(页
2016-12-10 20:27:30
6147
1
原创 python 划分数据集为训练集和测试集
sklearn的cross_validation包中含有将数据集按照一定的比例,随机划分为训练集和测试集的函数train_test_splitfrom sklearn.cross_validation import train_test_split#x为数据集的feature熟悉,y为label.x_train, x_test, y_train, y_test = train_test_spli
2016-12-05 10:42:07
57651
6
原创 R--安装reshape 报错:Package which is only available in source form, and may need compilation of C/C++/Fo
对变量进行重命名(比如data.frame的列名称),有如下几种方法。 假设data.frame 的数据mydata如下: 有4列,想把后两列名称修改为weight1,weight2。方法1:调用交互式编辑器,手动修改。 fix(mydata) 然后弹出数据框 然后将鼠标移动到列名称上,就弹出 修改变量名就可以了。方法2:编程的方式修改,代码如下:library(reshape)
2016-12-03 21:12:00
9109
原创 统计学相关
变量划分: 1.分类数据:对事物的分类结果,用文字描述,例如性别男,女;按照行业分医疗企业,家电企业,纺织品企业。 2.顺序数据:只能归于某一类别的非数字型数据。类别是有顺序的。比如,成绩分为优,良,中,差。 3.数值型数据:按照数字尺度测量的观察值。
2016-12-02 11:55:39
710
原创 python2,绘图title,xlabel,ylabel出现中文乱码
绘制图形时使用了中文标题,会出现乱码 原因是matplotlib.pyplot在显示时无法找到合适的字体。 先把需要的字体(在系统盘C盘的windows下的fonts目录内)添加到FontProperties中。具体解决方法如下: import matplotlib.pyplot as plt from matplotlib.font_manager import FontProp
2016-11-28 14:51:46
9320
原创 win7 anaconda2 安装xgboost
本人用python做数据分析,经常用到pandas,调用sklearn,于是偷个了小懒,直接安装了anaconda,它集成了很多python的工具包,安装也简单。 最近了解了一下GBM(gradient boosting machine),下面博客是一位寒小阳老师根据某次kaggle大赛上使用GBM处理赛事的流程。 http://blog.youkuaiyun.com/han_xiaoyang/artic
2016-11-22 17:33:43
3313
原创 数据预处理之独热编码(One-Hot Encoding)
比如 sex:[“male”, “female”] country: [‘china’,’USA’,’Japan’] 正常数字量化后: “male”, “female”用0,1表示; ‘china’,’USA’,’Japan’用0,1,2表示。 现在有3个样本: [‘male’,‘USA’], [‘male’,‘Japan’], [‘female’,’China’] 处理后:
2016-11-21 16:57:19
3719
1
原创 数据准备--降低基数,连续变量分段
数据准备非常重要: 1.从不同的渠道收集数据; 2.清理数据中意外错误或被认为是极端值的取值; 3.生成衍生的变量(feature)。在数据处理过程,需要进行的操作:当名义变量的取值大于12个,考虑降低基数:1>将相同含义的变量合并; 2>出现频率下的类别被合并为一个新的类别,并给予一个合理的标识,如other。 3>合并变量的类别使得某些预测力指标最大化。 下面是采用决策树的方法,
2016-11-21 16:04:32
5904
原创 信用风险评估之 预测力指标(筛选特征)
在建模时,被用来预测的变量(即feature)相互间不能有很强的相关性,最好完全不存在相关性。 评判变量间的预测力指标有皮尔森相关系数,斯皮尔曼相关系数,皮尔森卡方统计量,概率比,信息值等。1.皮尔森相关系数pearson 连续变量x,y(两列feature), 皮尔森相关系数ρ:取值区间[-1,1]。 0表示无相关性即相互独立,越接近于0,相关性越小; -1为负的强相关性; +1为正的
2016-11-08 15:35:49
7231
原创 信用风险评估评分卡 之 极端值
极端值的产生: 1.数据生成的过程来源于某些未知的函数形式的分布,很难确定哪些观测值是极端值; 2.在获取原始业务数据过程中,产生差错。极端值的识别: 1.为每个变量(feature)设定一个正常的取值范围,超过一定范围视为极端值。如连续feature,这些范围设定为均值+/-3倍标准差。该方法只考虑单个变量。 2.用已知数据拟合模型,严重偏离拟合模型的样本/观测值视为极端值。 3.用聚
2016-11-07 14:12:04
2095
原创 Mysql下载与安装 (出错install/remove of the service denied)
1.在mysql官网下载社区版的mysql : http://dev.mysql.com/downloads/mysql/2.解压版本,下载后只需要解压到指定目录,如D:\program files\mysql。3.安装服务 去cmd命令窗口,进入mysql\bin目录,输入命令安装:mysqld –install 具体操作如下: 但是出错了:install/remove of the
2016-11-06 23:43:20
7152
原创 no module named MySQLdb
win7, python27安装MySQLdb。在上一篇提到安装安装MySQL-Python-1.2.5.win32-py2.7 时出现了 not found in the registry 的问题。按照创建新的register.py的方法,可以成功的register.若想要在python27引入import MySQLdb时,会出现 no module named MySQLdb的错误。重新下载w
2016-08-02 13:49:25
921
原创 python version 2.7 required,which was not found in the registry
安装MySQL-python-1.2.5.win32-py2.7 (64位系统也可以安装)时,出现问题:python version 2.7 required,which was not found in the registry(但是python2.7已经安装了。) 创建新的register.py文件,代码如下:## script to register Python 2.0 or later
2016-08-02 11:57:21
1062
原创 推荐算法之 slope one 算法
1.示例引入多个吃货在某美团的某家饭馆点餐,如下两道菜:可乐鸡翅: 红烧肉: 顾客吃过后,会有相关的星级评分。假设评分如下: 评分 可乐鸡翅 红烧肉 小明 4 5 小红 4 3 小伟 2 3 小芳 3 ? 问题:请猜测一下小芳可能会给“红烧肉”打多少分?
2016-07-15 12:03:30
21474
4
原创 了解推荐系统是什么
1.什么是推荐系统? 也许你不知道什么是推荐系统,但你肯定使用过。淘宝首页,有好货,猜你喜欢等,根据历史浏览记录,个性化推荐相似宝贝。 美团外卖,猜你喜欢。 网易云音乐,私人FM,每日推荐20首歌,推荐歌单等 电商购物、音乐、视频、新闻门户、社交平台好友、餐饮、旅游服务、招聘网以及相亲网等,都涉及推荐系统,推荐系统已经体现在生活的方方面面。2.推荐系统工作原理 利用物品,用户或用户对物品的
2016-07-15 11:11:48
688
原创 发博客字体,字号,颜色设置
使用markdown编辑器很棒,常用的小功能有: 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 而在编辑文字时,需要注意或强调的内容,往往想用不同的颜色或不同的字体标注。可以添加如下脚本实现:<font face="黑体">被设置的文字内容</font><font color=gray size=72>被设置的文字内容</font><font color=#
2016-06-15 16:17:48
1788
2
原创 python中list的拷贝与numpy的array的拷贝
1.python中列表list的拷贝,会有什么需要注意的呢? python变量名相当于标签名。 list2=list1 ,直接赋值,实质上指向的是同一个内存值。任意一个变量list1(或list2)发生改变,都会影响另一个list2(或list1)。 eg: list1[2]=88 list1 [1, 2, 88, 4, 5, 6]
2016-06-15 15:46:51
36722
1
原创 向量,标量对向量求导数
1.已知 对谁求导数,就以谁(分母)作为主序,得出结果。比如这里x是列向量,求Ax关于x求导数,那么对x的每个分量分别求偏导数(写成一行),然后整理排成一列(同x一样是列向量)。 同理有 关于x的转置x.T求导数,x.T是行向量,那么Ax分别对x.T向量中的分量求偏导(写成一列),然后整体排成一行(同x.T是行向量)。2.若A是1×n行向量,x是n×1的列向量, 有 3.若A是n
2016-06-14 17:09:28
67455
26
原创 winpython,安装与使用(anaconda)
winpython套件包含numpy,scipy,sklearn,matplotlib.等,省去了一个个安装的麻烦,尤其是sklearn在window下安装的各种问题。winpython 的多多优点,参考 http://www.cnblogs.com/starimpact/p/3526146.htmlsklearn机器学习开源工具包,官网上的API介绍很详细,有一些数据集,和例子。可以好好学习机器学
2016-04-01 16:03:49
11969
1
集成学习(Bagging ,Boosting ,AdaBoost) PPT
2011-09-15
mapminmax .m与boiler_process.m函数
2011-08-11
Pattern Recognition and Machine Learning
2011-07-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人