
python
文章平均质量分 59
changzoe
这个作者很懒,什么都没留下…
展开
-
【模型指标】ks,gini值,auc的关系
做风控也很久了,一直没有整理ks,gini,auc的关系,下边简单谈一下自己的理解,立下flag,以后每两天更新一篇,谈谈自己对指数的理解。先说一下ksks值和ks曲线:将所有样本根据分数值从低到高排序(即坏账率从高到低)均分成10组,分别计算这10组的实际好样本数、坏样本数、累积好样本数、累积坏样本数、累积好样本数占比、累积坏样本数占比,差值。其中实际好坏样本数分别为该组内的好坏样本数,累...原创 2019-11-06 14:45:36 · 1515 阅读 · 0 评论 -
【numpy】查询手册
所有函数见:函数查询中文.函数查询以下重点写常用到的一些函数:正态分布f(x)=12π−12πσexp(−(x−μ)22σ2)f(x)=12π− \frac{1}{2\pi\sqrt σ} exp(− \frac{(x−μ)^2}{2 σ^2})f(x)=12π−2πσ1exp(−2σ2(x−μ)2)#从某一分布(由均值和标准差标识)中获得样本mu, sigma = 0, ...原创 2019-11-06 11:50:20 · 610 阅读 · 0 评论 -
【pandas】查询手册
对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势。参考(1)官网:http://pandas.pydata.org(2)https://bigquant.com/docs/#/other?id=数据透视表在以下中,我们使用...原创 2019-10-29 17:15:45 · 467 阅读 · 0 评论 -
pandas列联表crosstab透视图pivot_table总结
pandas.pivot_table 透视表导入数据 pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc=’mean’, fill_value=None, margins=False, dropna=True)参数:data : DataFramevalues : co...原创 2018-07-31 14:47:24 · 11017 阅读 · 0 评论 -
复杂网络特征与networkx实现------(二)
图的类型 Graph类是无向图的基类,无向图能有自己的属性或参数,不包含重边,允许有回路,节点可以是任何hash的python对象,节点和边可以保存key/value属性对。该类的构造函数为Graph(data=None,**attr),其中data可以是边列表,或任意一个Networkx的图对象,默认为none;attr是关键字参数,例如key=value对形式的属性。 MultiGra...原创 2018-07-17 11:51:55 · 11627 阅读 · 3 评论 -
分位数-hive,sas,r,python求法
为了方便,总结如下:hivepercentile函数和percentile_approx函数,其使用方式为percentile(col, p)、percentile_approx(col, p),p∈(0,1)其中percentile要求输入的字段必须是int类型的,而percentile_approx则是数值类似型的都可以 其实percentile_approx还有一个参数B...原创 2018-06-27 15:01:18 · 2411 阅读 · 0 评论 -
jupyter入门
参考文档: https://www.cnblogs.com/nxld/p/6566380.html原创 2018-05-31 15:00:41 · 524 阅读 · 0 评论 -
词频计算
tf_idfTF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用,如从一篇文章中找到它的关键词。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在...原创 2018-06-04 10:53:01 · 7593 阅读 · 0 评论 -
pandas 根据列的值选取所有行
选取等于某些值的行记录 用 ==df.loc[df[‘column_name’] == some_value]选取某列是否是某一类型的数值 用 isindf.loc[df[‘column_name’].isin(some_values)]多种条件的选取 用 &df.loc[(df[‘column’] == some_value) & df[‘other_...原创 2018-09-03 15:07:24 · 20017 阅读 · 3 评论 -
scikit-learn决策树
1、scikit-learn决策树算法类库介绍 scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法,既可以做分类,又可以做回归。分类决策树的类对应的是DecisionTreeClassifier,而回归决策树的类对应的是DecisionTreeRegressor。两者的参数定义几乎完全相同,但是意义不全相同。下面就对DecisionTreeClassifier和...原创 2018-09-13 14:45:47 · 703 阅读 · 0 评论 -
matplotlib批量生成子图--用于比较分析
##################################################################0912 画图#################################################import numpy as npimport pandas as pdimport networkx as nximport matplot...原创 2018-09-13 14:47:23 · 920 阅读 · 0 评论 -
【数据准备】_变量分析和随机抽样_python &R
1.单变量分析计算gini值,或者iv或者ks见另一篇文章2.多变量分析计算皮尔逊相关系数pythonimport matplotlib.pyplot as pltimport seaborn as snsdata3_corr=data3.corr()data3_corr.to_csv('trade_5_csv.csv')sns.heatmap(data3_corr)p...原创 2019-01-15 19:54:52 · 526 阅读 · 0 评论 -
python 矩阵,列表转换tolist()
from numpy import *a1 =[[1,2,3],[4,5,6]] #列表print(‘a1 :’,a1)#(‘a1 :’, [[1, 2, 3], [4, 5, 6]])a2 = array(a1) #列表 -----> 数组print(‘a2 :’,a2)#(‘a2 :’, array([[1, 2, 3],[4, 5, 6]]))a3 = mat(a1)...转载 2019-01-22 10:57:23 · 10911 阅读 · 0 评论 -
pandas常见报错
问题1’utf-8’ codec can’t decode byte 0xc4 in position 0: invalid continuation byte解决:加入encoding=‘gbk’data1=pd.read_csv(‘ZQ_MINI_MODEL_TOTAL.csv’,encoding=‘gbk’)原创 2019-04-08 11:32:14 · 602 阅读 · 0 评论 -
python解析txt转为csv
txt格式为:以下解析为csvimport numpy as npimport pandas as pdimport networkx as nximport matplotlib.pyplot as pltimport os,sysimport reos.chdir('/Users/cc/Documents/cc工作 对内生意金/05.征信版_qdy') f1=open...原创 2019-04-14 15:33:40 · 3042 阅读 · 0 评论 -
【pandas】常用统计指标
1. 分位数pandas 和 numpy中都有计算分位数的方法,pandas中是quantile,numpy中是percentile两个方法其实没什么区别,用法上稍微不同,quantile的优点是与pandas中的groupby结合使用,可以分组之后取每个组的某分位数quantileimport numpy as npimport pandas as pdimport networ...原创 2019-04-28 18:41:25 · 1249 阅读 · 0 评论 -
python3数据处理(一)-- 解析XML,Excle文件
读取XML结构本文用xml.etree包from xml.etree import ElementTree as ET#parse返回一个python对象tree = ET.parse('C:/Users/elenawang/Documents/data/datatext.xml')#获得树(tree)的根元素root = tree.getroot()print(root)#<Element原创 2018-01-18 14:01:39 · 2510 阅读 · 2 评论 -
python3爬虫(二)-使用beautiful soup 读取网页
HTML常用标签Beautiful Soup简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautifu原创 2018-01-17 16:53:19 · 9686 阅读 · 0 评论 -
python3 爬虫(一)--初识urllib
什么是Urllib库Urllib是Python提供的一个用于操作URL的模块,我们爬取网页的时候,经常需要用到这个库。升级合并后,模块中的包的位置变化的地方较多。在此,列举一些常见的位置变动,方便之前用Python2.x的朋友在使用Python3.x的时候可以快速掌握。常见的变化有:在Pytho2.x中使用import urllib2——-对应的,在Python3.x中会使用imp原创 2018-01-17 14:50:16 · 771 阅读 · 0 评论 -
python返回连续递增子序列的长度
针对全是数字的序列如电话号码 在反欺诈的运用里,很重要的一部分是电话号码欺诈 我们认为电话号码中出现“12345”就是欺诈号码 那么如何找出这种欺诈号码?'''函数找出电话号码中诸如’123456‘的连续递增子序列的长度'''def LIS(l): n=len(l) F=[1]*n for i in range(1,n): if int(l[i]原创 2017-12-27 14:07:27 · 2644 阅读 · 0 评论 -
pandas plot出图
使用的 matplotlib 仅仅是用来 show 图片的, 即 plt.show()。转载 2017-12-15 14:07:05 · 11792 阅读 · 0 评论 -
pandas学习之合并merge
pandas中的merge和concat类似,但主要是用于两组有key column的数据,统一索引的数据. 通常也被用在Database的处理当中.转载 2017-12-15 11:33:18 · 3203 阅读 · 0 评论 -
itertools学习笔记
itertools用于高效循环的迭代函数集合原创 2017-12-22 17:07:32 · 409 阅读 · 0 评论 -
CSV模块学习
**csv模块**原创 2017-12-12 10:16:00 · 656 阅读 · 0 评论 -
Python利用matplotlib做图中图及次坐标轴
图中图次坐标轴两个Y轴怎么画原创 2017-12-20 11:54:13 · 20198 阅读 · 0 评论 -
python之subplot,subplot2grid,gridspec,subpplots分图、分格展示
subplot分图展示均匀分图matplotlib 是可以组合许多的小图, 放在一张大图里面显示的. 使用到的方法叫作 subplot. 使用import导入matplotlib.pyplot模块, 并简写成plt. 使用plt.figure创建一个图像窗口.import matplotlib.pyplot as pltplt.figure()使用plt.subplot来创建小图. plt.s原创 2017-12-19 18:23:12 · 18144 阅读 · 2 评论 -
pandas学习之concat合并及读写CSV文件
读取CSV文件读取中文的CSV文件中有中文,用“UTF-8”会出现乱码问题,解决:原创 2017-12-15 11:03:39 · 11806 阅读 · 0 评论 -
matplotlib数据展现的基本用法
主要是figure图像和坐标轴的设置。转载 2017-12-19 11:30:13 · 1141 阅读 · 0 评论 -
matplotlib学习之图例,标注,透明度
主要为legend图例,annotate(),text()标注,以及tick()能见度原创 2017-12-19 11:57:08 · 36006 阅读 · 2 评论 -
json学习以及csv和json转化
资料:https://docs.python.org/2/library/json.html JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于人阅读和编写读取CSV这里写代码片1**. 将 Python 对象编码成 JSON 字符串**Encode过程,是把python对象转换成json对象的一个过程,常用的两个函原创 2017-12-12 11:51:00 · 955 阅读 · 0 评论 -
python3 数据处理(二)-- 清洗数据
利用spyder3.5编程我们研究的一个mn.csv文件,标题为: HH1 HH2 LN MWM1 MWM2 MWM4 MWM5 MWM6D MWM6M MWM6Y MWM7 MWM8 MWM9 这种形式我们找到这些缩写标题的具体含义,并存于mn_headers.csv文件中 那么如何将这些标题与调查数据一一对应,使得文件更可读?下面原创 2018-01-24 18:28:14 · 2774 阅读 · 0 评论 -
逻辑回归及其python实现
逻辑回归原理sigmod函数下图给出了sigmod 函数在不同坐标尺度下的两条曲线图。当 x 为 0 日牝 Sigmoid 函数值为 0.5 。 随着 1 的增大,对应的sigmod值将逼近于 1; 而随着 x 的减小, Sigmoid 值将逼近于 0 。如果横坐标 刻度足够大(下图 ),sigmod 函数看起来很像一个阶跃函数。原理 上图,将y作为正例的可能性,则1-y是反例的可能性•原创 2017-12-29 16:12:50 · 999 阅读 · 0 评论 -
评估方法与CrossValidation交叉验证
评估方法关键:怎么获得“测试集”(test set) ?测试集应该与训练集“互斥”常见方法:留出法 (hold-out)交叉验证法 (cross validation)自助法 (bootstrap)留出法注意: 保持数据分布一致性 (例如: 分层采样) 多次重复划分 (例如: 100次随机划分) 测试集不能太大、不能太小 (例如:1/5~1/3)k-折交叉验证法自助法 sklearn原创 2017-12-29 14:29:01 · 4301 阅读 · 0 评论 -
机器学习之奇异值分解SVD及应用于协同过滤推荐和LSA潜在语义分析
隐形语义分析LSA隐形语义分析(LSA)是一种自然语言处理中用到的方法,又称为隐形语义索引 LSI,其通过“矢量语义空间”来提取文档与词中的“概念”,进而分析文档与词之间的关系。LSA的基本假设是,如果两个词多次出现在同一文档中,则这两个词在语义上具有相似性。LSA使用大量的文本上构建一个矩阵,这个矩阵的一行代表一个词,一列代表一个文档,矩阵元素代表该词在该文档中出现的次数,然后再此矩阵上使用奇异值原创 2017-12-22 12:07:12 · 1451 阅读 · 0 评论 -
集成学习Adaboost算法及python实现及sklearn包的调用
集成方法(ensemble method)集成方法主要包括Bagging和Boosting两种方法。bagging 基于数据重抽样的分类器构建方法在Bagging方法中,主要通过对训练数据集进行随机采样,以重新组合成不同的数据集,新数据集和旧数据集大小相等,利用弱学习算法对不同的新数据集进行学习,得到一系列的预测结果,对这些预测结果做平均或者投票做出最终的预测。注:随机森林算法是基于Baggin原创 2017-12-28 14:20:25 · 20598 阅读 · 0 评论 -
python与R画柱形图
python利用matplotlib.pyplot画柱形图:R画柱形图原创 2017-12-19 16:14:46 · 1056 阅读 · 0 评论 -
散点图的python和R展现以及热力图与向日葵散点图
散点图的python和R展现以及热力图与向日葵散点图原创 2017-12-19 14:58:54 · 6757 阅读 · 0 评论 -
python 3d图
首先在进行 3D Plot 时除了导入 matplotlib ,还要额外添加一个模块,即 Axes 3D 3D 坐标轴显示:原创 2017-12-19 17:37:02 · 6068 阅读 · 0 评论