
数据分析
Bonus_F
To move the world with data
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive以及常用函数介绍和总结
前言hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工...转载 2019-06-16 15:16:36 · 2827 阅读 · 0 评论 -
Python 内置函数 filter()、map()、reduce()的使用对比
前言filter(), map(), reduce()三个内置函数在我们数据过滤、清洗和映射中发挥着重要的作用1.filter(function, iterable)function -- 判断函数。 iterable -- 可迭代对象。你可以把 filter 当成一个过滤器,用来选择原来 list 中满足特定条件的 valuedef f(x): return x %...原创 2019-07-09 21:18:25 · 452 阅读 · 0 评论 -
大数据风控---Vintage在金融信贷领域的运用实践
前言vintage这个词源于葡萄酒业,意思是葡萄酒的酿造年份,主要用来分析和管理葡萄酒年份对于酒的品质影响问题研究。在现代金融领域,同理,在比较放贷质量的时候,按账龄(month of book,MOB)的长短同步对比,从而了解同一产品不同时期放款的资产质量情况。vintage是用来监控、预测和分析资产质量好坏的重要手段和依据,是风险量化和精细化管理的重要指标。 1.vintage...原创 2019-07-16 09:05:08 · 12489 阅读 · 0 评论 -
python pandas常用语法与实操
前言由于工作的原因,现在使用R较少,使用Python的频率较高,将给大家分享在工作中用到python使用技巧和相关的代码。安装Anaconda64, 推荐使用jupyter notebook或者Spyder来做数据分析和建模,开发建议使用Pycharm1、安装pandaswin+R---->cmd , 或者从Anaconda Prompt启动安装pip install ...原创 2019-07-05 19:33:27 · 1822 阅读 · 1 评论 -
python ---测算代码运行时间
前言为了提高代码的运行效率,需要测算每一步的运行时间。####jupyter notebook 版本1.单次运行时间%%timemuch_job = [x**2 for x in range(1,10000000,4)]2.测算代码多次运行平均时间%%timeit -n 10g= lambda x:x**3+3def main(): return(g(2)...原创 2019-07-11 11:14:46 · 511 阅读 · 0 评论 -
大数据风控---信用模型新老模型对比
前言一个模型部署上线之前,我们要进行更新迭代,如何对新老模型做一个效果对比分析呢?下面将介绍几个常用的方法方法一:常用的模型评估指标,如:ROC、AUC、KS、Gini值越大,区分度越高,模型效果越好;RMSE,越小模型越好;方法二:简单易懂可解释性强法将建模样本、test样本或者OOT(out of time)数据,根据模型评分大小顺序排序,切分成20等分,计算每组的标签客户...原创 2019-07-18 14:08:58 · 1214 阅读 · 0 评论 -
Linux---在大数据风控运营中常用指令
前言在大数据风控领域,Linux运用主要是运维使用较多,比如:1.实现数仓的定时调度,2.将Python模块部署到服务器实现定时邮件监控,3.搭建数据分析平台,4.线上数据库运维等,下面将介绍Linux在大数据风控领域日常的运用实践。Linux经常使用的命令汇总1.文件和目录cd /home 进入 '/ home' 目录'cd .. 返回上一级目录cd ../.. 返回上两级...转载 2019-07-25 16:55:32 · 515 阅读 · 0 评论 -
大数据风控---互信息及Python实现
前言信息增益表示得知特征空间X的信息而使得类Y的信息不确定性减少的程度。信息增益依赖于特征,不同的特征往往具有不同的信息增益,信息增益大的特征具有更强的分类能力。在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度;不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布...原创 2019-07-22 18:44:57 · 12870 阅读 · 5 评论 -
Python---快速入手pandas进行数据分析
前言不废话,直接盘加载模块import pandas as pdimport numpy as np导入数据 pd.read_csv(filename,dtype=str):从CSV文件导入数据 [header=1,delim_whitespace=True,delimiter="\t",parse_dates=['OCC_TIM'],error_bad_l...转载 2019-07-30 09:51:12 · 428 阅读 · 0 评论 -
Python 数据顺序和分位数排序等分成20分
前言数据切分#方法1:#随机生成0-100的整数number=[]for i in range(0, 100): # 3.生成随机数 num = np.random.randint(0,100) # 4.添加到列表中 number.append(num)print(number)#切分成等分20份number1=pd.qcut(number,...原创 2019-07-09 15:07:12 · 5360 阅读 · 0 评论 -
Python DataFrame基本操作总结
前言python中DataFrame是我们进行数据分析和建模过程中使用度最频繁的1.构建DataFramepandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)data:numpy ndarray(结构化或同类),dict或DataFrame,Dict可以包含Series,数组,常量...原创 2019-07-09 14:50:13 · 2586 阅读 · 0 评论 -
Excel在数据分析和日常工作的运用
前文概要 Excel作为日常使用率较高的工具,不仅提供了强大的数据处理函数,同时也提供了编程功能,实现定制化的数据处理能力,下面将简要介绍excel在我们日常工作中涉及到的数据处理功能,欢迎大家补充;我常用的处理方法是遇到问题才去查询,但是这样效率会比慢,不如平时积累一些。一、Excel数据分析常用函数汇总excel的函数使用非常的多,如下将总结和介绍我们常用的函数介绍,欢迎...转载 2019-06-11 16:15:28 · 25627 阅读 · 7 评论 -
数据分析(二)---HBase库介绍
前言 在传统运用中,我们主要以线上MySQL库为主,T+1备份到线下的Oracle库的方式实现数据存储的最优方案,这些传统数据库是基于表格结构和行存储,其没有建立索引将耗费大量的I/O并且建立索引和物化试图需要耗费大量的时间和资源;而HBase是基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的,这样的好处是数据即是索引,访问查询涉及的列大量降低系统的I/O,并且每一列由...原创 2019-06-11 20:22:34 · 356 阅读 · 0 评论 -
MYSQL---基础运用
前言MYSQL是数据分析师、建模工程师、算法工程师和数据科学家最最基本的能力,但是也是应该最广的基本技能之一,可以说是可以伴随我们整个技术人的整个职场生涯,鉴于非常多的大咖已经做了很多优秀的总结,我仅进行一些汇总工作,站在前人的肩膀之上才能看得远,后面我会分享很多原创信息。一.入门学习建议文章链接:SQL入门学习建议二.教学教程教程1:MYSQL教程-菜鸟教程教程2:MyS...原创 2019-06-14 19:24:06 · 466 阅读 · 0 评论 -
通过身份证号码特定编码进行多样化统计分析
前言构成地址码 (身份证前六位)表示编码对象常住户口所在县(市、旗、区)的行政区划代码。生日期码 (身份证第七位到第十四位)表示编码对象出生的年、月、日,其中年份用四位数字表示,年、月、日之间不用分隔符。例如:1981年05月11日就用19810511表示。顺序码 (身份证第十五位到十七位)为同一地址码所标识的区域范围内,对同年、月、日出生的人员编定的顺序号。其中第十七位...原创 2019-06-25 10:20:08 · 554 阅读 · 0 评论 -
mysql语句查询优化技巧
检查问题常用的 12 个工具:MySQL mysqladmin:MySQL 客户端,可进行管理操作 mysqlshow:功能强大的查看 shell 命令 SHOW [SESSION | GLOBAL] variables:查看数据库参数信息 SHOW [SESSION | GLOBAL] STATUS:查看数据库的状态信息 information_schema:获取元数据的方法 S...转载 2019-06-18 14:19:58 · 174 阅读 · 0 评论 -
R语言 基本语法和入门资料学习参考
前言首先介绍一下R语言的基本语法结构,现在文章和书籍都非常的多和完善了,楼主接触R语言(2013)还不是很热门,看了非常多的资料花了不少钱买书,如果有想看的R语言的书籍可以给我留言要看的书籍名称或者私信我,我尽量分享电子书给大家。后面将更新使用R语言做数据分析、数据挖掘和机器学习等。分享基本R语言常用的几本书,供大家学习。知识在于分享,独乐不如众乐。R语言软件安装:软件安装基本语法参考...原创 2019-06-26 16:40:15 · 1357 阅读 · 1 评论 -
R---逻辑回归模型流程
#工作路径设置setwd('C:\\Users\\Documents\\R语言') data<-read.csv("logitcredit.csv",header=T)str(data)n<-nrow(data)n# ####定义变量角色 --------------------------------------------------------------...原创 2019-07-02 10:18:13 · 1852 阅读 · 2 评论 -
R语言建模---Home Credit Default Risk
前言这是kaggle上关于Credit Risk的一个建模流程,其中非常有重要参考价值的点在于其衍生变量构造这个板块,值得我们借鉴。#数据下载地址:https://www.kaggle.com/c/home-credit-default-risk/data###########建模流程#############加载需要使用的包library(tidyverse)librar...转载 2019-07-02 10:25:03 · 1333 阅读 · 2 评论 -
R 语言连接数据库(mysql & oracle)
#连接oraclelibrary(RJDBC)drv<-JDBC("oracle.jdbc.driver.OracleDriver","ojdbc6_g.jar", identifier.quote="\"") ##java中JDBC的套路conn<-dbConnect(drv,"jdbc:oracle:thin:@172.18.10.77:1521","test","te...原创 2019-07-02 10:27:16 · 259 阅读 · 0 评论 -
Python Numpy常用使用技巧
前言NumPy是一个功能强大的Python库,主要用于对多维数组执行计算。NumPy这个词来源于两个单词--Numerical和Python。NumPy提供了大量的库函数和操作,可以帮助使用者轻松地进行数值计算。这类数值计算广泛用于以下任务: 机器学习模型:在编写机器学习算法时,需要对矩阵进行各种数值计算。例如矩阵乘法、换位、加法等。NumPy提供了一个非常好的库,用于简单(在编写代码...原创 2019-07-09 11:37:48 · 596 阅读 · 0 评论 -
mysql和oracle时间处理对比分析
前言在日常当中我们经常涉及通过时间来提取相关数据,下面将总结mysql和oracle常用时间处理方法一、MysqlSELECT NOW() FROM DUAL;-- 获取当前日期时间备注1:-- 在MySQL里也存在和Oracle里类似的dual虚拟表:官方声明纯粹是为了满足select ... from...这一习惯问题;SELECT NOW();-- 不适用DUAL这个虚拟...转载 2019-06-24 16:35:22 · 4273 阅读 · 0 评论 -
mysql和oracle常用日期函数总结
前言日期处理是一个比较繁琐的事情,通常可以针对具体问题百度和查询资料进行处理,所谓:具体问题,具体分析一、mysql常用处理函数SET @dt = '2019-06-24';--设定具体某一天时间1.extract(属性 from date)从时间中截取固定属性的日期,可以直接运行下面代码,获取自己所需的逻辑SELECT EXTRACT(YEAR FROM '2017-0...原创 2019-06-24 18:00:13 · 5185 阅读 · 0 评论 -
R 语言快速构建信用评分卡模型---scorecard包
前言R 语言快速构建机器学习,基于某大佬的scorecard包。# github主页- R版: http://github.com/shichenxie/scorecard# 加载[data.table](http://r-datatable.com)与scorecard包library(data.table) # 一个超高性能的数据处理包library(scorec...转载 2019-07-03 16:57:00 · 3989 阅读 · 1 评论 -
Python数据分析---Mysql数据库连接
前言Python 连接数据库是我们公司级做数据分析的基础1.SQLAlchemySQLAlchemy是一个“pythonSQL工具包和对象关系映射器”(ORM),目的是当使用SQL数据库工作时会使事情变得简单起来。#step1:加载模块import pandas as pdimport MySQLdbimport pandas.io.sql as psql#step2...原创 2019-07-12 17:27:40 · 709 阅读 · 0 评论 -
Excel---几乎可以解决80%的数据统计工作的16个Excel函数
前言在日常工作中,数据统计是工作中最重要的一部分。今天把Excel中最常用的统计函数整理了出来,共16个。为了方便同学们理解,选取的全是贴近应用的示例。1、Count 函数作用:统计数字的个数示例:使用公式生成A列的序号=COUNT(A$1:A1)+1注:大小不一的合并单元格填充公式,要使用Ctrl+Enter完成。2、Counta函数作用:统...转载 2019-08-09 14:56:28 · 1381 阅读 · 0 评论