自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 数据分析推荐学习

Python金融大数据分析.pdfPYTHON机器学习及实践-从零开始通往KAGGLE竞赛之路.pdf内容算法:把内容变成价值的效率系统.pdf大数据用户画像实践.pdf跟老齐学Python:数据分析.pdf数据挖掘 你必须知识的32个经典案例.pdf...

2021-09-07 22:44:17 246 1

原创 pdf图片如何转可编辑文字,加密pdf如何破解,你也能轻松学会的pdf处理技能

pdf分为**文字版和扫描版,**文字版可以单独复制每个文字; 扫描版是由一张张图片存储的,没法对文字进行复制、搜索等常规操作。我们需要复制某段经典的文字,扫描版是图片无法操作;我们需要快速搜索定位,扫描版无法查询;我们需要在多个pdf文档中找到某段话的出处,扫描版、pdf工具都是让人头痛的事;我们需要将pdf还原为word,扫描版让你一个字一个字的敲键盘,心累;甚至pdf被加密了,却无法执行任何操作,只可看不可动;是不是就真的没有办法了呢?推荐一个强大的pdf编辑软件“adobe acrob

2021-02-06 10:34:33 960

原创 推荐给学python伙伴的学习大纲及python应用案例

从编程小白自学python,一路走来,有时候快,有时候慢;目前用python做数据分析基本上能满足日常的常规工作,自己也会写一些好用的小程序。就个人体验来看,在具体的应用场景中学python是最高效的,因为你知道最需要学的是哪块知识,带着明确的目的去学,方能深刻体会到python的好处。整理学习python的经历,截至现在已更新两个板块内容如下:https://zhuanlan.zhihu.com/p/348886240...

2021-02-03 09:00:43 256

原创 数据清洗:特征工程常用变量衍生方法及python代码

前端采集到的原始数据通常来说是数量庞大的流水记录,这种数据隐藏信息杂乱无章,无法直接提供有价值的信息。不管是拿来做策略字段、机器学习或是评分卡建模,都要先进行数据清洗。以下汇总整理了一些特征工程常用的方法,也是我经常用到的:转载自:https://zhuanlan.zhihu.com/p/348850280...

2021-02-02 21:57:40 1060

原创 风控策略:三方数据测试方法论之测试模式设计

三方风控字段常用的测试模式有三种:离线测试、线上测试、ABtest测试,这三种模式都有各自的应用场景,需要测试人员根据项目的实际需求出发进行合理的设计。详见:https://zhuanlan.zhihu.com/p/348606655...

2021-02-01 19:59:46 744

原创 python:批量读取同一类型excel表格,合并为一张表

样本量必须要有一定的规模才能得到相对可靠的分析结论,对于成百上千张excel表格如何快速将所有的数据汇总到一张变上呢?这样的一段ptyhon代码可同时读取xlsx,xlsx,csv格式的excel表数据,代码如下:https://zhuanlan.zhihu.com/p/348321258...

2021-01-31 15:22:05 516 5

原创 md5、sm3、sha256加密身份证

敏感信息的传输都是需要进行加密,其中md5加密方式应用较为普遍,我们在做三方数据测试的时候各种加密方式都会遇到。现在用python也能实现md5、sha256、sm3,具体操作如下:https://zhuanlan.zhihu.com/p/345802816...

2021-01-30 19:50:59 4081

原创 python实现sql开窗函数row_number组内排序功能

为实现用python报表自动化出报表,将从数据库读取出来的清单导出到python,但python中并没有sql中的row_number组内排序功能,如何在python中实现类似的功能呢,下面提供了操作小视频:https://www.zhihu.com/zvideo/1333816774476197889...

2021-01-30 17:28:44 1332

原创 三方风控字段测试之KS区分度初筛

在风控领域,金融公司除了提炼自有的数据用于风控,也会常常接入外部风控字段用做对现有风控策略架构的补充,从多维度对申请客户的信用风险和欺诈风险进行识别。外部三方数据公司拥有场景优势,积累有消费者各个维度的行为数据,能在一定程度上弥补人行征信数据覆盖不足的劣势。在接入三方产品字段前,会采用离线测试的方法测试风控字段效果,初筛方法见以下:https://zhuanlan.zhihu.com/p/348152411...

2021-01-30 16:03:23 362 1

原创 python:数据结构之列表(list)操作_进阶应用

列表切片、去重、反序、合并等操作https://zhuanlan.zhihu.com/p/348119871

2021-01-30 12:51:09 157

原创 python:数据结构之列表操作

python数据结构中列表list操作https://zhuanlan.zhihu.com/p/348058156

2021-01-30 11:08:25 159

原创 pandas函数cut函数连续变量离散化

pandas函数cut函数连续变量离散化一、项目背景在金融风控中,金融公司经常会对外部三方数据进行测试。外部三方数据是指数据公司依据自有数据或者其他方式获取到的数据建立的风险预测模型,优秀的模型能较准确的预测客户的偿债能力,偿债意愿等。为了提升自己的风控能力,金融公司一般会对模型进行测试,选取能降低风险的模型用于自身的风控系统中。操作流程一般是由金融公司提供一批客户样本数据交由第三方公司(通常提供三要素),第三方公司用自己的模型对该批样本进行打分,再交还给金融公司,金融公司运用自定义的y标签对模型效果进

2021-01-21 21:43:12 724

原创 几行python代码批量对身份证加密

python对身份证进行md5加密

2021-01-20 14:41:29 1552

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除