- 博客(10)
- 收藏
- 关注
原创 Mac安装ffmpeg报错
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
2021-11-15 17:16:31
3587
原创 自然语言处理-TF-IDF
TF-IDF原理解释:TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。使用场景:用于关键词提取代码实现import jieba.analyse as ana...
2020-03-01 23:29:37
403
原创 自然语言处理-词云生成
为什么需要生成词云对于文本数据有个直观的了解,为后续的工作提供一定的数据可视化分析依据。词云的生成步骤:导入工具库读取数据清洗数据统计词频保留前K个词作为词云生成库绘制词云图导入工具库import warningswarnings.filterwarnings('ignore')import jiebaimport numpyimport pandas as pdi...
2020-03-01 23:03:45
1303
原创 python读取文件方式
数据文件:在我们日常处理的文件中有很多类型的文件存储数据,如txt,csv,excel,sas数据集,PSS数据集,链接数据库MySQL,链接数据库sql server等等。1.读取txt文本import pandas as pddata_txt = pd.read_csv(‘C:/Users/xxx/Desktop/文本.txt’,sep = ‘\t’,encoding = ‘utf-8...
2019-09-08 11:29:27
1334
2
原创 python读取数据出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin
报错的含义是:unicodedecodeerror:“utf-8”编解码器无法解码位置0中的字节0xce:inva字符编码问题1.ASCLL与GB2312**国标码是汉字的国家标准编码,目前主要有GB2312、GBK、GB18030三种。GB2312编码方案于1980年发布,收录汉字6763个,采用双字节编码。GBK编码方案于1995年发布,收录汉字21003个,采用双字节编码。GB...
2019-09-08 10:52:01
15641
原创 DataFrame数据索引转换成列或列转换成数据索引
DataFrame数据集索引转换和重命名DataFrame数据结构类型我们常见的excel表格一样,直观简单利于理解。该数据集有行和列及索引的概念。我们在数据操作中常常需要进行的对数据集进行分组统计之类。这时就很涉及到数据集改变之后数据索引也可能随之改变。1.查看数据索引列col_name = bin_df.index.nameprint(‘col_name:’,col_name...
2019-09-07 17:56:44
23532
原创 逻辑回归-评分卡模型
【逻辑回归】在建立评分模型时,我们通过使用逻辑回归进行建立模型对数据进行训练,模型给出一个分类好坏客户的一个概率值;并不是评分卡的分值。【评分卡定义】评分卡中好坏客户的定义,假设通过历史数据定义,近1年逾期次数为大于等于M2词作为违约客户,则将好坏客户通过数学公式表示。假设P为坏客户的概率,则1-P则为好客户概率。【逻辑回归–公式】坏客户概率计算公式好客户概率计算公式好...
2019-08-24 11:11:55
2633
原创 风控模型中PSI指标
PSI指标PSI定义:群体稳定性指标PSI(Population Stability Index)是衡量模型的预测值与实际值偏差大小的指标;稳定度指标可衡量测试样本及模型开发样本评分的分布差异,为最常见的模型稳定度评估指标。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有显著变化PSI公式:...
2019-08-23 15:34:41
8445
原创 风控模型中的KS-指标
KS-指标ks定义ks是指通过衡量好坏样本累计分布之间的差值,来评估模型的风险区分能力。KS曲线又叫洛伦兹曲线。以TPR和FPR分别作为纵轴,以阈值作为横轴,画出两条曲线。KS曲线则是两条曲线的在每一个阈值下的差值真阳性率(TPR) : 判定为正例也是真正例的比率伪阳性率(FPR) :判定为正例却不是真正例的比率注:ks取的是TPR和FPR差值的最大值KS(Kolmogor...
2019-08-23 13:53:51
11270
原创 LeetCode-数组-两数之和
题目:给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。示例:: 给定 nums = [2, 7, 11, 15], target = 9: 因为 nums[0] + nums[1] = 2 + 7 = 9: 所以返回 [0...
2019-08-08 22:00:07
106
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人