- 博客(131)
- 资源 (2)
- 收藏
- 关注
原创 python统计所有输入值中每一个出现的次数
在本题中,由于我们只关心出现次数为 1 的房间号,所以循环体中对每个键值对进行了判断,只有当值 count 等于 1 时,才输出对应的键 room。然后,freq.get(room, 0) 的作用是返回字典 freq 中键为 room 的值,如果 room 不在 freq 中,则返回默认值 0。接着,freq[room] = freq.get(room, 0) + 1 的作用就是将字典 freq 中键为 room 的值加 1,并更新字典。freq 是一个字典(哈希表),用于记录每个房间号出现的次数。
2023-08-10 11:04:18
617
原创 判断两列是否有相关性关系的一个例子
如果我们想衡量成绩与学习时间之间的关系,可以记录每门课程的成绩和学习时间,然后计算它们之间的相关性。如果发现学习时间越长,成绩也越高,或者学习时间越短,成绩也越低,那么可以说它们之间存在单调关系,即一个变量的增加或减少会导致另一个变量的相应增加或减少。但是,如果两个变量之间的关系不是单调的,例如学习时间很长或很短时成绩都很低,此时它们之间就不存在单调关系。这种排名关系就是一种顺序关系。因此,顺序关系是指两个变量之间的相对大小关系,单调关系则是指一个变量的增加或减少导致另一个变量的相应增加或减少的关系。
2023-03-14 18:03:12
881
转载 hive优化之——控制hive任务中的map数和reduce数
一、 控制hive任务中的map数:通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);举例:a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b) 假设inp
2022-04-20 14:32:42
592
原创 python提取txt正则内容
python正则提取txt文本 - z珠穆朗玛鑫 - 博客园 (cnblogs.com)import reimport pandas as pdwith open("C:/Users/yangyunpeng/Desktop/data1.txt", 'r', encoding='UTF-8') as f: data = f.readlines() f.close()tol = []for line in data:##s = re.findall('[\u4e00-\u9fa
2022-01-18 19:41:23
2318
转载 Python 金融风控评分卡建模全流程
本文摘要本文将带领读者一起进行完整的建模全流程,了解银行风控是如何做的。并提供kaggle代码。首先讲述评分卡的分类、优缺点。接下来,结合完整的可以马上运行的代码,中间穿插理论,来讲解评分卡的开发流程。最后,把方法论再梳理一次,让读者在了解全流程后,在概念上理解再加深。本文还提供了完整的全流程代码,读者打开https://www.kaggle.com/orange90/credit-scorecard-example,结合代码来读本文,会理解更深。一、评分卡的分类在金融风控领域,无人不晓的应该是评
2021-04-19 14:10:06
1211
原创 Python多种聚类方法汇总
库安装 聚类数据集 亲和力传播 聚合聚类 BIRCH DBSCAN K-均值 Mini-Batch K-均值 Mean Shift OPTICS 光谱聚类 高斯混合模型
2021-03-31 11:45:43
1481
原创 sql 建表提取excel文件数据插入
建表建表语句CREATE table IF NOT EXISTSda.table_2021(id string,name string,roles string)COMMENT 'da.table_2021'ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','LINES TERMINATED BY '\n';加载目录文件目录文件内容不含表头,仅包含数据数据的排列顺序和表字段顺序一致目录文件不能是加密内容目录文件编码方式要为utf-8
2021-03-02 11:44:04
371
原创 sql正则提取固定内容
regexp_extract语法: regexp_extract(string subject, string pattern, int index)返回值: string说明: 将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。第一参数string subject: 要处理的字段第二参数string pattern: 需要匹配的正则表达式第三个参数int index:0是显示与之匹配的整个字符串1 是显示第一个括号里面的2 是
2021-02-20 10:50:30
12938
原创 python 如何提取多个excel表中内容合并处理
首先把所有要提取数据的excel放置到同一个目录文件夹下导入包:import os '用于提取目录下文件名'import pandas as pd '用于生成data_frame进行结果存储'提取目录文件夹中所有的文件名:只需要写到目录文件夹的路径即可,会输出目录文件夹中所有的文件名称info = os.listdir('/目录文件夹路径/') '创建空的列表用于存放提取出得数据'data = []'datafile是info中提取出来的xlsx文件名称'for datafi
2021-02-04 14:18:15
11699
5
转载 ab test -- 实验效果不显著的改善方法 -- CUPED
一、实验效果不显著怎么办 为了使A/B实验得到统计显著的结果,有三个思路:上线对指标影响较大的策略,然而多数情况下这种策略可遇而不可求;增加实验的样本量,应该是普遍用的最多的,可通过提高实验流量配比或者让实验持续更长时间来实现;缩减指标的方差,根据前面样本量计算和显著性检验介绍的公式可以知道,指标方差越小,所需样本量越小,也越容易统计显著;微软2013年发表过一篇论文(文末链接),介绍了一种利用实验前的数据来缩减指标方差,进而提高实验灵敏度的方法,这种方法就是本文要介绍的CUPED(Contro
2020-11-20 15:50:51
7752
1
测试数据集a.xlsx
2020-12-15
tableau地图资源导入可用--海盗.tms
2020-05-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人