浮豹-优快云博客

在本题中，由于我们只关心出现次数为 1 的房间号，所以循环体中对每个键值对进行了判断，只有当值 count 等于 1 时，才输出对应的键 room。然后，freq.get(room, 0) 的作用是返回字典 freq 中键为 room 的值，如果 room 不在 freq 中，则返回默认值 0。接着，freq[room] = freq.get(room, 0) + 1 的作用就是将字典 freq 中键为 room 的值加 1，并更新字典。freq 是一个字典（哈希表），用于记录每个房间号出现的次数。

2023-08-10 11:04:18 704

原创假设检验基本环节及知识点梳理

假设检验是一种统计推断方法，用于检验一个假设是否成立。

2023-04-26 15:32:42 1907

原创判断两列是否有相关性关系的一个例子

如果我们想衡量成绩与学习时间之间的关系，可以记录每门课程的成绩和学习时间，然后计算它们之间的相关性。如果发现学习时间越长，成绩也越高，或者学习时间越短，成绩也越低，那么可以说它们之间存在单调关系，即一个变量的增加或减少会导致另一个变量的相应增加或减少。但是，如果两个变量之间的关系不是单调的，例如学习时间很长或很短时成绩都很低，此时它们之间就不存在单调关系。这种排名关系就是一种顺序关系。因此，顺序关系是指两个变量之间的相对大小关系，单调关系则是指一个变量的增加或减少导致另一个变量的相应增加或减少的关系。

2023-03-14 18:03:12 1041

原创常见的相关性分析

原创 python自带数据的模型合集

用现成的数据集搞现成的模型

2023-03-07 16:20:46 2027

原创 python爬虫代码

一键爬

2023-02-23 10:38:07 473

原创关于辛普森悖论和逆概率加权的解决方案的记录

记录辛普森悖论

2023-01-29 16:49:28 806

转载 python文件合并成一个路径

路径合并

2022-10-20 14:06:23 2699

原创两种实现模糊匹配的方法--python

用来处理不完全匹配的数据源与标准数据源提取信息

2022-09-08 15:24:43 9146

转载 hive优化之——控制hive任务中的map数和reduce数

一、控制hive任务中的map数:通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；举例：a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数b) 假设inp

2022-04-20 14:32:42 649

原创 python提取txt正则内容

python正则提取txt文本 - z珠穆朗玛鑫 - 博客园 (cnblogs.com)import reimport pandas as pdwith open("C:/Users/yangyunpeng/Desktop/data1.txt", 'r', encoding='UTF-8') as f: data = f.readlines() f.close()tol = []for line in data:##s = re.findall('[\u4e00-\u9fa

2022-01-18 19:41:23 2399

原创 hive常用的几个日期处理

要啥有啥

2022-01-13 18:12:58 1931

原创 HIVE删除分区内选取特定内容

简简单单删完

2022-01-13 16:52:08 1673 1

转载 Python 金融风控评分卡建模全流程

本文摘要本文将带领读者一起进行完整的建模全流程，了解银行风控是如何做的。并提供kaggle代码。首先讲述评分卡的分类、优缺点。接下来，结合完整的可以马上运行的代码，中间穿插理论，来讲解评分卡的开发流程。最后，把方法论再梳理一次，让读者在了解全流程后，在概念上理解再加深。本文还提供了完整的全流程代码，读者打开https://www.kaggle.com/orange90/credit-scorecard-example，结合代码来读本文，会理解更深。一、评分卡的分类在金融风控领域，无人不晓的应该是评

2021-04-19 14:10:06 1325

原创 Python多种聚类方法汇总

库安装聚类数据集亲和力传播聚合聚类 BIRCH DBSCAN K-均值 Mini-Batch K-均值 Mean Shift OPTICS 光谱聚类高斯混合模型

2021-03-31 11:45:43 1524

原创 sql 建表提取excel文件数据插入

建表建表语句CREATE table IF NOT EXISTSda.table_2021(id string,name string,roles string)COMMENT 'da.table_2021'ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','LINES TERMINATED BY '\n';加载目录文件目录文件内容不含表头，仅包含数据数据的排列顺序和表字段顺序一致目录文件不能是加密内容目录文件编码方式要为utf-8

2021-03-02 11:44:04 408

原创 sql正则提取固定内容

regexp_extract语法: regexp_extract(string subject, string pattern, int index)返回值: string说明：将字符串subject按照pattern正则表达式的规则拆分，返回index指定的字符。第一参数string subject：要处理的字段第二参数string pattern: 需要匹配的正则表达式第三个参数int index:0是显示与之匹配的整个字符串1 是显示第一个括号里面的2 是

2021-02-20 10:50:30 13453

原创 python 如何提取多个excel表中内容合并处理

首先把所有要提取数据的excel放置到同一个目录文件夹下导入包：import os '用于提取目录下文件名'import pandas as pd '用于生成data_frame进行结果存储'提取目录文件夹中所有的文件名：只需要写到目录文件夹的路径即可，会输出目录文件夹中所有的文件名称info = os.listdir('/目录文件夹路径/') '创建空的列表用于存放提取出得数据'data = []'datafile是info中提取出来的xlsx文件名称'for datafi

2021-02-04 14:18:15 11876 5

原创用SQL实现excel的一些数据分析功能

一键copy 走向人生巅峰

2020-12-21 17:25:53 1280

原创用户续费率预测--R语言逻辑回归实例--附带代码和数据集

复制粘贴就能看懂的模型

2020-12-15 18:13:31 3703

原创 tableau--RFM模型构建

RFM计算字段参考

2020-12-10 09:57:49 792

原创 Python 创建三维图表

三维图表

2020-12-04 18:50:32 2293

原创 Python 创建文本和标注

文本标注箭头

2020-12-04 17:11:45 1279

原创 Python 如何构建多个子图表

构建多个子图表

2020-12-04 16:52:56 1973

原创 Python如何自定义图标图例

图标、图例

2020-12-04 16:29:26 10335 1

原创 Python直方图、分桶、密度--Matplotlib详解

直方图、分桶、密度

2020-12-04 16:07:53 4507

原创 Python密度和轮廓图绘制--Matplotlib详解

密度和轮廓图

2020-12-04 11:01:04 3828

原创 Python误差可视化--Matplotlib详解

关于误差的可视化

2020-12-04 10:44:23 3212

原创 Python散点图绘制--Matplotlib详解

散点图

2020-12-04 10:35:42 6100

原创 Python折线图绘制--Matplotlib详解

折线图

2020-12-04 10:22:43 2569

原创 10步理解SQl语句

10个200多斤的英国大理石

2020-11-27 18:06:52 598

原创 SQL 语句性能优化策略合集

还在为跑不出来难过吗赶紧来看合集

2020-11-27 17:07:27 207

转载如何设计一个 A/B test --来自腾讯数据分析师的分享

当了解了大部分AB，再来看这篇，啪就通了，很快啊

2020-11-27 15:41:30 2154 4

原创了解你做的A/B测试吗？

关于AB的一些问题点

2020-11-25 17:40:59 411

原创流量过小如何做A/B测试

小流量福音

2020-11-24 18:39:38 1469

原创 AB test 中的AA test有什么作用？

还是有一些作用的吧

2020-11-23 11:46:37 13337

转载 ab test -- 实验效果不显著的改善方法 -- CUPED

一、实验效果不显著怎么办为了使A/B实验得到统计显著的结果，有三个思路：上线对指标影响较大的策略，然而多数情况下这种策略可遇而不可求；增加实验的样本量，应该是普遍用的最多的，可通过提高实验流量配比或者让实验持续更长时间来实现；缩减指标的方差，根据前面样本量计算和显著性检验介绍的公式可以知道，指标方差越小，所需样本量越小，也越容易统计显著；微软2013年发表过一篇论文（文末链接），介绍了一种利用实验前的数据来缩减指标方差，进而提高实验灵敏度的方法，这种方法就是本文要介绍的CUPED（Contro

2020-11-20 15:50:51 8527 1

原创 A/B test -- A/B test背后的科学原理

震惊背后的科学原理是这样的

2020-11-20 14:59:51 1521

原创 A/B test -- 判断(比例类)实验结果是否显著

震惊 AB显著性可以这样判断

2020-11-20 10:55:35 9146 1

tableau地图资源导入可用--海盗.tms

tableau的mapbox地图，可直接导入使用模板，海盗风格的地图模板，描绘详细的鸭啤，走过错过不容错过，下到就是赚到，用到就是不亏，嗷嗷好看

2020-05-08

测试数据集a.xlsx

用户续费率预测--R语言逻辑回归实例--附带数据集粉丝关注后可免费下载，已清洗处理，直接适用于模型构建快来下快来下快来下快来下快来下快来下快来下快来下

2020-12-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人