自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

查数菇乐园

一只数据分析师,每天徘徊在学习和去学习的路上

  • 博客(131)
  • 资源 (2)
  • 收藏
  • 关注

原创 数据分析学习--新华字典

我变秃了 也变强了

2020-11-30 15:44:09 601 1

原创 python统计所有输入值中每一个出现的次数

在本题中,由于我们只关心出现次数为 1 的房间号,所以循环体中对每个键值对进行了判断,只有当值 count 等于 1 时,才输出对应的键 room。然后,freq.get(room, 0) 的作用是返回字典 freq 中键为 room 的值,如果 room 不在 freq 中,则返回默认值 0。接着,freq[room] = freq.get(room, 0) + 1 的作用就是将字典 freq 中键为 room 的值加 1,并更新字典。freq 是一个字典(哈希表),用于记录每个房间号出现的次数。

2023-08-10 11:04:18 617

原创 假设检验基本环节及知识点梳理

假设检验是一种统计推断方法,用于检验一个假设是否成立。

2023-04-26 15:32:42 1640

原创 判断两列是否有相关性关系的一个例子

如果我们想衡量成绩与学习时间之间的关系,可以记录每门课程的成绩和学习时间,然后计算它们之间的相关性。如果发现学习时间越长,成绩也越高,或者学习时间越短,成绩也越低,那么可以说它们之间存在单调关系,即一个变量的增加或减少会导致另一个变量的相应增加或减少。但是,如果两个变量之间的关系不是单调的,例如学习时间很长或很短时成绩都很低,此时它们之间就不存在单调关系。这种排名关系就是一种顺序关系。因此,顺序关系是指两个变量之间的相对大小关系,单调关系则是指一个变量的增加或减少导致另一个变量的相应增加或减少的关系。

2023-03-14 18:03:12 881

原创 常见的相关性分析

相关性分析

2023-03-14 16:15:52 3625

原创 python自带数据的模型合集

用现成的数据集搞现成的模型

2023-03-07 16:20:46 1958

原创 python爬虫代码

一键爬

2023-02-23 10:38:07 443

原创 关于辛普森悖论和逆概率加权的解决方案的记录

记录辛普森悖论

2023-01-29 16:49:28 657

转载 python文件合并成一个路径

路径合并

2022-10-20 14:06:23 2588

原创 两种实现模糊匹配的方法--python

用来处理不完全匹配的数据源与标准数据源提取信息

2022-09-08 15:24:43 8892

转载 hive优化之——控制hive任务中的map数和reduce数

一、 控制hive任务中的map数:通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);举例:a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b) 假设inp

2022-04-20 14:32:42 592

原创 python提取txt正则内容

python正则提取txt文本 - z珠穆朗玛鑫 - 博客园 (cnblogs.com)import reimport pandas as pdwith open("C:/Users/yangyunpeng/Desktop/data1.txt", 'r', encoding='UTF-8') as f: data = f.readlines() f.close()tol = []for line in data:##s = re.findall('[\u4e00-\u9fa

2022-01-18 19:41:23 2318

原创 hive常用的几个日期处理

要啥有啥

2022-01-13 18:12:58 1843

原创 HIVE删除分区内选取特定内容

简简单单删完

2022-01-13 16:52:08 1581 1

转载 Python 金融风控评分卡建模全流程

本文摘要本文将带领读者一起进行完整的建模全流程,了解银行风控是如何做的。并提供kaggle代码。首先讲述评分卡的分类、优缺点。接下来,结合完整的可以马上运行的代码,中间穿插理论,来讲解评分卡的开发流程。最后,把方法论再梳理一次,让读者在了解全流程后,在概念上理解再加深。本文还提供了完整的全流程代码,读者打开https://www.kaggle.com/orange90/credit-scorecard-example,结合代码来读本文,会理解更深。一、评分卡的分类在金融风控领域,无人不晓的应该是评

2021-04-19 14:10:06 1211

原创 Python多种聚类方法汇总

库安装 聚类数据集 亲和力传播 聚合聚类 BIRCH DBSCAN K-均值 Mini-Batch K-均值 Mean Shift OPTICS 光谱聚类 高斯混合模型

2021-03-31 11:45:43 1481

原创 sql 建表提取excel文件数据插入

建表建表语句CREATE table IF NOT EXISTSda.table_2021(id string,name string,roles string)COMMENT 'da.table_2021'ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','LINES TERMINATED BY '\n';加载目录文件目录文件内容不含表头,仅包含数据数据的排列顺序和表字段顺序一致目录文件不能是加密内容目录文件编码方式要为utf-8

2021-03-02 11:44:04 371

原创 sql正则提取固定内容

regexp_extract语法: regexp_extract(string subject, string pattern, int index)返回值: string说明: 将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。第一参数string subject: 要处理的字段第二参数string pattern: 需要匹配的正则表达式第三个参数int index:0是显示与之匹配的整个字符串1 是显示第一个括号里面的2 是

2021-02-20 10:50:30 12938

原创 python 如何提取多个excel表中内容合并处理

首先把所有要提取数据的excel放置到同一个目录文件夹下导入包:import os '用于提取目录下文件名'import pandas as pd '用于生成data_frame进行结果存储'提取目录文件夹中所有的文件名:只需要写到目录文件夹的路径即可,会输出目录文件夹中所有的文件名称info = os.listdir('/目录文件夹路径/') '创建空的列表用于存放提取出得数据'data = []'datafile是info中提取出来的xlsx文件名称'for datafi

2021-02-04 14:18:15 11699 5

原创 用SQL实现excel的一些数据分析功能

一键copy 走向人生巅峰

2020-12-21 17:25:53 1211

原创 用户续费率预测--R语言逻辑回归实例--附带代码和数据集

复制粘贴就能看懂的模型

2020-12-15 18:13:31 3605

原创 tableau--RFM模型构建

RFM计算字段参考

2020-12-10 09:57:49 683

原创 Python 创建三维图表

三维图表

2020-12-04 18:50:32 2191

原创 Python 创建文本和标注

文本 标注 箭头

2020-12-04 17:11:45 1196

原创 Python 如何构建多个子图表

构建多个子图表

2020-12-04 16:52:56 1899

原创 Python如何自定义图标图例

图标、图例

2020-12-04 16:29:26 9967 1

原创 Python直方图、分桶、密度--Matplotlib详解

直方图、分桶、密度

2020-12-04 16:07:53 4342

原创 Python密度和轮廓图绘制--Matplotlib详解

密度和轮廓图

2020-12-04 11:01:04 3686

原创 Python误差可视化--Matplotlib详解

关于误差的可视化

2020-12-04 10:44:23 3096

原创 Python散点图绘制--Matplotlib详解

散点图

2020-12-04 10:35:42 5925

原创 Python折线图绘制--Matplotlib详解

折线图

2020-12-04 10:22:43 2466

原创 10步理解SQl语句

10个200多斤的英国大理石

2020-11-27 18:06:52 542

原创 SQL 语句性能优化策略合集

还在为跑不出来难过吗 赶紧来看合集

2020-11-27 17:07:27 180

转载 如何设计一个 A/B test --来自腾讯数据分析师的分享

当了解了大部分AB,再来看这篇,啪就通了,很快啊

2020-11-27 15:41:30 1760 4

原创 了解你做的A/B测试吗?

关于AB的一些问题点

2020-11-25 17:40:59 347

原创 流量过小如何做A/B测试

小流量福音

2020-11-24 18:39:38 1303

原创 AB test 中的AA test有什么作用?

还是有一些作用的吧

2020-11-23 11:46:37 12453

转载 ab test -- 实验效果不显著的改善方法 -- CUPED

一、实验效果不显著怎么办 为了使A/B实验得到统计显著的结果,有三个思路:上线对指标影响较大的策略,然而多数情况下这种策略可遇而不可求;增加实验的样本量,应该是普遍用的最多的,可通过提高实验流量配比或者让实验持续更长时间来实现;缩减指标的方差,根据前面样本量计算和显著性检验介绍的公式可以知道,指标方差越小,所需样本量越小,也越容易统计显著;微软2013年发表过一篇论文(文末链接),介绍了一种利用实验前的数据来缩减指标方差,进而提高实验灵敏度的方法,这种方法就是本文要介绍的CUPED(Contro

2020-11-20 15:50:51 7752 1

原创 A/B test -- A/B test背后的科学原理

震惊 背后的科学原理是这样的

2020-11-20 14:59:51 1362

原创 A/B test -- 判断(比例类)实验结果是否显著

震惊 AB显著性可以这样判断

2020-11-20 10:55:35 8222 1

测试数据集a.xlsx

用户续费率预测--R语言逻辑回归实例--附带数据集 粉丝关注后可免费下载,已清洗处理,直接适用于模型构建 快来下 快来下 快来下 快来下 快来下 快来下 快来下 快来下

2020-12-15

tableau地图资源导入可用--海盗.tms

tableau的mapbox地图,可直接导入使用模板,海盗风格的地图模板,描绘详细的鸭啤,走过错过不容错过,下到就是赚到,用到就是不亏,嗷嗷好看

2020-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除