- 博客(27)
- 资源 (1)
- 收藏
- 关注
原创 将城市数据处理为哑变量
# -*- coding: utf-8 -*-"""Created on Tue Mar 23 19:22:50 2021@author: sen"""import pandas as pdimport numpy as npimport osimport random#os.chdir("F://Code_sen//Data//data_500M")#dummy = pd.get_dummies(iris['Species'],prefix='species')#这里是对ir.
2021-03-23 19:49:24
393
原创 python分块处理超过内存数据思路
如果处理的数据大于电脑内存,分块处理文件,再把处理好的文件输出# -*- coding: utf-8 -*-"""Created on Sun Mar 21 16:25:16 2021@author: LENOVO"""import pandas as pdimport numpy as npimport osimport randomos.chdir("F://Code_sen//Data//data_500M")def genSizeFile(fileName, fil
2021-03-22 15:59:00
460
原创 numpy广播机制
numpy广播机制原文链接https://numpy.org/doc/stable/user/quickstart.html#broadcasting-rules广播规则:1.两个矩阵有一个行或者列的维度是一样大小的2.两个矩阵中其中一个维度为13.如果所有输入阵列不具有相同数量的维度,则在较小阵列的形状上重复地加上“1”,直到所有阵列具有相同数量的维度。4.保证阵列尺寸延伸至最大的形状沿维数的数组的大小。数组元素的值沿该维度被“广播”数组相同。例:class = np.ran
2021-03-12 00:07:34
222
转载 AB test
原文链接:https://mp.weixin.qq.com/s/s6ROM_HHQsCQX0ToVdWIUQ前言关于AB test的重要性无需多言,数据、产品等从业人员几乎必知,好的数据科学家我想一定是知道理解业务比模型更为重要,而AB test就是伴随着业务增长的利器。如果你心中的AB test几乎都没有用到中心极限定理、假设检验、z分布、t分布等知识,建议详细阅读本文。目录...
2020-03-24 14:31:20
494
转载 数据埋点(转载)
转载原文(https://mp.weixin.qq.com/s/E6ETEUikyjAYFdDr-2ipYQ)第一章:初始埋点第二章:埋点之前第三章:设计埋点第四章:注意事项第五章:管理验收第六章:埋点实战前言什么是埋点数据埋点是数据采集的一种重要方式,主要用来记录和收集终端用户的操作行为,其基本原理是在App/H5/PC等终端部署采集的SDK代码,当用户的行为...
2020-03-16 22:50:48
5361
原创 hive的一些指标计算
已知一个点击行为,求在这之前该用户的点击路径已知点(DDD)--collect_list()//不去重create table ev_1 asselect tb.user_id,collect_set(tb.event_id) as ev_listfrom(select user_id,event_id,timefrom user_event,where from_unixt...
2020-03-15 21:14:12
1221
原创 关于 ABtest 实验在数据分析中的一些事~
参考文章:https://blog.youkuaiyun.com/zzq900503/article/details/70991497?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-taskhttps://zhuanlan.zhihu.com/p/757628...
2020-03-09 22:55:25
5137
转载 数据分析师,岗位真相最全解析!(转载)
原文链接:https://mp.weixin.qq.com/s/mT9nVAux7aa7I9CTDVwpDA原文链接:https://mp.weixin.qq.com/s/mT9nVAux7aa7I9CTDVwpDA原文链接:https://mp.weixin.qq.com/s/mT9nVAux7aa7I9CTDVwpDA ( 重要的事说三遍!)很多同学希望加入数据之路,...
2020-03-08 13:46:18
509
转载 hive练习(转载)
数据准备student01 赵雷 1990-01-01 男02 钱电 1990-12-21 男03 孙风 1990-05-20 男04 李云 1990-08-06 男05 周梅 1991-12-01 女06 吴兰 1992-03-01 女07 郑竹 1989-07-01 女08 王菊 1990-01-20 女course01 语文 0202 数学 0103 英语 ...
2020-03-05 21:00:01
652
原创 错误合集
knn 报错:print('预测电影类型为:',knn.predict([18,90]))ValueError: Expected 2D array, got 1D array instead:array=[18 90].Reshape your data either using array.reshape(-1, 1) if your data has a single feat...
2020-03-02 17:04:30
213
原创 业务指标体系整理(转载)
引入平衡计分卡:平衡计分卡如何层层分解至部门和个人? - 赵日磊的回答 - 知乎指标体系的特点:1.系统性的看待业务发展2.了解业务发展的因果关系3.对应的指标体系一定是有一套落地的方案结果指标:一般指项目过程中的考核指标过程指标:一般指项目过程中影响结果指标的具有可执行意义的指标从结果和过程的设计过程中,可以发现数据分析是一个系统性工程,一个简单的技术...
2020-02-28 19:01:25
1854
转载 产品日活DAU下降(转载)
产品日活下降分析思路转载:https://mp.weixin.qq.com/s/A9reSWkOEMf5qScniXbUHg案例:一款信息流APP平时日活稳定在79w-80w之间,但是在6月13日起突然掉到了78.8w,到6月15日已经掉到78.5w,这时产品负责人着急了,让你尽快排查一下数据下跌的原因。这样的问题对大多数人来说还是比较头疼的,因为对于80w量级的产品,一两万并不是一个...
2020-02-27 18:11:07
458
原创 Matplotlib 显示中文
plt.rcParams['font.family'] = ['sans-serif']plt.rcParams['font.sans-serif'] = ['SimHei']在py文件 引包之后 加入
2020-02-21 20:45:17
179
原创 sentos7搭建CDH5
1.准备三台虚拟机PC机配置:win10,32G内存虚拟机:VMware WorkstationCentOS-7-x86_64-DVD-1810.iso新建三台机器,主节点cm0:内存8G,硬盘35G,两个副节点:内存4G,硬盘35G主节点我直接安装的图形界面,复制文件的时候比较方便安装的时候注意,直接选择网络自动连接2.虚拟机基本配置卸载openjdk:查看:...
2020-02-20 21:37:16
247
原创 Jupyter Notebook 打开其他文件夹
1.打开cmd2.输入目标路径 cd:路径 然后再输入磁盘名字3.目录转换后 打入 jupyter notebook 回车
2020-02-19 19:20:37
566
原创 统计学第十二周,第十三周
知识点:回归分析本周是统计学学习小组-第二期的第十二周,我们这周的学习内容是【回归分析】,涉及到的二级知识点有两个,分别是: 1、一元线性回归:相关关系、最小二乘法、拟合优度检测、显著性检验、回归预测、残差分析 2、多元线性回归:多重共线性、变量选择与逐步回归 统计学(贾俊平第七版)第十章、十一章操作部分:汽车销售数据(看看汽车销量与什么因素有关?)数据https...
2020-02-16 21:46:13
1266
原创 pip升级网速慢问题
python -m pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple/
2020-02-15 22:26:07
1172
原创 统计学第十周,第十一周
知识点:假设检验本周是统计学学习小组-第二期的第十周,我们这周的学习内容是【假设检验】,涉及到的二级知识点有两个,分别是:1、基本概念:原假设、备择假设、两类错误、显著性水平、P值、单侧检验、双侧检验2、假设检验的分类:一个总体参数的检验、总体均值的检验、总体比例的检验、总体方差的检验;两个总体参数的检验、两个总体均值之差的检验,两个总体比例之差的检验,两个总体方差比的检验参考章节...
2020-01-17 19:39:24
887
原创 统计学第八周,第九周
概念知识点:参数估计本周是统计学学习小组-第二期的第八周,我们这周的学习内容是【参数估计】,涉及到的二级知识点有三个,分别是:1、点估计:矩估计法2、区间估计:总体均值的区间估计、总体比例的区间估计、总体方差的区间估计、两个总体均值之差的区间估计、两个总体比例之差的区间估计、两个总体方差比的区间估计3、样本量的确定:估计总体均值时样本量的确定、估计总体比例时样本量的确定参考...
2020-01-05 22:42:56
1092
原创 统计学第六周,第七周
本周是统计学学习小组-第二期的第六周,我们这周的学习内容是【抽样分布】,涉及到的二级知识点有两个,分别是: 1、常用统计量:样本均值、样本方差、样本变异系数、样本K阶矩、样本k阶中心距、样本偏度、样本峰度、次序统计量、充分统计量 2、常用抽样分布:卡方分布、T分布、F分布、中心极限定理(其他重要抽样分布)、样本比例的抽样分布、两个样本平均值之差的分布、样本方差的分布、两个样本方差比...
2019-12-11 18:35:56
404
原创 统计学第四周,第五周
本周是统计学学习小组-第二期的第四周,我们这周的学习内容是【概率分布】,资料:统计学(贾俊平第七版)第五章涉及到的二级知识点有三个,分别是:1、基本概念:随机变量、古典概率、条件概率、离散变量、连续变量、期望值、【大数定律】2、离散变量概率分布:二项分布、伯努利分布、泊松分布3、分布的形状:均匀分布、正态分布、指数分布以及___Python实现概率分布(二项分布、伯努利分...
2019-12-05 09:53:54
751
原创 统计学第三周
本期学习内容: 1、Python环境安装; 2、pandas和numpy环境安装; 3、Python实现描述性统计的内容。 一般win安装,python环境,推荐安装Anaconda3。一个原因是Python 2X 和Python 3X使用上有一些区别,Python 3X在设计的时候没有考虑向下相容,而且Anaconda3安装时一些基础常用的包例如pandas和num...
2019-11-17 18:31:49
224
原创 统计学第二周
知识点:描述性统计本周是统计学学习小组-第二期的第二周,我们这周的学习内容是【描述性统计】,涉及到的二级知识点有三个,分别是:1、集中趋势:众数、中位数、分位数、平均数(算术平均数、加权平均数、几何平均数)2、离散程度:数值型数据(方差、标准差、极差、平均差)、顺序数据(四分位差)、 分类数据(异众比率)、相对离散程度(离散系数)3、分布的形状:偏态系数、峰态系本周是统计学学习第二周...
2019-11-10 19:07:31
1851
原创 统计学第一周
本周学习内容本周是统计学学习小组-第二期的第一周,我们这周的学习内容是【数据的图表展示】,涉及到的二级知识点有三个,分别是: 1、数据预处理:数据审核、筛选、排序 2、品质数据的整理与展示:分类数据的整理与展示、顺序数据的整理与展示 3、数值型数据的整理与展示:数据分组、数据展示(本周学习内容的参考章节:统计学(贾俊平第七版)第三章 数据的预处理:数据的预...
2019-11-02 22:54:23
357
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人