自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 资源 (1)
  • 收藏
  • 关注

原创 注册场景运营简述

注册类指标最基础的指标,代表了原始的用户池以及能够直接触达的用户群,是后续所有用户运营的基础和来源。客群类型划分游客:一般指已经进入产品但未创建账号的客群。用户:一般指已经创建账号的客群。客户:一般指已经达成某种业务目标的用户。如何引导游客注册用PUSH去维系游客为游客设置一个产品软着陆的场景为游客创建专属活动软着陆场景:用类似“新户专区”场景,聚合产品中大部分核心功能和服务,用户权益和价值等,来强化和训练游客的产品心智。专属活动:提供“新客礼包”,如券、积分、用户任务等。游客

2021-01-21 11:58:10 452

原创 指标的类型和维度划分

产品运营完整生命周期规模类指标:体现产品再所处行业赛道中排位和与竞争对手的距离;质量类指标:体现用户对于产品的粘性和忠诚度;营收类指标:体现产品变现和收入能力。从产品运营不同阶段看北极星指标:体现产品当前阶段战略方向的指标;虚荣指标:短期内增长明显但长期看价值较低的指标。从用户行为看行为指标:体现用户在产品上的各类行为特征;业务指标:用来体现产品中各类业务完成情况。...

2021-01-19 20:38:03 1659

转载 pandas 使用apply同时处理两列数据(转载)

import numpy as np df = pd.DataFrame ({'a' : np.random.randn(6), 'b' : ['foo', 'bar'] * 3, 'c' : np.random.randn(6)}) def my_test(a, b): return a + b df['Value'] = df.apply(lambda row: my_test(row['a'], row['c']), axis=1

2020-06-13 14:28:12 2853

原创 电商行业场景化项目分析(下)——数据分析

根据 电商行业场景化项目分析(上)——数据清洗,我们已经将数据清理完成,接下来我们使用Python进行可视化分析。总体概览# 1、 销售GMVgmv = round(data['orderAmount'].sum()/10000, 2)# 2、 成交总和pay_sum = round(data['payment'].sum()/10000, 2)# 3、 实际成交额real_paysum = round(data[data['chargeback']=='否']['payment'].sum(

2020-05-24 17:54:38 937

原创 电商行业场景化项目分析(上)——数据清洗

本次分析的数据为某电商平台真实脱敏数据,数据格式如下:字段名字段说明Id行idorderID订单idUserID用户idgoodsID商品idorderAmount订单金额Payment支付金额ChanelIDKOL广告渠道idplatformType平台类型orderTime订单时间payTime支付时间chargeback是否退货加载数据加载处理数据需要的库import numpy as n

2020-05-24 17:20:05 1080

原创 使用Python进行数据分析时——numpy、pandas的常用函数

科学计算库Numpy创建数组:numpy.array()numpy.arange()查看数组:dtypendim 维度shape 形状size 元素个数数组操作:tolist 转换列表reshape 修改形状array[start:stop:step] 切片(含左不含右)numpy.append 添加元素numpy.insert 插入元素numpy.delete 删除元素numpy.unique 数组去重numpy.concatenate() 数组连接nump

2020-05-22 13:08:35 652

原创 python试题

1、使用Python实现列表[1,3,5,5,3,7,9]去重思路:将列表转换成集合,就可以实现去重的功能。mylist = [1,3,5,5,3,7,9]myset = set(mylist)newlist = [i for i in myset]2、将[[11,12],[21,22],[31,32]]展开,得到列表[11, 12, 21, 22, 31, 32]思路:可以通过两种方式实现:(1)使用for循环遍历;(2)使用numpy中的flatten函数。#方法一list1 = [[

2020-05-22 08:49:13 294

原创 SQL练习题——店铺UV、访客信息

数据表问题:每个店铺的UV(访客数)每个店铺访问次数top3的访客信息。输出店铺名称、访客id、访问次数问题1解答:select shop, count(distinct user_id) as count_userfrom jdgroup by shop问题2解答:根据题意,我们可以先将问题拆分:1)获取每个店铺的访客次数信息select shop, user_id, count(user_id) as count_userfrom jdgroup by sho

2020-05-16 12:24:55 1994

原创 SQL练习题——商品更新记录

数据表表名:taobao_dataitem_id:商品类型shop_id:店铺IDinsert_time:更新时间volume:月销量cprice:实际价格问题:找出一天内有多次更新的商品ID对于一天内有多次更新的商品,只保留当天最后一条记录,删除其他记录。问题1解析:我们可以看到时间列中是包含时、分、秒的,故我们需要创建一个只包含年、月、日的列,然后进行group by操作即可。实现代码如下:select item_id, date, count(item_id) as c

2020-05-15 14:21:23 821

原创 SQL查询语句格式、语句解析顺序

查询语句格式SELECT 查询DISTINCT <select_list> 去重FROM <left_table> 数据源<join_type> JOIN <right_table> 连接表ON <join_condition> 连接字段WHERE <where_condition> 条件,查询前GROUP BY <group_by_list> 分组HAVING <having_condition&

2020-05-15 08:45:21 686

原创 文本向量化——词袋模型、TF-IDF

对文本数据进行建模,有两个问题需要解决:模型进行的是数学运算,因此需要数值类型的数据,而文本不是数值类型数据。模型需要结构化数据,而文本是非结构化数据。将文本转换为数值特征向量的过程,称为文本向量化。将文本向量化,可以分为如下步骤:对文本分词,拆分成更容易处理的单词。将单词转换为数值类型,即使用合适的数值来表示每个单词。同样,需要注意的是,文本是非结构化数据,在向量化过程中,需...

2020-05-07 11:45:06 3452

转载 matplotlib画X轴时间的显示问题

很久没有在优快云写博客了,非常地惭愧,在工作、学习上所遇到的难以越积越多,如果没有对问题进行有效的管理,不仅会使人心烦意乱不知所措,而且下次遇到同样的问题,又得四处找答案,浪费时间。废话又开始了。。。。。今天遇到的问题为,在jupyter notebook上用matplotlib画一组与时间有关的数据,结果X轴的时间显示出现了点问题,主要代码片如下:#画时间曲线的函数def plot_cu...

2020-05-06 22:29:58 1651 1

原创 线性回归——简单线性回归、多元线性回归

回归分析是用来评估变量之间关系的统计过程。用来解释自变量X与因变量Y的关系。即当自变量X发生改变时,因变量Y会如何发生改变。线性回归是回归分析的一种,评估的自变量X与因变量Y之间是一种线性关系。当只有一个自变量时,称为简单线性回归,当具有多个自变量时,称为多元线性回归。线性关系的理解:画出来的图像是直的。每个自变量的最高次项为1。拟合是指构建一种算法,使得该算法能够符合真实的数据。从...

2020-04-30 22:13:37 33539 4

原创 假设检验——Z检验、t检验

假设检验,也称为显著性检验,通过样本的统计量来判断与总体参数之间是否存在差异(差异是否显著)。即我们对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设(总体参数)是否合理。在假设检验中,我们会建立两个完全对立的假设,分别为原假设H0与备择假设H1。然后根据样本信息进行分析判断,是选择接受原假设还是拒绝原假设。假设检验基于“反证法”。首先,我们假设原假设为真,如果在此基础上,...

2020-04-29 11:30:16 52969 2

原创 K-Means++算法与Mini Batch K-Mwans算法

K-Means++算法算法步骤K-Means算法对初始质心是敏感的,不同的初始质心,可能会导致不同的聚类效果(SSE)与收敛速度。虽然随机初始化多组质心,可以缓解这一问题,但是,这通常限于聚类数量(簇)较少的情况,如果聚类数量较多,随机初始化多组质心的方式可能就不会有效了。鉴于此,我们完全可以在选择初始质心上进行优化,这就是K-Means++算法。K-Means++与K-Means的区别在...

2020-04-28 19:46:13 647

原创 K-Means算法

K-Means算法算法步骤K-Means算法,即K均值算法,是最常见的一种聚类算法。顾名思义,该算法会将数据集分为K个簇,每个簇使用簇内所有样本的均值来表示,我们将该均值成为‘质心’。具体步骤如下:从样本中选择K个点作为初始质心计算每个样本到各个质心的距离,将样本划分到距离最近的质心所对应的簇中。计算每个簇内所有样本的均值,并使用该均值更新簇的质心。重复步骤2与3,直到达到以下条件之...

2020-04-28 09:18:38 1199

原创 三种常用的朴素贝叶斯实现算法——高斯朴素贝叶斯、伯努利朴素贝叶斯、多项式朴素贝叶斯

在sklearn中,提供了若干种朴素贝叶斯的实现算法,不同的朴素贝叶斯算法,主要是对P(xi|y)的分布假设不同,进而采用不同的参数估计方式。我们能够发现,朴素贝叶斯算法,主要就是计算P(xi|y),一旦P(xi|y)确定,最终属于每个类别的概率,自然也就迎刃而解了。常用的三种朴素贝叶斯为:高斯朴素贝叶斯伯努利朴素贝叶斯多项式朴素贝叶斯高斯朴素贝叶斯适用于连续变量,其假定各个特征x...

2020-04-24 11:44:38 9762 1

原创 朴素贝叶斯算法

概率基础随机事件指可能发生,也可能不发生的事件,例如:当我们抛硬币时,设出现正面为事件A,则事件A可能发生,也可能不发生。样本空间即我们进行随机试验时,所有可能结果构成的集合。通常使用S表示。概率用来反映一个随机事件出现的可能性大小,通常使用P(A)来表示事件A的概率。也可以从面积角度表示:联合概率指多个事件同时发生的概率,例如:P(AB)表示事件A与事件B的联合概率。条...

2020-04-24 11:08:02 518

原创 sklearn模块pipeline类——流水线

当数据预处理的工作较多时,可能会涉及更多的步骤,此时分别执行每个步骤会显得过于繁琐。流水线(Pipeline类)可以将每个评估器视为一个步骤,然后将多个步骤作为一个整体而依次执行,这样,我们就无需分别执行每个步骤。流水线具有最后一个评估器的所有方法。当通过流水线对象调用方法£时,会执行这样的过程(假设流水线具有n个评估器):如果£是fit方法,则会首先对前n-1个评估器依次调用fit_tr...

2020-04-23 15:56:13 593

原创 KNN算法——基本原理、分类、回归

算法原理KNN算法的核心思维:相似度较高的样本,映射到n维空间后,其距离回避相似度较低的样本在距离上更加接近。KNN,即K近邻算法,K近邻就是K个最近的邻居,当需要预测一个未知样本的时候,就由与该样本最接近的K个邻居来决定。KNN既可以用于分类问题,也可以用于回归问题。当进行分类预测时,使用K个邻居中,类别数量最多(或加权最多)者,作为预测结果;当进行回归预测时,使用K个邻居的均值(或加权均值...

2020-04-23 15:33:53 16616

原创 分类模型评估——混淆矩阵、评估指标、ROC与AUC

混淆矩阵混淆矩阵,可以用来评估模型分类的正确性。该矩阵是一个方阵,矩阵的数值用来表示分类器预测的结果,包括真正例(True Positive),假正例(False Positive),真负例(True Negative),假负例(False Negative)。import numpy as npfrom sklearn.datasets import load_irisfrom skl...

2020-04-18 13:38:50 1659

原创 AQI(空气质量指数)分析与预测(四)

对空气质量进行预测我们可以通过对以往数据的分析,建立模型,然后将这种模式去应用于未知的数据,进而预测结果。数据转换因为对于模型来说,内部进行的都是数学运算,故在进行建模之前,我们需要将类别变量转换为离散变量。data['Coastal'] = data['Coastal'].map({'是':1, '否':0})基模型首先建立一个不做任何处理的基模型,后续的操作,可以在此基础上进行改...

2020-04-17 18:37:41 7605 2

原创 AQI(空气质量指数)分析与预测(三)

空气质量主要受哪些因素影响猜想一:人口密度是否会对空气质量造成影响猜想二:绿化率是否会影响空气质量绘制空气质量、人口密度、绿化率的散点图矩阵,观察是否有影响sns.pairplot(data[['AQI','PopulationDensity','GreenCoverageRate']], kind='reg')我们也可以通过计算相关系数确认相关性,如下以空气质量与降雨量为例:...

2020-04-17 10:08:56 5222 1

原创 RFECV方法实现特征选择

RFECV方法实现特征选择分成两个部分:RFE(Recursive feature elimination):递归特征消除,用来对特征进行重要性评级。CV(Cross Validation):交叉验证,在特征评级后,通过交叉验证,选择最佳数量的特征。具体过程如下:RFE阶段1 初始的特征集为所有可用的特征。2 使用当前特征集进行建模,然后计算每个特征的重要性。3 删除最不重要的...

2020-04-15 07:33:50 20230

原创 AQI(空气质量指数)分析与预测(二)

AQI(空气质量指数)分析与预测(一)数据分析哪些城市的空气质量较好/较差#空气质量最好的几个城市t = data['Ciyt','AQI'].sort_values('AQI') #根据AQI升序排列diaplay(t.iloc[:10]) #空气质量最好的十个城市plt.xticks(rotation=45) #X轴坐标名称倾斜45度sns.barplot(x='City', y...

2020-04-13 09:15:55 4321

转载 偏态分布的均值与中位数关系

如何解释均值和中位数的大小关系呢?实验室要处理敦煌莫高窟人流数据处理的任务,观察到每个洞窟的访问时间应该时遵循正偏态分布的。于是想起数据挖掘课上提到的正偏态分布中,均值大于中位数的问题。思考很久无法证明。关于正偏态,正态和负偏态的图如下。正偏也叫右偏,看起来好像是峰值在左,怎么会叫右偏呢?按维基百科的解释是:传统定义,均值大于中位数的称为右偏,也可以理解为长尾在右侧。同理可知,...

2020-04-11 18:13:31 44899 1

原创 AQI(空气质量指数)分析与预测(一)

任务说明期望能够运用数据分析的相关技术,对全国城市空气质量进行研究与分析,希望能够解决如下疑问:哪些城市的空气质量较好/较差?【描述性统计分析】空气质量在地理位置上,是否具有一定的规律?【描述性统计分析】临海城市的空气质量是否有别于内陆城市?【推断统计分析】空气质量主要受哪些因素影响?【相关系数分析】全国城市空气质量普遍处于何种水平?【区间估计】怎样预测一个城市的空气质量?【统计建...

2020-04-11 18:05:50 9877 17

原创 数据分析通用流程

基本流程明确需求与目的数据收集1 内部数据2 购买数据3 爬取数据4 调查问卷5 其他收集数据预处理1 数据整合a 横向整合b 纵向整合2 数据清洗a 缺失值b 异常值c 重复值3 数据转换数据分析1 描述分析2 推断分析3 数据建模a 特征工程b 超参数调整4 数据可视化编写报告...

2020-04-11 08:25:26 202

原创 编写程序计算当正态分布覆盖99%的数据时,大概为多少倍标准差

根据题目,我们通过Python实现该需求。已知当正态分布覆盖95%的数据(置信区间95%)时,标准差为2;正态分布覆盖99.7%的数据(置信区间99.7%)时,标准差为3,故置信区间99%时的标准差一定在2和3之间。代码如下:#定义标准差scale = 10#定义总体数据x = np.random.normal(0,scale,size=10000)#定义标准差的倍数,从2到3,每次...

2020-04-03 08:18:47 8562

原创 中心极限定理——代码实现

中心极限定理-定理内容如果总体(分布不重要)均值为μ,方差为σ²,我们进行随机抽样,样本容量为n,当n增大时,样本均值逐渐趋近服从正态分布。我们可以得到如下结论:进行多次抽样,则每次抽样会得到一个均值,这些均值会围绕在总体均值左右,呈正态分布。当样本容量n足够大时,样本均值服从正态分布。· 样本均值构成的正态分布,其均值等于总体均值μ。· 样本均值构成的正态分布,其标准差等于总...

2020-04-03 08:03:24 1014

原创 Hive——企业级优化技巧

技巧一:尽量使用group by来代替distinct注意:在数据量很大的情况下,先使用group by去重再count()计数,效率要高于count(distinct *)技巧二:利用窗口函数grouping sets、cube、rollup1、GROUPING SETS():在group by查询中,根据不同的维度组合进行聚合,等价于将不同维度的group by结果集进行union a...

2020-04-01 11:56:32 184

原创 Hive大数据——电商平台数据分析(三)_特征分析与偏移分析

Hive大数据——电商平台数据分析(一)Hive大数据——电商平台数据分析(二)Hive数据库表结构实现如下需求需求1-1:对2018年公司的支付总额按月度累计进行分析。select a.month, a.amount, sum(a.amount) over(order by a.month)from (select month(dt) month, sum(p...

2020-03-29 14:17:58 749

原创 Hive大数据——某电商平台数据分析(二)

Hive大数据——某电商平台数据分析(一)hive数据库表结构实现如下需求需求1:某年度对用户满意度进行调研分析,找出目标人群。分析:可以通过查询有过购买但又发生退款的用户,进行调研。select a.user_name, a.sex, a.city, a.levelfrom (select user_name, sex, city, level...

2020-03-26 14:18:20 2022 1

原创 hive大数据——某电商平台数据分析(一)

hive数据库表结构实现如下需求(由浅入深)需求1:某次经营活动中,商家发起了"异性拼团购",试着针对某个地区的用户进行推广,找出匹配用户。分析:简单理解本需求,就是将某一个地区性别为男/女的所有用户找出。select user_namefrom user_infowhere city='beijing' and sex='male';需求2:某天,发现食物类的商品卖的很好...

2020-03-26 08:18:36 2388

原创 某电商平台2016年交易数据分析

确定目标本次分析主要是针对某电商平台的真实脱敏数据进行;尝试数据分析从数据获取到数据分析报告撰写的整个数据分析流程。数据清洗将支付金额小于等于0的数据删除;删除channelId为空的数据;删除下单时间比支付时间晚的数据;删除非2016年的数据;删除prodectId为0的数据。清洗代码如下:import numpy as npimport pandas as pdimpo...

2020-03-13 17:55:55 1228

空气质量指数分析数据集

空气质量指数分析数据集

2021-01-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除