
数据分析应用
泛泛之素
君子不器
展开
-
python数据分析:会员数据化运营(上)——知识点
会员数据化运营解决问题:会员的生命周期状态是什么;会员的核心诉求是什么;会员的转化习惯和路径是什么;会员的价值如何;如何扩大市场覆盖、获得更多的新会员;如何更好地维系老会员;应该在什么时间、采取何种措施、针对哪些会员做哪些运营活动;在特定运营目标下,应该如何制定会员管理策略,包括行为管理、体验管理、增值服务、信息管理、营销管理、客户关怀等。运营指标:会员新增指标:注册会员,...原创 2018-12-07 19:29:32 · 4185 阅读 · 0 评论 -
python数据分析:商品数据化运营(下)——基于投票组合模型的异常检测
本案例用到的主要技术包括:基本预处理:使用DictVectorizer将字符串分类变量转换为数值型变量、使用SMOTE对不均衡样本做过抽样处理。数据建模:基于cross_val_score的交叉检验、基于LogisticRegression、RandomForest、Bagging概率投票组合模型做分类。案例数据以下是本数据集的13个特征变量的详细说明:order_id:订单ID,...原创 2018-12-18 22:23:06 · 2793 阅读 · 0 评论 -
python数据分析:使用lifetimes进行客户终身价值(CLV)探索
客户终身价值(CLV)客户终身价值(CLV)是从一个关键人物业务。它通常描述了客户在整个“客户生活”期间实现的贡献边际,折扣到分析时。因此,CLV可以理解为客户多年来对公司或未来的平均价值。因此,除历史收入外,未来预期收入也会被考虑(客户潜力)。在确定CLV时,必须将可能的客户价值与实际客户价值区分开来。可能的客户价值考虑了某个区域内客户的总支出,包括竞争对手的支出,而实际的CLV仅考虑了客户对...原创 2019-01-10 21:46:37 · 14992 阅读 · 16 评论 -
python数据分析:使用statsmodels构建价格需求弹性模型
价格需求弹性(Price elasticity of demand)是经济学中使用的一种衡量标准,用于显示商品或服务所需数量对价格变化的响应性或弹性,除了价格变化。更确切地说,它给出了响应价格百分之一变化所需数量的百分比变化。在经济学中,弹性是衡量需求或供给对价格敏感程度的指标。在营销中,消费者对产品价格变化的敏感程度如何。它给出了以下问题的答案:“如果我降低产品的价格,还会卖多少钱?...原创 2019-01-06 14:57:33 · 8349 阅读 · 6 评论 -
python数据分析:特征选择与电商搜索相关性预测
大型在线零售商通常使用基于查询的搜索来帮助消费者在其网站上查找信息/产品。他们能够使用技术为用户提供更好的体验。因为他们了解搜索相关性的重要性,并且长时间和/或不成功的搜索可以将用户转移,因为用户已经习惯并期望即时,相关的搜索结果,例如他们从淘宝、京东获得的搜索结果。虽然搜索对于任何电子商务业务的成功至关重要,但对于中小型在线零售商来说,搜索并不总是那么容易,因为它往往需要大量的手动标记数据和机...原创 2019-01-12 18:59:43 · 3827 阅读 · 0 评论 -
python数据分析:在jupyter notebook上使用python&SQL做数据分析
类似于在jupyter上使用R语言,同样可以使用SQL语句:详细见github项目:https://github.com/catherinedevlin/ipython-sql安装ipython-sqlpip install ipython-sql载入%load_ext sql连接数据库 同 SQLAlchemypostgresql://will:longliveliz@local...原创 2019-01-14 21:14:35 · 14274 阅读 · 0 评论 -
python数据分析:使用LightGBM进行零售价格推荐
数据数据来源日本最大的社区动力购物应用程序Mercari,类似于国内的闲鱼、转转。他们想向卖家提供定价建议,但这很难,因为他们的卖家能够在Mercari的市场售卖任何商品。这里我们要拍建立一个自动建议正确的产品价格的模型。你可以在这里下载数据数据描述:train_id — 订单idname — 商品名称item_condition_id — 商品的状态的类别id(如:good,Like...原创 2019-01-09 14:51:25 · 3134 阅读 · 0 评论 -
python数据分析:词性标注
词性标注就是给每一个词确定一个词性分类。很多场景需要做词性标注,然后基于标注的词性可以做进一步应用。例如统计竞争对手新闻稿的主要词语分布、分词结果筛选和过滤、配合文章标签的提取等。结巴分词的词性标注方法采用和ictclas兼容的标记法。常用的分类如下:简单实现:使用jieba.posseg做带有词性标注的分词,并通过循环得到每个分词的词语和类别结果;import newspaperi...原创 2019-02-25 19:15:58 · 6236 阅读 · 0 评论 -
python数据分析:使用newspaper下载解析新闻并统计词频做词云图
newspaper包官网:https://newspaper.readthedocs.io/en/latest/这是一个翻译过来的简单介绍:http://hao.jobbole.com/python-newspaper/newspaper主要用来获取新闻类信息,而且支持中文,有一些集成的对网站,网页的处理方法,还有nlp处理。本篇使用newspaper结合jieba对新浪财经新闻进行词频统...原创 2019-02-20 12:26:14 · 2639 阅读 · 0 评论 -
python数据分析:关键字提取
TF-IDFTF-IDF(Term Frequencey-Inverse Document Frequency)指词频-逆文档频率,它属于数值统计的范畴。使用TF-IDF,我们能够学习一个词对于数据集中的一个文档的重要性。TF-IDF的概念TF-IDF有两部分,词频和逆文档频率。首先介绍词频,这个词很直观,词频表示每个词在文档或数据集中出现的频率。等式如下:TF(t)=词t在一篇文档中出现...原创 2019-02-26 12:52:28 · 8346 阅读 · 0 评论 -
python数据分析:商品数据化运营(中)——基于参数优化的Gradient Boosting的销售预测
本案例需要使用超参数交叉检验和优化方法GridSearchCV以及集成回归方法GradientBoostingRegressorGridSearchCV与GradientBoostingRegressorGridSearchCVGridSearchCV用于系统地遍历多种参数组合,通过交叉验证确定最佳效果参数,其实就是穷举法,遍历所有组合。GridSearchCV,它存在的意义就是自动调参,只...原创 2018-12-18 16:56:50 · 3446 阅读 · 0 评论 -
python数据分析:商品数据化运营(上)——知识点
商品数据运营指标销售类指标订单量/商品销售量订单量指用户提交订单的数量,计算逻辑去重后的订单ID的数量。商品销售量又称销售件数,指销售商品的数量。订单金额/商品销售金额订单金额为用户提交订单时的金额,又称为应付金额。订单金额是用户真正应该支付的金额。计算公式为:订单金额 = 商品销售金额 + 运费 - 优惠凭证金额 – 其他折扣(如满减)商品销售额是指商品销售的金额,商...原创 2018-12-18 13:37:56 · 6065 阅读 · 2 评论 -
python数据分析:会员数据化运营(中)——RMF分析
何为RFM模型分析RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。该机械模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱3项指标来描述该客户的价值状况。RFM的含义:R(Recency):客户最近一次交易时间的间隔。R值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。F(Freq...原创 2018-12-08 16:59:35 · 5962 阅读 · 5 评论 -
python数据分析:流量数据化运营(上)——知识点
流量数据化运营流量值从数字设备上访问企业的网站、app应用、智能设备的用户行为,它主要包括用户从哪里来,在企业相关载体上有哪些行为、产生了哪些转化等。媒体信息时代,用户行为移动化、需求个性化的复杂背景下,企业想要获得用户关注愈发困难。并且随着营销成本的增加,企业流量能够更高的转化为客户,精准营销需求日益突出。流量数据化运营需要解决的本质问题提高转化率的问题。流量采集分析系统工作机制流量...原创 2018-12-19 13:55:24 · 8010 阅读 · 6 评论 -
python数据分析:流量数据化运营(中)——流量数据波动原因下探分析
从细分到多层下钻数据分析细分是网站分析的基本方法,也是数据分析的基本思路。细分分析的过程是对整体数据进行层层拆分,然后找到影响整体的局部因素。步骤1:全站流量按来源模块可细分为广告、SEM、SEO和直接输入(假设只有4个模块)。细分发现广告是网站流量的主要来源(昨日访问量占比82%),访问量增长2194,比例为67%,说明了广告是网站访问量增长的主要驱动因素。步骤2:对广告模块做进一步细分...原创 2018-12-19 17:19:26 · 5022 阅读 · 3 评论 -
python数据分析:流量数据化运营(下)——基于自动K值得KMeans广告效果聚类分析
案例背景某企业由于投放的广告渠道比较多,需要对其做广告效果分析以实现有针对性的广告效果测量和优化工作。跟以应用为目的的案例不同的是,由于本案例是一个分析型案例,该过程的输出其实是不固定的,因此需要跟业务运营方具体沟通需求。以下是在开展研究之前的基本预设条件:广告渠道的范畴是什么?具体包括哪些渠道?——所有站外标记的广告类渠道(以ad_开头)。数据集时间选择哪个时间段?——最近90天的数据...原创 2018-12-19 22:34:19 · 3763 阅读 · 5 评论 -
python数据分析:基于协同过滤的电影推荐算法
协同过滤协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人透过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其...原创 2018-12-07 12:00:19 · 11135 阅读 · 7 评论 -
python数据分析:内容数据化运营(上)——知识点
何为数据化运营内容运营是指基于内容的策划、编辑、发布、优化、营销等一系列工作,主要集中在互联网、媒体等以内容为主的行业领域。内容运营根据内容生产方式的不同可分为UGC、PGC和OGC三种。UGC(User-generated Content),用户生产内容。这是论坛、贴吧、微博时代的主要内容生产方式,内容主要由参与内容载体的用户产生,运营方本身不产生任何实质性内容。这些用户一般都是非专业“写...原创 2018-12-20 13:01:02 · 5941 阅读 · 0 评论 -
python数据分析:内容数据化运营(中)——基于潜在狄利克雷分配(LDA)的内容主体挖掘
案例背景本案例是从一堆新闻文件中建立相应的主题模型,然后得到不同模型的主题特点,并通过对新文本数据集的预测得到其可能的主题分类。相关知识TF-IDFTF-IDF(term frequency–inverse document frequency)是一种针对关键字的统计分析方法,用来评估关键字或词语对于文档、语料库和文件集合的重要程度。关键字的重要程度跟它在文档中出现的次数成正比,但同时跟它...原创 2018-12-20 16:50:06 · 2603 阅读 · 3 评论 -
python数据分析:内容数据化运营(下)——基于多项式贝叶斯增量学习分类文本
案例背景及数据见上一篇案例实现导入模块import reimport tarfileimport osimport numpy as npfrom bs4 import BeautifulSoupfrom sklearn.feature_extraction.text import HashingVectorizer # 文本转稀疏矩阵from sklearn.naive_b...原创 2018-12-20 18:29:46 · 2048 阅读 · 0 评论 -
python数据分析:会员数据运行(下)——基于AdaBoost的营销响应预测
何为AdaBoostAdaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为...原创 2018-12-10 16:43:12 · 2528 阅读 · 3 评论 -
python数据分析:新闻文本聚类
文本聚类文本聚类就是要在一堆文档中,找出哪些文档具有较高的相似性,然后可以针对这些相似性文档的聚合进行类别划分。文本聚类应用场景:提供大规模文档集进行类别划分并提取公共内容的概括和总览;找到潜在的各个文档间的相似度以进行相似度判别、类别修正,以减少浏览相似文档和信息的时间和精力。通常,聚类分析(也包括其他算法)大多是针对数值型做计算的,K均值这类基于聚类的算法要求只有数值型变量才能得到距离相似...原创 2019-02-26 14:12:54 · 24250 阅读 · 17 评论