自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 数据运营分析-详解

产品是为指定客群提供指定功能或服务的各种实体产品从诞生之初其目标客群就是”已指定好的“即有清晰地目标客群产品针对指定客群,仅提供这部分客群所感兴趣和需要的功能和服务。

2024-03-29 00:09:25 1823

原创 初始量化交易-基础知识梳理

量化交易的流程是一个系统化的过程,涵盖了从策略设计到交易执行和风险管理的多个环节。以下是量化交易的典型流程,分为策略开发、数据处理、模型构建、回测优化、交易执行和风险管理六个主要阶段

2025-03-16 13:17:23 798

原创 hive-进阶版-1

Hive 支持内部表(Managed Table)和外部表(External Table)两种表类型,它们在数据存储、管理方式和生命周期等方面存在显著区别。是一种无序的键值对集合,键(Key)必须是唯一的,而值(Value)可以是任意数据类型(如 STRING、INT、ARRAY 等)。如果你需要在运行时传递参数到 SQL 文件中,可以通过 Hive 的变量替换功能实现。是一种复杂数据类型,用于存储键值对(Key-Value)结构的数据。首先,将你的 Hive SQL 语句保存到一个文件中,例如。

2025-03-13 20:03:31 600

原创 Hive-基础入门

Hive DDL用于定义Hive 数据库模式,其命令包括create、drop、alter、truncate、show。在Hive中进行流量统计通常涉及以下几个步骤:数据准备、表的创建、数据加载以及编写统计查询。是Hive中最常用的数据加载方式,支持从本地文件系统或HDFS加载数据到Hive表中。:由于不使用分布式计算资源,本地模式的性能通常低于集群模式,不适合处理大规模数据。表案例,包括表结构设计、数据加载以及一些常见的SQL查询示例。在Hive中,数据加载是将外部数据导入到Hive表中的过程。

2025-03-12 19:36:13 810

原创 【ETL】从理论到Python实践的数据处理

ETL(Extract, Transform, Load)是一种数据处理过程,用于将数据从一个或多个源提取出来,进行清洗、转换和整合,然后加载到目标数据仓库或数据库中。ETL 是数据仓库和数据分析领域中不可或缺的一部分,广泛应用于企业数据集成、数据迁移和数据治理等场景。

2025-02-17 14:58:57 631

原创 Excel 基础知识-操作手册2

Excel中的查找与引用函数非常丰富,以下是一些主要的函数及其使用示例:- 语法:`VLOOKUP(lookup_value, table_array, col_index_num, [range_lookup])`- 示例:假设A列是员工编号,B列是员工姓名,你想根据员工编号查找员工姓名。公式:这将在A2:B100的范围内查找编号123,并返回同一行的B列中的员工姓名。

2024-09-13 16:52:15 1701

原创 Excel 基础知识-操作手册1

1、创建新窗口:依次点击【视图】----【新建窗口】命令,即可为当前工作簿创建新的窗口。在原有的工作簿中更改标题或表格内容时,新建的工作簿也会相应的更改。2、窗口切换:在【视图】选项卡中单击【切换窗口】下拉按钮,-------会显示所有的工作簿名称,单击相应名称的工作簿即可。快捷键:在Excel工作窗口中按组合键,也可以循环切换工作簿3、冻结窗格:例如需要冻结顶端固定显示第一行,在左侧固定显示A、B两列。

2024-09-13 16:43:43 2944

原创 数据分析方法之对比思维

这些因素不仅包括商品本身的特点(如高质量的图片和描述、良好的用户评价等),还包括在不同情境下的适应性和策略调整(如根据促销阶段调整价格策略、针对不同用户群体进行精准营销等)。数据分析中的共用法在电商行业中有着广泛的应用,它结合了求同法和求异法的思想,帮助电商企业从大量的用户行为、销售数据等信息中提炼出有价值的见解,以优化运营策略和提升业务表现。这种分析方法就是共变法。求异法的思路是,比较某现象出现的场合和不出现的场合,如果这两个场合除一点不同外,其他情况都相同,那么这个不同点就是这个现象的原因。

2024-06-22 19:25:21 1298

原创 数据指标体系的建设

用户的数据标签是通过对用户行为数据进行加工处理得到的,它是用来描述实体业务的特征的数据形式。挖掘用户的数据标签是企业 实现广告定向投放、精准推送的先决条件。用户的数据标签是通过对用户的社会属性、消费习惯、偏好特征等多个维度的数据进行采集和处理,实现对用户或产品属性特征的刻画,并对这些特征进行分析、统计,挖掘潜在价值,从而抽象出用户的信息全貌。用户的数据标签是用户信息标签化,即将用户各类信息映射为标签符号,这些标签符号最终会形成普通大众对于用户或产品的认知。

2024-06-20 20:22:19 2279

转载 VBA编程基础知识-提升工作效率

我们在使用Excel的过程中,经常会有这样的情况,会按照相同的方法完成信息录入,表格格式调整,信息处理,表格保存等简单、重复操作。VBA的语法简单,学习门槛低。Office中的应用程序可以共享VBA语言,如果你掌握了Word中使用VBA的方法,那么在Excel、PPT中使用Excel将变得非常容易,可以减少大量不必要的重复性工作,提高工作效率。在单分支IF语句结构中,当IF表达式执行结果为True时,执行后面的语句组,当表达式执行结果为False时,则直接跳过后面的语句组,语句执行流程如下图所示。

2024-06-19 08:47:09 1556

原创 如何进行两表数据合并-即包含两张表的所有数据

如果第二张表的数据量多于第一张表,并且您希望最终的表包含两张表的所有数据,即使某些数据在一张表中不存在,可以使用。是可以用来连接两个表的键字段。如果这些字段中存在可能的重复记录,可能需要进一步的处理来确保结果的准确性。然而,需要注意的是,MySQL不支持。请注意,这个查询假设。

2024-06-15 14:40:24 434

原创 浅谈-数据分析之道--数据思维的培养

数据治理是将零散的用户数据通过采集,传输、储存等一系列标准化流程变成格式规范,结构统一的数据,并构建严格规范的综合数据管控机制。对这些标准化的数据进行进一步加工分析,形成具有指导意义的业务监控报表、业务监控模型,以辅助业务方进行决策。

2024-05-15 09:49:37 1223

原创 数据运营--详谈数据分析方法论

用户的期望是使用产品的核心功能,从而发现产品的价值,逐渐成长为产品的忠实用户。新用户初次使用产品时,清晰的引导尤其重要,如果产品本身比较难,而且没有指引,那么用户使用产品后可能不知道如何操作,就算这个用户是潜在的目标用户,也很难保证不会流失。综上所述,RFM用户分群的目的是通过对用户行为的深入分析,实现精准营销,提高用户的留存率和复购率,从而增加公司的整体营收。在这个阶段,增长团队的作用是确保产品继续为用户带来更大的价值,同时通过不断的优化和更新来维持用户的兴趣和参与度。

2024-05-10 09:09:19 909 1

原创 数据分析-----方法论

数据分析方法:将零散的想法和经验整理成有条理的、系统的思路,从而快速地解决问题。案例:用户活跃度下降想法:APP出现问题?去年也下降了吗?是所有的人群都在下降吗?总结归纳:数据分析方法----细分法用户拆分:DAU=新用户+老用户时间拆分:DAU=0点活跃数+1点活跃数+...地区拆分:DAU=北京活跃数+上海活跃数+....

2024-04-28 09:33:43 1098 1

原创 数据分析方法论和业务实战------数据分析概括与数据指标体系

数据分析是指用适当的统计方法分析对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以研究和概括总结的过程。

2024-04-22 08:51:45 936 1

原创 APPU和ARPPU的区别

1. **定义**:APPU (Average Revenue Per User) 是指每用户平均收入,它计算的是某时间段内每个活跃用户为应用创造的收入,无论该用户是否付费。2. **意义**:APPU的数值反映了用户在这段时间内为应用带来的变现收益,如果该数值提升,说明应用的变现能力增强;总的来说,APPU和ARPPU的区别在于APPU考虑的是所有用户的平均收入,而ARPPU专注于付费用户的平均收入。3. **包含的用户群体**:APPU包括所有活跃用户,无论是付费还是非付费用户都纳入计算范围内。

2024-04-16 19:30:30 1422

原创 PV和uv的区别

通过这些例子可以看出,PV和UV是衡量网站性能和用户参与度的重要指标。PV可以反映网站的热度和用户的浏览行为,而UV则显示了独立访问网站的用户数量,有助于了解网站的覆盖范围和吸引力。在实际应用中,网站管理员和分析师会结合这两个指标来评估网站的流量情况,并根据分析结果优化网站内容和用户体验。总的来说,PV更多地反映了用户对网站内容的兴趣程度和互动频率,而UV则体现了网站吸引不同用户的能力。PV和UV是衡量网站流量的两个重要指标,它们之间存在一定的区别。

2024-04-11 09:57:06 3076

原创 降本金额、采购金额、报价、初期基础价和出库金额,这几个的区别

这个降低的部分就是降本金额,而实际支付给供应商的总额(采购金额)是9万美元。最初的10万美元报价是由供应商基于自身成本加上预期利润给出的,而后期调整为9万美元反映了市场竞争和协商的结果。出库金额的计算基于出库数量和商品单价的乘积。经过比较,发现有一个供应商愿意以9万美元的价格提供相同规格的电子元件,这就是新的报价。降本金额、采购金额、报价和初期基础价是供应链管理和采购活动中常见的几个概念,它们之间存在一定的区别。: 经过谈判,公司X最终与该供应商以9万美元的价格成交,因此采购金额是9万美元。

2024-04-10 09:58:31 710

原创 数析必备技能---数据认知素养与数量分析

提升数据认知素养和数据解析能力是一个持续的过程,需要通过理论学习、实践操作和不断反思来逐步提高。下面我将针对描述性数量解析、诊断性数据解析、预测性数量解析和指导性数量解析四个方面提供一些思路和方法。对于一家电商销售集团,可以结合描述性数量解析、诊断性数据解析、预测性数量解析和指导性数量解析来优化业务。描述性数量解析是对数据进行初步观察和分析,以了解数据的基本情况和特征。诊断性数据解析是对数据进行深入分析,以发现数据背后的原因和影响因素。预测性数量解析是利用历史数据和模型来预测未来的趋势和结果。

2024-04-03 09:53:01 736

原创 商品数据化运营---初步整理

商品数据化运营是指利用数据分析技术来优化商品的销售、管理和推广过程。这种方法结合了数据科学、商业智能、市场分析和消费者行为研究等多个领域的技术和理论,旨在通过分析大量的商品和销售数据来提高商品的市场表现和企业的利润。

2024-03-30 13:32:52 1305

原创 大数据-hive,初步了解

比如某一天的IMEI值为’lxw1234’的特别多,当我要统计总的IMEI数,可以先统计不为’lxw1234’的,之后再加1.

2024-03-29 13:31:58 869

原创 大数据数据分析-scala、IDEA、jdk之间的搭配关系

Scala主要是一门面向对象编程语言和函数式编程语言。- ---以HADOOP 2. x为系列的大数据生态系统处理框架离线数据分析,分析的数据为N+1天数据并行计算框架,分而治之----Hive基于SQL处理框架,将SQL转换为MapReduce,处理存储在HDFS上的数据,并且运行在YARN上。-----SQOOP桥梁:RDBMS(关系型数据库)-HDFS/HIVE 导入导出----HBASE大数据分布式数据库与MapReduce进行集成,可以读取数据进行分析处理,

2024-03-17 20:03:28 1483 2

原创 数据分析业务面试题

RFM 模型是衡量客户价值和客户创利能力的重要工具和手段。该机械模型 通过一个客户的近期购买行为、购买的总体频率以及花了多少钱三项指标来描述 该客户的价值状况。R(Recency):客户最近一次交易时间的间隔。R 值越大,表示客户交易发生 的日期越久,反之则表示客户交易发生的日期越近。F(Frequency):客户在最近一段时间内交易的次数。F 值越大,表示客户交易 越频繁,反之则表示客户交易不够活跃。M(Monetary):客户在最近一段时间内交易的金额。M 值越大,表示客户价 值越高,反之则表示

2024-03-03 15:52:42 940

原创 SQL笔试题解析

某奶粉品牌有以下销售数据(订单表OrderInfo),请计算每个人的消费金额、消费频次、购买产品数量、第一次购买时间和最后一次购买时间。【消费频次:客人的购买次数】.请结合OrderInfo表与OrderDetail表,计算出2016年的客户在2017年的回柜率(Retention Rate)。2.该奶粉品牌还有一张订单明细表(OrderDetail),请结合上题的订单表,计算出每个SKU被多少客户购买了。3.请结合OrderInfo表与OrderDetail表,找出购买了SKU1又购买SKU2产品的人。

2024-03-02 23:35:14 490

原创 SQL窗口函数, 测试题

计算每个交付小组(follow_team)的 跟单人(follow_user)对应师傅的订单金额;(求:follow_team,follow_user,sum_amt)1)使用 over() 函数进行数据统计, 统计每个用户及表中数据的总数(要求相同用户排列在一起)3.请写出张姓的所有学生的学生姓名、学习课程的总得分和平均得分、最大得分、最小得分和学习课程数。1.以下为某公司的城市表、开发师傅信息表,请写出每个城市的师傅人数数量的SQL。4) 计算每个用户最大的考试成绩(提醒:使用rank函数)

2024-03-02 23:01:35 550

原创 SQL面试题(2)

由于只有两人说的符合实际,因此可以推断出 B 和 D 说的是假话,即好人好事不是丙做的,乙也没有否认自己做的可能性。这个子句中,通过子查询选择最早的交易时间,然后通过DATE_ADD函数添加30天的时间间隔来计算出30天前的时间。首先,从交易订单表(trade_orders)中选择用户ID(users_id)和不同交易费用(trade_fee)的数量(COUNT)作为总付费次数。再根据乙的话可知,好人好事是丙做的,与此前矛盾,因此排除。综上所述,符合条件的可能情况只有第二种,即好人好事很可能是甲或乙做的。

2024-03-01 23:27:25 1460

原创 SQL面试题

2.从表mili中选择registerip作为注册IP,统计不重复的uid数作为用户数量,并且按照registerTime降序排列后用逗号分隔渠道,取名为渠道。列名:statics_date:统计日期,channel:渠道,type:类型,desc:描述,registerTime:用户注册时间,用SQL,写出每日用户新增最多的5个渠道。表:members中"entry_time"为用户进群时间,"quit_time"为用户退群时间(为空时表示还在群内),inviter_wxid为邀请人id。

2024-03-01 10:32:38 1005

原创 Excel 面试题及答案(2)

根据左侧数据源,按姓名匹配《职级》,仅限用函数,不能做任何辅助:根据左侧数据源,按姓名匹配《部门》,仅限用函数,不能做任何辅助:根据右侧考核规则,匹配《绩效比例》,用函数完成(可适当做辅助的单元格区域)职级:绩效比例:TRUEFALSEIF{1,0}{1,0}IFarray1array2F820当VLOOKUP在IF函数创建的数组中查找时,它会首先查找第一列(即B4:B28)。如果找到了与F8匹配的值,它就会返回同一行中第二列(即A4:A28)的值。

2024-02-23 02:53:59 1339

原创 Excel面试题及答案(1)

1.辅助列添加,快速填充方式填充隔行的编号;定位条件定位到空值后,右击---插入整行2.利用通配符计算A3:A9含有车间的单元格个数(保留计算公式)。3.利用身份证号提取 “性别”、“年月日”、“年龄”=MID(B2,17,1),=IF(MOD(G2,2)=0,"女","男")4.根据给出的节假日及月份和天,得出2023年各个节假日的具体日期和星期5.使用INDEX及MATCH组合函数查找标黄部分相关信息6.用HLOOKUP公式从产品价格表中查找出标黄部分值。

2024-02-23 00:01:06 1558

原创 Excel之index、MATCH面试题、VLOOKUP函数,

说明:“查找值”G2也就是【产品】,由于数据表中【产品】列在【日期】列的后面,无法按照VLOOKUP函数的使用方法(查找区域要根据查找值位于第一列进行)所以我们要将【产品】排列在数据表中的第一列,则增加一列【辅助列】代表【日期】列,数据表所选区域也就是$B$1:$D$11区域。说明:“查找值”E2也就是【产品】,“查找区域”根据查找值【产品】在所选的数据表中,也就是$B$1:$C$11中必须位于第一列。公式:=VLOOKUP(E2,$B$1:$D$11,3,0)的值对应于第7列,那么这个公式将计算从。

2024-02-22 19:12:15 2452

原创 Python Pandas处理字符串(方法详解)

在Python的Pandas库中,处理字符串是常见的操作。Pandas提供了许多内置的方法和函数来处理DataFrame和Series中的字符串。

2024-02-21 13:44:39 883

原创 Pandas sorting排序,已更新

排序的结果可能受到DataFrame中数据类型的影响,例如字符串和数字的排序方式是不同的。Pandas提供了多种排序方法,可以根据列的值对DataFrame进行排序。方法返回一个新的排序后的DataFrame,而原始DataFrame保持不变。方法,您可以按单列的值对DataFrame进行排序。:如果您需要根据自定义的顺序对列进行排序,可以传递一个自定义的排序键函数给。:如果您想根据多列的值对DataFrame进行排序,可以在。:如果您想根据行索引对DataFrame进行排序,可以使用。

2024-02-21 11:02:29 645

原创 Pandas iteration遍历,目前更新

我们应该明确,它们的数据结构类型不同的,遍历的方法必然会存在差异。通过for遍历后,Series 可直接获取相应的 value,而 DataFrame 则会获取列标签。注意:iterrows() 遍历行,其中 0,1,2 是行索引而 col1,col2,col3 是列索引。迭代器返回的是原对象的副本,所以,如果在迭代过程中修改元素值,不会影响原对象,这一点需要大家注意。该方法按行遍历,返回一个迭代器,以行索引标签为键,以每一行数据为值。:它返回一个包含列名和列数据的元组的迭代器。

2024-02-21 10:22:44 392

原创 pandas基础知识、Series结构

在ndarray数组(numpy 中数组)的基础上构建了两种不同的数据结构,分别是Series(一维数据结构),DataFrame(二维数据结构)Series 可以保存任何数据类型,比如整数、字符串、浮点数、python对象等,它的标签默认为整数,从0开始依次递增。pandas使用Series()函数来创建Series对象,通过这个对象可以调用相应的方法和属性,从而达到处理数据的目的。ndarray是numpy中的数组类型,当data是ndarray时,传递的索引必须具有与数组相同的长度。

2024-02-20 13:58:07 891

原创 时间函数,SQL获取,实际案例,简单易懂

方式一:先求本月的第一天,再往前推一天 select subdate(date(curdate()-day(curdate())+1),1) #方式二:拿当前的日期减去当前的天数 select subdate(curdate() ,interval day(curdate()) day) #方式三:直接使用last_day(上月的某个日期) select last_day(subdate(curdate(),interval 1 month))

2024-02-20 09:54:45 2515

原创 NumPy 基础知识

Numpy 定义了一个N维数组对象,它是一个一系列相同类型元素组成的数组集合。数组中的每个元素都占有大小相同的内存块,可以使用索引或切片的方式获取数组中的每个元素。ndarray 对象有一个dtype属性,该属性用来描述元素的数据类型。

2024-02-20 09:17:28 1135

原创 以超市数据微案例-fineBI可视化分析

结论:通过分析1-8月份的销售额和毛利额,发现2月8月的毛利额均呈下降趋势,但是2月的销售额和毛利额都降低,而8月份销售额有所增长的前提下毛利额下降,因此具体需要关注哪个月份的毛利额还需要进一步分析。结论:通过对比7、8月份的总销售额和总毛利率发现,免费渠道中的站内广告位8月销售额最高,但是,毛利率为-0.32%,因此需求进一步分析8月站内广告位具体的投放ID。上面的分析中8月的毛利率求的是8月每一天的毛利率,放置在可视化对象上时就是默认求和,因此才需要调整为平均值,意味着拿到的时8月平均每天的毛利率。

2024-01-17 12:51:02 2563 2

原创 SQL-窗口函数

​什么是窗口函数可以像聚合函数一样对一组数据进行分析并返回结果,二者的不同之处在于,窗口函数不是将一组数据汇总成单个结果,而是为每一行数据都返回一个,窗口函数OVER子句中的PARTITION BY选项用于定义分区,其作用类似于查询语句中的GROUP BY子句。如果我们指定了分区选项,窗口函数将会分别针对每个分区单独进行分析。

2024-01-17 12:30:58 6079 1

原创 数据清洗具备的基本函数

说明:“查找值”G2也就是【产品】,由于数据表中【产品】列在【日期】列的后面,无法按照VLOOKUP函数的使用方法(查找区域要根据查找值位于第一列进行)所以我们要将【产品】排列在数据表中的第一列,则增加一列【辅助列】代表【日期】列,数据表所选区域也就是$B$1:$D$11区域。=MID(text,start_num,num_chars): text:文本单元格,start_num:起始位置,num_chars:字符串长度。left()函数是一个字符串函数,,它返回具有指定长度的字符串的左部分。

2024-01-11 14:08:19 974

原创 Excel基础知识

选择可修改的部分---Ctrl+1---调出设置单元格格式------选择保护-----去掉锁定前面的勾-----确定------然后到审阅菜单栏-------选择保护工作表-------选择默认选项----确定-----实现了除了被选中的区域以外都不可修改。在空白单元格---输入10000-----显示数值------然后复制输入的数字状态下的10000-----选择内容----鼠标右击----选择性粘贴-----选择除法------确定。

2024-01-11 13:59:10 523

mysql-窗口函数概述

mysql中窗口函数的概述以及一些数据练习,可以更好的对窗口函数理解。 什么是窗口函数:可以像聚合函数一样对一组数据进行分析并返回结果,二者的不同之处在于,窗口函数不是将一组数据汇总成单个结果,而是为每一行数据都返回一个结果。

2023-12-21

MySQL数据库-概括以及DDL、DML、DQL、DCL的详解

mysql数据库基础知识,从介绍数据库的含义到创建数据表,对数据增删改查的知识,很是详细,一看就懂。

2023-12-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除