
数据分析
文章平均质量分 78
学掌门
学习掌门人,职场引路人!
展开
-
8个Python高效数据分析的技巧,不看肯定后悔~
本文介绍了8种提升Python数据分析效率和代码质量的实用方法:1)列表推导式简化循环操作;2)lambda表达式创建匿名函数;3)map和filter函数处理数据;4)NumPy的arange和linspace生成数值序列;5)理解Pandas中axis参数的含义;6)DataFrame的concat、merge和join操作;7)apply函数应用自定义处理;8)pivot_table创建透视表。这些技巧不仅能提高代码运行效率,还能使代码更加简洁优雅,适用于数据分析和机器学习项目。原创 2025-06-03 10:08:14 · 458 阅读 · 0 评论 -
做了7年开源数据库开发,我学到了什么?
本文总结了作者在7年开发开源数据库rqlite过程中的经验体会。主要观点包括:开发时要专注单一功能,避免过度改动;创造力具有随机性,重要功能往往在短时间内完成;测试至关重要,尤其要重视单元测试;Go语言经久耐用;开源项目推广困难;个人编程能带来治愈感,不受团队协作限制。虽然rqlite已持续开发7年,但仍有诸多改进空间。文章展现了开源开发者真实的心路历程和技术洞见。原创 2025-05-28 09:40:51 · 386 阅读 · 0 评论 -
送你8个Python高效数据分析的技巧
本文介绍了8个使用Python进行数据分析的高效方法,旨在提升代码运行效率并使其更加简洁。这些方法包括:1. 使用一行代码定义列表,避免繁琐的For循环;2. 利用Lambda表达式创建小型匿名函数;3. 结合Map和Filter函数实现更强大的数据处理;4. 使用Arange和Linspace生成等差列表;5. 理解Pandas中Axis的含义;6. 掌握Concat、Merge和Join函数以组合DataFrame;7. 应用Pandas Apply函数对Series进行操作;8. 使用Pivot Ta原创 2025-05-19 10:20:06 · 575 阅读 · 0 评论 -
用Python做数据分析之数据表清洗
数据清洗是确保数据质量的关键步骤,主要包括处理空值、清理空格、统一大小写、更改数据格式、删除重复值以及数值修改和替换。对于空值,可以选择删除或填充,如使用均值或特定值填充。在Python中,可以使用dropna函数删除空值,或使用fillna函数进行填充。清理空格可以通过str.strip方法实现,而大小写转换则可以使用str.lower或str.upper方法。数据格式的更改可以通过astype函数完成。删除重复值可以使用drop_duplicates函数,并可通过参数控制保留哪个重复值。数值的修改和替换原创 2025-05-13 10:15:28 · 292 阅读 · 0 评论 -
抽丝剥茧的数据分析之道
但数据的本质还是数值,只是属于最后结果的一种表现形式,要想改变结果,只能去寻找因,从因上做改变,才能引起结果的改变。以上,就是数据分析需要怎样的能力,其实,在很多企业中,数据分析是个岗位,但我一直认为数据分析仅仅是数据从业者谋生的高级手段,数据运营、数据产品、数据管理等各类岗位都需要数据分析的技能,比如数据运营就是数据分析的一种持续迭代形式。这些东西说起来都是高大上的,简单来说,能通过数据找到问题,准确地定位问题,准确地找到问题产生的原因,为下一步的改进,找到机会点,也就是所谓的:数据驱动。原创 2025-04-27 10:40:51 · 273 阅读 · 0 评论 -
BI数据分析师究竟是做什么的?
并非所有的商业分析师都需要IT方面的背景知识,只要他们对信息系统,产品和工具的工作方式有一个基础的了解即可。但是在这里要强调的是,这不是单纯的商业分析师,也不是单纯的数据分析师,而是综合的复合型人才,既要有商业的一些分析方法和对业务的理解,又要会数理统计的一些分析方法,只有这样才能更好的适应从BI到AI的过度升级。而作为数据分析的硬核技能,我们有需要掌握一些处理数据的工具,包括一些统计学的方法,并会建模分析,能够做预测分析,再结合商业分析的方法和业务的一些情况,我们才能做的更好。原创 2025-04-21 09:54:34 · 388 阅读 · 0 评论 -
菜鸟进阶数据大牛:如何系统学习BI商业智能
数据仓库作为提供所有数据类型支持的战略集合,对于BI分析数据模型是至关重要的,而ETL从数据库中提取,清洗数据加载到数据仓库中,作为连接数据库和数据仓库的纽带,在我们想要学好BI的前提下,学习ETL也是必不可少的。因为BI的出发点是数据,希望能够从数据分析中得到有价值的信息,所以从事BI相关的工作是绝对离不开数据库的。学习BI,我们要知道业务中的一些专业名词,比如指标、维度、主题域、主体集、主题表等等,以及业务中的一些具体逻辑,这些对于我们在做BI分析的时候都是十分重要的。首先,我们认识一下数据仓库。原创 2025-04-08 09:59:52 · 814 阅读 · 0 评论 -
用Python做数据分析之数据统计
Weights参数是采样的权重,通过设置不同的权重可以更改采样的结果,权重高的数据将更有希望被选中。Corr函数用来计算数据间的相关系数,可以单独对特定数据进行计算,也可以对整个数据表中各个列进行计算。Describe函数是进行描述统计的函数,自动生成数据的数量,均值,标准差等数据。Excel的数据分析功能中提供了相关系数的计算功能,python 中则通过 corr 函数完成相关分析的操作,并返回相关系数。接下来说说数据统计部分,这里主要介绍数据采样,标准差,协方差和相关系数的使用方法。原创 2025-04-01 10:01:06 · 501 阅读 · 0 评论 -
大数据知识合集之数据分析方法论
其中,用户分类是最常见的情况。折线图和散点图都清晰的表示了广告曝光量和费用成本两组数据间的相关关系,优点是对相关关系的展现清晰,缺点是无法对相关关系进行准确的度量,缺乏说服力。对所研究现象只作相关分析,仅说明现象之间具有密切的相关关系是不够的,统计上研究现象之间具有相关关系的目的,就是要通过回归分析,将具有依存关系的变量间的不确定的数量关系加以确定,然后由已知自变量值推算未知因变量的值,只有这样,相关分析才具有实际意义。相关分析的方法很多,初级的方法可以快速发现数据之间的关系,如正相关,负相关或不相关。原创 2025-03-31 10:30:04 · 1059 阅读 · 0 评论 -
数据分析的12个挑战及其解决方法
最后,随着组织的发展以及收集的数据量的增长,分析可能很难扩展,收集信息和创建报告变得越来越复杂,随着数据分析的发展,数据系统也会有进一步的发展;为了使员工更易于接受,我们可以通过说明分析方式的改变,会减轻他们的角色负担,精确他们的岗位职责,从而是他们的工作变得更有意义。有效的数据库,可以消除任何可访问性问题,授权的员工可以从任何地方查看或编辑数据,从而说明组织的变化和高速决策。随着风险管理在组织中越来越流行,财务官和其他高管要求风险管理员提供更多分析结果,因为他们期望获得更高的回报,和各种数据的大量报告。原创 2025-03-20 09:34:56 · 788 阅读 · 0 评论 -
菜鸟怎么学习数据分析?
任何人能入行这个领域,是因为互联网对于没有资源和背景的普通人是很包容的,比如它创造的很多新的工作机会,有些岗位之前是没有的,因此不强求专业对口、要多少年的经验等等,对于没有资历的普通人来说,互联网很友好。我之前提到说数据分析一般可以分成定量和定性的分析,定量的大家都比较清楚,也比较常见,但是定性的会去研究用户的主动反馈意见,而这些一般都是文本,当数据量较大的时候,肯定不是一条条自己去分析用户的情感、观点等维度,这时候完全可以利用文本挖掘的方法快速准确的抽取出用户观点、主题和情感分析等等。原创 2025-03-18 09:53:51 · 360 阅读 · 0 评论 -
数据分析过程中,发现数值缺失,怎么办?
在数据挖掘中,面对的通常是大型的数据库,它的属性有几十个甚至几百个,因为一个属性值的缺失而放弃大量的其他属性值,这种删除是对信息的极大浪费,所以产生了以可能值对缺失值进行插补的思想与方法。对于主观数据,人将影响数据的真实性,存在缺失值的样本的其他属性的真实值不能保证,那么依赖于这些属性值的插补也是不可靠的,所以对于主观数据一般不推荐插补的方法。两种均值插补方法是最容易实现的,也是以前人们经常使用的,但是它对样本存在极大的干扰,尤其是当插补后的值作为解释变量进行回归时,参数的估计值与真实值的偏差很大。原创 2025-03-17 09:54:42 · 462 阅读 · 0 评论 -
掌握这25条小贴士,快速提升数据可视化能力!
可视化不是单纯的数据展示,其真正价值是,设计出可以被读者轻松理解的数据展示。这并不意味着要减少数据量,而是要多留意图表垃圾、多余的信息、不必要的说明、阴影、装饰等。相对来说,数据的小幅波动是有意义的(比如股票市场的数据),那么你就需要截断一个范围以展示它们的不同。如果要在一组图表上对比今年和去年的销售数据,那么可用不同颜色代表不同年份的数据。但还有更令人兴奋的,对比展示第一季度的数据,销售额就有了100%的增长。在轴上使用自然增量(0、5、10、15、20),而非不均匀的增量(0、3、5、16、50)。原创 2025-03-13 09:53:41 · 466 阅读 · 0 评论 -
数据分析师,这到底是个什么职业
与传统的数据分析师相比,互联网时代的数据分析师面临的不是数据匮乏,而是数据过剩。一方面是搭建数据分析框架的要求,比如确定分析思路就需要用到营销、管理等理论知识来指导,如果不熟悉管理理论,就很难搭建数据分析的框架,后续的数据分析也很难进行。从事数据分析工作的前提就会需要懂业务,即熟悉行业知识、公司业务及流程,最好有自己独到的见解,若脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的使用价值。图表的设计是门大学问,如图形的选择、版式的设计、颜色的搭配等等,都需要掌握一定的设计原则。原创 2025-02-26 09:58:13 · 356 阅读 · 0 评论 -
数据分析面试重点!小白必看!
Z-score:最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法,spss默认的标准化方法就是z-score标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:x∗=x−μσ,其中μ为所有样本数据的均值,σ为所有样本数据的标准差。特征工程的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简单的模型做训练,更可以得到好的结果。数据清洗也是很重要的一步,机器学习算法大多数时候就是一个加工机器,至于最后的产品如何,取决于原材料的好坏。原创 2025-02-24 10:47:59 · 1086 阅读 · 0 评论 -
数据分析师,未来的出路在哪里?
外行可能看到的都是数字,多少人浏览了网站,发了多少帖子,但内行看到的都是流量,即互联网的本质。无论是门户网站、内容自媒体亦或是电子商务,离不开这些人的身影,而他们大多数都是数据分析的好手,懂 SEO, 懂社交化营销,知道 pv, uv, 知晓政策走向,会去看日志,懂得如何埋点,抓取用户行为并为之画像,采用推荐系统来提高关联销售。数据分析师就业问题,不单单是想进入数据分析行业的人关注的问题,也是正处于数据分析岗位的人关心和担忧的问题,毕竟这社会就是这么现实,优胜劣汰,你能力不如别人,你就得让道。原创 2025-02-13 09:46:50 · 560 阅读 · 0 评论 -
三年数据分析师的一些经验:知道这些,少走一半的弯路
如果不参加数据分析师培训,不接受正统的数据分析师培训学习过程,你能保证,在周一到周五工作累得不想动的时候,在温暖的被窝睡着的时候,你会在周六的早上准时8点起来学习数据分析师培训的内容吗?成长是我建议出入职场的同学,第一考虑的要素,随着公司的发展,业务的丰富,数据的增加,我们得到的经验会越来越好,但是如果能力和技术没有得到很好的应用,即使公司再好,再大,对我们来说意义也不是很大,成长是第一要素,岗位JD很重要,提前调研公司业务很重要,了解未来自己的位置很重要,无论是什么行业,为了让未来更好,请野蛮生长。原创 2025-01-06 10:05:22 · 330 阅读 · 0 评论 -
【无标题】
XX科技,美股的上市企业。很多年前,已经组建了国内较早的数据分析团队,另外一家是杭州独角兽企业,51公积金,数据团队超过十余人,Leader是女性。做数据分析,个人感觉并不适合男生,因为很多男孩子沉不下心(当然男孩在工作中,也更有攻击力,做产品岗,或者运营,技术岗位更佳),我觉得蛮适合女孩子。注意采样:经常200以内的数字,不要拿来分析,样本量太低,比如冠性病毒早期,也不具备多大分析意义,目前才呈现出来一点的趋势性。当然,很多其它类型企业也会如此,比如ai,大数据,云计算,相关领域,数据也是重中之重。原创 2024-11-27 09:46:17 · 146 阅读 · 0 评论 -
数据分析师职业规划——数据分析师的职业焦虑与未来发展
数据分析师既做了部分数据仓库的工作,又做了部分数据产品的工作,也做了部分数据分析的工作,但做了这么多工作就是没有成就。而且因为代码是开源的,可以根据公司的需求场景进行针对性的开发,公司可以再辅以配置一些更加用户友好的操作界面,这样一些复杂需求也有了简单拖拽实现的可能。数据分析师的职业焦虑和怠倦来源于打杂困惑:做的事情都是打杂,不是取数,就是做报表和图表,感觉自己做的事情没有什么技术含量。需要做的就是前单文中提到的有严重打杂困惑的数据分析在做的事情,没有什么技术含量,数据产品基本可以替代这些工作。原创 2024-11-05 09:58:49 · 521 阅读 · 0 评论 -
做了三年数据分析,给你的几点建议
这一点我也还在学习,从现有的数据表现,提出有建设性的意见给运营、产品、领导,这是很考验人的,不仅要确保数据准确无误(这样才能得出没有偏差的结论),还得对业务产品了熟于心,还有对行业的一个全局观,我刚开始学习的时候,当时的目标是把别人的代码抄下来,只要不报错就好了。后来慢慢的感受到了乐趣,其中有一点很重要,要先把问题给弄清楚了,这也就要求我们把问题一步步的分解,然后使用搜索工具一步步的解决 ,其实在这个过程中,思路将会越来越清楚,最后问题也就能解决了一大半了,这时再问别人的时候也能特别有效率的。原创 2024-10-23 09:57:18 · 294 阅读 · 0 评论 -
数据分析师职业规划——数据分析师这个岗位,可能近几年会消亡
这其中就涉及到一些代码的效率优化问题,这个就不是简单懂一点python可以搞定的了,可能涉及到一些数据压缩格式的转化,比如Json/Proto buffer到hive表的转化,还有一些计算框架层面的调优,比如spark设置什么样的参数,以及怎么样存储可以更好的提升查询速度。这项工作的痛点和难点在于,我们为了得到一个结果,通常需要join很多的数据集,然后整个SQL语句就会写的特别长,而且可能会出现一些问题:比如join的表可能会出现key是重复的情况,造成最终的SQL结果因为重复而变得不可用。原创 2024-10-16 10:08:30 · 585 阅读 · 0 评论 -
数据分析师成长必须经历的三个阶段,看看你到哪一个了?
集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。虽然学习机器学习需要掌握大量的算法,但是这些算法的难度也并不算高,只要具备一定的数学基础(线性代数、概率论),都是可以顺利理解并运用这些经典算法的。从机器学习的步骤来看,主要有6大步骤,分别是数据收集、算法设计、算法实现、算法训练、算法验证和算法应用,所以机器学习的前提是数据收集,核心是算法设计。正如我之前提到的,对于你来说,无论你选择哪一个角色,从一而终是很重要的。原创 2024-10-10 10:05:12 · 403 阅读 · 0 评论 -
数据分析最常用的5大软件,你都会哪些?
基于这个考虑,Guido 在开发 Python 时,不仅为其添加了很多 ABC 没有的功能,还为其设计了各种丰富而强大的库,利用这些 Python 库,程序员可以把使用其它语言制作的各种模块(尤其是C语言和 C++)很轻松地联结在一起,因此 Python 又常被称为“胶水”语言。R语言,顾名思义,它首先是一门计算机的编程语言,就跟传统的C语言,Java语言类似,但是,它又不仅仅是一门计算机语言。这是因为,R语言天生为统计而生,所以,它做不到像C语言那般的普适,数据分析、统计建模、数据可视化才是它的舞台。原创 2024-10-09 10:02:47 · 638 阅读 · 0 评论 -
哪些人真的不适合学习数据分析,你中招了吗?
另一个方面是自己缺乏练习,很多人学课程,看书,从来不自己操作,老想寻找一些面试题、某企业级数据集拿来分析一下,看看自己的水平,要对胃口的数据集其实很少的,即使有,也是美化版的,很多综合性的演练你还是学不到的,还不如随便爬一些数据,越乱越好(对练习工具操作有巨大好处),然后在现有数据的基础上看看可以分析出什么?从大数据培训学校的角度来说,学大数据的学员一般都是专科及以上,具有统计学之类的知识,有一定的基础的,不然即使你报名学习了,但是因为基础为零,也是很难克服困难的,自动放弃还不如当初想清楚再学。原创 2024-09-10 10:02:10 · 458 阅读 · 0 评论 -
Python开发学习之Python和Excel的数据实现互通
今天为大家分享一篇使用Python和Excel的数据实现互通的技巧心得,可以让Python和Excel的数据实现互通!具有很好的参考价值,希望对大家有所帮助(建议在电脑端阅读,代码案例较多)。一起过来看看吧!问题描述为了更好地展示数据,Excel格式的数据文件往往比文本文件更具有优势,但是具体到python中,该如何导出数据到Excel呢?如果碰到需要导出大量数据又该如何操作呢?具体步骤Step 1 安装openpyxl。原创 2024-09-03 09:57:03 · 1775 阅读 · 0 评论 -
数据分析面试重点!小白必看!
Z-score:最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法,spss默认的标准化方法就是z-score标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:x∗=x−μσ,其中μ为所有样本数据的均值,σ为所有样本数据的标准差。特征工程的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简单的模型做训练,更可以得到好的结果。数据清洗也是很重要的一步,机器学习算法大多数时候就是一个加工机器,至于最后的产品如何,取决于原材料的好坏。原创 2024-08-29 09:30:41 · 676 阅读 · 1 评论 -
做数据分析的女孩子,职业发展前景在哪里?数据分析枯燥吗?
网秦科技,美股的上市企业。很多年前,已经组建了国内较早的数据分析团队,另外一家是杭州独角兽企业,51公积金,数据团队超过十余人,Leader是女性。做数据分析,个人感觉并不适合男生,因为很多男孩子沉不下心(当然男孩在工作中,也更有攻击力,做产品岗,或者运营,技术岗位更佳),我觉得蛮适合女孩子。注意采样:经常200以内的数字,不要拿来分析,样本量太低,比如冠性病毒早期,也不具备多大分析意义,目前才呈现出来一点的趋势性。当然,很多其它类型企业也会如此,比如ai,大数据,云计算,相关领域,数据也是重中之重。原创 2024-08-20 09:59:34 · 233 阅读 · 0 评论 -
学习Python可以做什么工作?选什么方向?
现在非常有影响力的AI框架大多是Python的实现,Python足够动态、具有足够性能,这是AI技术所需要的技术特点。Python目前是比较热门的编程语言,物联网的到来离开Python的语言,市场相关岗位空缺比较大,各行需求也是处于供不应求,学习Python时可以选择一个自己比较喜欢的从业方向发展深入学习。Python语言对测试的帮助是非常大,自动化测试中Python语言的用途很广可以提升工作效率,Python太强大掌握和熟悉自动化的流程,方法和我们总使用的各个模板。8、Python自动化测试。原创 2024-08-05 10:00:29 · 384 阅读 · 0 评论 -
哪些人真的不适合学习数据分析,你中招了吗?
另一个方面是自己缺乏练习,很多人学课程,看书,从来不自己操作,老想寻找一些面试题、某企业级数据集拿来分析一下,看看自己的水平,要对胃口的数据集其实很少的,即使有,也是美化版的,很多综合性的演练你还是学不到的,还不如随便爬一些数据,越乱越好(对练习工具操作有巨大好处),然后在现有数据的基础上看看可以分析出什么?从大数据学习的角度来说,学大数据的学员一般都是专科及以上,具有统计学之类的知识,有一定的基础的,不然即使你报名学习了,但是因为基础为零,也是很难克服困难的,自动放弃还不如当初想清楚再学。原创 2024-07-30 10:04:35 · 386 阅读 · 0 评论 -
数据分析面试指南,知道以下几点成功率提升50%
基础知识考察往往会和你的项目相结合,会考察你的项目中涉及的知识,所以对于项目中涉及到的知识要做到尽可能的熟悉,知其然知其所以然。大家在准备面试的时候,还要注意的一点是可以结合企业和岗位的特点去进行有针对性的准备,很多辅导的同学会问我能不能帮忙预测一下面试官会问什么,其实想要预测面试官的问题一般来说不太可能,但可以通过查看面经去推断企业比较侧重的考察点,比如有些企业比较侧重于基础知识的考察。常见的选择应该就是SQL,R或者Python,这几种语言相对都比较简单些,而且有高度标准化的数据处理,分析方面的内容。原创 2024-07-23 09:54:59 · 331 阅读 · 0 评论 -
做了三年数据分析,给你的几点建议
这一点我也还在学习,从现有的数据表现,提出有建设性的意见给运营、产品、领导,这是很考验人的,不仅要确保数据准确无误(这样才能得出没有偏差的结论),还得对业务产品了熟于心,还有对行业的一个全局观,我刚开始学习的时候,当时的目标是把别人的代码抄下来,只要不报错就好了。后来慢慢的感受到了乐趣,其中有一点很重要,要先把问题给弄清楚了,这也就要求我们把问题一步步的分解,然后使用搜索工具一步步的解决 ,其实在这个过程中,思路将会越来越清楚,最后问题也就能解决了一大半了,这时再问别人的时候也能特别有效率的。原创 2024-07-18 09:52:09 · 407 阅读 · 0 评论 -
数据分析面试指南,知道以下几点成功率提升50%
基础知识考察往往会和你的项目相结合,会考察你的项目中涉及的知识,所以对于项目中涉及到的知识要做到尽可能的熟悉,知其然知其所以然。大家在准备面试的时候,还要注意的一点是可以结合企业和岗位的特点去进行有针对性的准备,很多辅导的同学会问我能不能帮忙预测一下面试官会问什么,其实想要预测面试官的问题一般来说不太可能,但可以通过查看面经去推断企业比较侧重的考察点,比如有些企业比较侧重于基础知识的考察。常见的选择应该就是SQL,R或者Python,这几种语言相对都比较简单些,而且有高度标准化的数据处理,分析方面的内容。原创 2024-07-15 10:08:41 · 390 阅读 · 0 评论 -
数据分析师职业规划——数据分析师这个岗位,可能近几年会消亡
这其中就涉及到一些代码的效率优化问题,这个就不是简单懂一点python可以搞定的了,可能涉及到一些数据压缩格式的转化,比如Json/Proto buffer到hive表的转化,还有一些计算框架层面的调优,比如spark设置什么样的参数,以及怎么样存储可以更好的提升查询速度。这项工作的痛点和难点在于,我们为了得到一个结果,通常需要join很多的数据集,然后整个SQL语句就会写的特别长,而且可能会出现一些问题:比如join的表可能会出现key是重复的情况,造成最终的SQL结果因为重复而变得不可用。原创 2024-07-11 09:53:04 · 574 阅读 · 0 评论 -
从零到字节跳动数据分析师,我是这样完成转型的
对于Excel的学习,如果你的意向的岗位不是那种纯excel的数据分析师岗位的话,建议大家不需要花费太多时间在excel上,我个人是几乎没花什么时间在excel上,主要的是要掌握vlookup、透视表和一些常用图表,不会的函数就直接百度。对于统计学基础不怎么好,或者已经忘干净的同学,可以看网易公开课里可汗学院的课程恶补一下,我在准备的时候复习了一遍,感觉效果不错,捡回了不少遗忘的知识。对于sql的学习,完全没有基础的同学可以先看这本《sql必知必会》,了解sql的一些基本知识,增改删查,主要看查询的部分。原创 2024-06-18 09:58:09 · 1104 阅读 · 0 评论 -
数据分析之数据预处理、分析建模、可视化
数据中台 是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,是一个数据管理体系,内容涉及全局数据仓库规划、规范定义、建模研发、连接萃取、运维监控等。企业需要更加强大的数据分析工具,比如大数据开发框架,它能支持企业海量数据运行和分析,结合商业智能报表工具,可以实现对数据的实时监控和展示,并且能够通过对历史数据分析建立相应的预测模型,对未来趋势进行预测。定性数据: 指描述事物的属性、类别、特征的数据,不能进行加减乘除等数学计算,一般是字符型,包含汉字、字母、数字、符号等;原创 2024-06-17 10:04:47 · 1823 阅读 · 0 评论 -
数据分析常用6种分析思路(下)
e.g. 用户的标签分为基础标签和复合标签,基础标签就是单个用户属性来定义的(例如性别、婚否等),复合标签则是考虑多个基础标签的组合(例如,某个典型的用户群体画像是:女性+单身+白领+一线城市);e.g. 风控业务中累计坏账计提的计算,是将不同的逾期资金规定不同的风险计提比例,最后再把所有类别的风险计提资金汇总起来,作为公司所有贷出款项的风险计提资金,从而对公司贷款业务风险进行评估;精通方法,深入业务,勤于实践,多加总结,最终就能踏上描述–>解释–>预测–>控制,步步高升的数据分析师精进之路。原创 2024-06-13 09:47:20 · 764 阅读 · 0 评论 -
数据分析常用6种分析思路(上)
e.g. 在用户运营理念中有这样一个转化公式:路人–>用户–>粉丝–>员工,先把围观的感兴趣的路人转化为用户,轻度用户是产品的使用者,中度用户是产品的“追随者”,重度用户则会主动参与产品的功能反馈和改进建议,在这个转化过程中用户的参与度逐步提高。产品转化的每个步骤都会有用户流失,好比100个人参加有9个关卡的淘汰游戏,每个关卡会淘汰10个人,整个游戏最终会剩下10个获胜者,把这个游戏看作产品,那么该产品的全流程转化率就是10%(游戏获胜率)。那么,今天这篇内容,你一定要好好读一读,说不定对你益处非常多。原创 2024-06-12 10:21:05 · 1064 阅读 · 0 评论 -
7种常用数据分析方法,建议收藏学习(下)
其中的经验标准是在大量的实践过程中总结出来的值,而理论标准则是根据理论推断出来的值,平均值则是某一空间或时间的平均值。相似空间的对比对象必须是形态上比较接近,先进空间则是和同一种形态中的优秀空间进行对比,与扩大空间的对比,比如北京和全国的数据对比,北京王府井店和全北京的数据对比,和竞争对手的对比也在此列。中位数主要是反映的是一组数据的集中趋势,像我们比较常见的正态分布,比如说我们想去统计某市的人均收入,其实,大部分的人均收入都是在一定范围之内的,只有少部分是处于最低的和最高的,其实这是中位数带来的意义。原创 2024-06-11 10:22:31 · 1279 阅读 · 0 评论 -
7种常用数据分析方法,建议收藏学习(上)
右下角的浏览量高,但加购数低的,说明这个时候他的资源位置是好的,但是用户对这部分的产品并不感兴趣的,我们就需要对其进行相应的位置调整。用户分群和用户分层其实是相关联的,用户分群是对用户分层的补充,当用户差异性较大,层级上不能再做用户细分时,可以考虑将同一个分层内的群体继续切分,满足更高的精细化运营需要。除此以外,还可以针对流失高/留存高的用户群组进行一对一的用户行为分析,统计留存/流失用户的行为特征,特别是针对流失用户,通过流失用户的行为分析总结流失原因,从而提升留存率。原创 2024-06-06 10:00:35 · 464 阅读 · 0 评论 -
气死!又被数据骗了!
如果你是一位投资人,看到了上图这样一份公司近几年的财务报告,展示了公司每年净利润的走势,你就会觉得:哇,这家公司经营的不错啊,每年都在增长,看起来很有投资价值!但是第二张中虽然两个因素的变化趋势也是一致的,但是我们很难相信,一个国家的芝士消费量,会与每年被被单缠住窒息的死亡人数有关系,因为这两者之间很难产生因果关系,这就叫做“伪相关”。所以,面对数据,我们一定要秉持着绝对客观、严谨的态度去看待,做数据分析,是为了推动业务的发展,挖掘更多价值,而不是为了迎合业务想要的结果。两地的市场占有率如下表。原创 2024-05-09 10:02:10 · 412 阅读 · 0 评论