本人坐标北京,研究生某211学校毕业后,在美团做了3年的数据分析师,由于兴趣的原型,现在转型做了产品经理。期间也在一家小型的教育机构做了兼职,做一些数据分析的培训工作,对于自学的有着自己的见解,正在学习数据分析的你,是不是也有混乱的感受,这正是我写这篇文章的目的:通过自身经历的总结,希望能整理一条比较清晰的学习路径!
一、数据分析前景
在2024年,数据分析师的职业前景无疑是充满了无限可能性。作为一位在数据分析领域深耕多年的从业者,我一直关注着行业的动态,见证了它的快速发展和变化。今天,我想用一种轻松的方式,和大家聊聊数据分析师这个职业在未来几年中的发展趋势,以及为何我认为这是一个值得投入的职业方向。而且本文还提供了一份自学的数据分析教程
教程获取方式可以查看文章底部 |
市场需求持续增长
首先,我们来看一下市场需求。根据职友集的数据,2024年大数据分析师的平均月薪为17.9千元,比去年增长了4%。这不仅反映了行业的稳步发展,也意味着对数据分析师的需求正与日俱增。事实上,国内某大型招聘平台的调查也显示,数据分析师的平均薪酬约为9724元。这些数字背后代表的是什么呢?其实是市场对数据分析人才的高度渴求。
行业应用的广泛性
随着大数据技术的不断发展,数据分析的应用范围也在不断扩大。从金融到电商,从互联网到医疗,各个领域都在利用数据分析来驱动业务创新。我曾参与过一个医疗项目,帮助一家医院通过数据分析优化了患者的就诊流程,显著减少了候诊时间,同时提升了患者的满意度。这种跨行业的应用不仅提升了我的职业成就感,也让我看到了数据分析师这个职业的无限可能性。
未来,随着人工智能、物联网、区块链等新兴技术的广泛应用,数据分析的触角将延伸至更多领域。这意味着数据分析师不仅可以在传统行业中找到发展机会,还可以在这些前沿领域中开辟新的职业路径。
二、数据分析就业方向
通常来说,数据分析入门之后有两个方向的职业选择:
- 业务方向
初级数据分析师 --> 商业分析师 --> 数据分析经理 --> 运营总监 --> 业务负责人 - 技术方向
初级数据分析师 --> 数据挖掘工程师 --> 数据开发工程师 --> AI工程师 --> 数据科学家
对于初级的数据分析来说,要掌握的知识点都是一样的,当然每一种知识都有入门和专家的区别,短时间内我们能做到熟练运用这个水平就可以了。下面我总结一张数据分析领域的知识结构图:
三、如何自学数据分析
1、Excel
在大数据的时代,为什么还要学习excel的技能呢?
Excel是一款入门级别的办公软件,它的界面友好、易于操作,适合初学者入门。通过学习Excel,你可以掌握数据分析的基本概念和方法,例如数据清洗、数据筛选、数据排序、数据透视表等。这些基本概念和方法对于后续学习更高级的数据分析工具和技能非常重要。其次,Excel具有广泛的应用范围。无论是在金融、销售、财务、人力资源等领域,还是在处理和分析大量数据方面,Excel都是最常用的工具之一。通过学习Excel,你可以更好地理解数据分析在实际工作中的应用,并且能够快速地掌握数据分析的技能。当然还有一下几点原因:
学习数据分析时学习Excel的原因主要包括以下几点:
- 广泛使用和强大的功能:Excel是目前使用最广泛的数据分析工具之一,许多其他数据分析工具的操作逻辑都是仿照Excel设计的。Excel不仅可以进行基本的数据计算,还可以进行复杂的数据分析和建模,尤其适用于财务建模和业务规划等领域1。
- 操作简便和易用性:Excel因其简单易用而受到青睐。虽然有人认为只需掌握复制粘贴和筛选数据即可,但实际上,Excel在数据分析中发挥着重要作用,需要多种函数嵌套使用,并搭配数据透视表和高级图表制作等功能2。
- 高效的数据处理能力:Excel在数据处理方面具有高效性。例如,数据透视表功能可以快速对数据进行多维分析,生成直观的图表展示结果。此外,Excel还支持连接数据库,通过拉拽方式分析数据,大大提高了数据处理效率3。
- 多用途和灵活性:Excel不仅适用于数据分析,还可以进行财务计算、项目管理、市场调研等多种用途。其强大的数据处理和可视化功能使其成为职场中不可或缺的工具4。
- 与其他工具的兼容性:学习Excel可以为后续学习SQL、Python、DAX等函数打下良好基础,有助于加深对概念性的理解2。
学习Excel的具体方法和建议:
- 基础操作:掌握Excel的基本操作,如数据输入、格式设置、公式计算等。
- 函数应用:学习常用的数据分析函数,如SUM、AVERAGE、MAX、MIN等,并了解如何嵌套使用这些函数。
- 数据透视表:掌握数据透视表的使用方法,能够快速对数据进行多维分析和可视化。
- 高级功能:学习Excel的高级功能,如条件格式、数据验证、宏等,以提高工作效率。
- 实践应用:通过实际项目或案例进行练习,将理论知识应用到实际工作中。
通过系统学习和实践,可以全面提升在数据分析领域的技能和效率。
2、数据分析思维
很多人苦恼,学会了很多数据分析工具和技能,依然做不好数据分析。遇到业务问题时,常常觉得无从下手。其实,掌握技能和工具只是第一步,做好数据分析还必须要有数据分析思维。
数据思维具有框架性引导作用,能够帮助确认分析角度、搭配分析方法、选择指标体系以及得出分析结论。但要明白,数据思维不是一两周就能锻炼出来的,要不断练习,下面我给大家推荐7种常用的数据分析思维技巧,帮助大家缩短学习时间。
第一种:对比法
对比法是一种挖掘数据规律的思维,能够和任何技巧结合,一次合格的分析一定要用到N次对比。
对比主要分为以下几种:
**横向对比:**同一层级不同对象比较,如江苏不同市茅台销售情况。
**纵向对比:**同一对象不同层级比较,如江苏南京2021年各月份茅台销售情况。
**目标对比:**常见于目标管理,如完成率等。
**时间对比:**如同比、环比、月销售情况等,很多地方都会用到时间对比。
第二种:象限法
象限法是运用坐标的方式,人工对数据进行划分,从而传递数据价值,将之转变为策略。象限法应用很广泛,像RFM模型、波士顿矩阵都是象限法思维。
下面这个RFM模型就是利用象限法,将用户分为8个不同的层级,从而对不同用户制定不同的营销策略。
第三种:漏斗法
漏斗思维本质上是一种流程思路,在确定好关键节点之后,计算节点之间的转化率。这个思路同样适用于很多地方,像电商的用户购买路径分析、app的注册转化率等等。
著名的海盗模型AARRR模型就是以漏斗模型作为基础的,从获客、激活、留存、变现、自传播五个关键节点,分析不同节点之间的转化率,找到能够提升的环节,采取措施。
第四种:二八法
“世界上80%的财富掌握在20%的富人手里”,这句话你一定听过。这就是二八法则,也叫帕累托法则。这个方法的思维就是抓重点,围绕找到的20%有效数据,找到其特征,使之产生更大的效果。
比如一个商超进行产品分析的时候,就可以对每个商品的利润进行排序,找到前20%的产品,那这些产品就是能够带来较多价值的商品,可以再通过组合销售、降价销售等手段,进一步激发其带来的收益回报。
第五种:指数法
指数思维是一种目标驱动型思维,通过将无法利用的数据加工成指数,达到聚焦的目的,从而找到方向。但指数法没有统一的标准,比较多依靠经验,一旦设立的话不会经常变动。如果数据没有规律的时候,可以试试这个方法。
第六种:假设法
假设法一般用在进入新领域的时候,没有历史数据参考,没有外部线索,这个时候就需要假设。通过假设的数据进行反推,再去制定计划,整个过程是先假设,后验证,再分析结果。
比如在对新产品进行定价的时候,就是根据成本去假设一个售价,由销售情况去验证,再决定是否需要上调或者下调价格,以达到最大利润。
第七种:多维法
多维法主要是通过对数据的切割,分成多个维度,通过立方体的形式进行数据展示。在对数据进行交叉分析的时候,可能会出现辛普森悖论,与之而来的应对方法有钻取、上卷、切片、切块、旋转等。
多维法的使用场景也很广,比如一个app的用户分析,可以从注册数、用户偏好、用户兴趣和用户流失等角度进行分析。
3、Mysql
SQL可以追溯到上世纪70年代由Edgar Codd博士、Donald Chamberlin、Raymond Boyce和其他IBM研究人员构建的早期关系数据库。关系数据库中一个表中的数据可以链接到数据库数千个甚至数百万个条目中的任何一个表中的数据。因此,SQL使得搜索和检索与业务相关的问题的数据并在报告中呈现结果比以往更容易、更快捷。
3.1.、SQL到底是什么?
SQL是一种用于关系数据库的查询语言(传统数据库以表格形式存储数据库)。它使用关系模型的能力来提供数据属性或属性,如货币单位、数字、日期或指定值。这是一个典型的SQL格式,它包含表、列、字段和行:
- 与电子表格类似,数据库表由行和列组成。
- 每列显示该记录中的一个字段,每行表示一条记录。
- 为保证每个字段中的数据符合数据库的标准,可以为表和表中的每一列提供属性。
以下通过一些统计数据来说明SQL的流行程度以及财富500强公司为何对其如此依赖。
- 近58.2%的数据科学家工作需要SQL技能(Indeed.com)。
- 数据科学家更喜欢SQL而不是R和Python,其中65%以上的人使用SQL(StackOverFlow 2020年调查)。
- Microsoft、NTT Data、Accenture、Dell和Cognizant是使用SQL分析数据的顶级公司之一 。
- MySQL被评为2022年第二大最受欢迎的数据库管理系统(Statista) 。
3.2、为什么SQL知识对数据分析师至关重要?
数据科学家列出了SQL的一些主要好处。这种语言:
- 易于理解和使用,取决术语和简单的结构。
- 与Python、R和其他编程语言兼容,使数据科学家能够交换和展示他们的发现,为数据科学家提供工具来检查他们的数据集,从而帮助他们更好地理解它们。
- 容纳数据分析师和科学家必须处理的大量数据。例如,关系数据库远比电子表格强大。
- 对于大多数招聘数据科学家和数据科学专业人士的招聘人员来说,对这门语言的熟练程度要高于其他编程语言。
3.3、最常见的SQL命令有哪些?
为了开发和修改数据库表、定义用户权限和进行其他活动,SQL命令用于与数据库交互。有五种基本的SQL命令:
数据定义语言(DDL)
数据定义语言(DDL)指令用于通过创建、删除或更改表包含的数据来更改表的结构。命令会自动保存在数据库中或“自动提交”。
(1)创建(CREATE)
该命令通过提供表名、列名、大小和属性来创建新表。
(2)更改(ALTER)
该命令主要用于向数据库模式添加新功能或更改现有功能。从表中删除当前列、更改列或减小列的大小都是可能使用的示例。
(3)删除表(DROP)
该命令用于删除表,包括其所有数据。
(4)重命名(RENAME )
该命令为现有表提供新名称。
理想的数据定义语言(DDL)应该:
- 为每个记录类型、数据项类型、数据库、文件类型和其他数据细分赋予唯一的名称。
- 区分几种数据划分,如数据项、段、记录和数据库文件。
- 说明不同的记录类别如何与不同的品牌结构相关联。
- 能够指定数据元素的长度。
数据操作语言(DML)
使用数据操作语言(DML)指令修改数据库。由于数据操作语言(DML)命令不像数据定义语言(DDL)那样自动提交,因此可以撤消这些操作。
(1)插入(INSERT)
通过给出表名和与新信息相关的值,例如年龄、地址和姓名,该命令用于将数据插入到表行中。同样,它可用于使用来自其他来源的数据填充表。
(2)删除(DELETE)
该命令从表中删除一行或多行。例如,简单地指定表名会删除它的所有行;但是,添加条件(例如WHERE Name=“MIKE”)只会消除符合要求的行。
(3)更新(UPDATE)
该命令更改表字段的值,并将其应用于所有行或仅满足条件的行,例如包含特定州代码或邮政编码的行。
数据操作语言(DML)只是暗示:
- 检索、插入、删除和修改数据库中存储的信息。
事务控制语言(TCL)
为了管理数据库,事务控制语言(TCL)命令与数据操作语言(DML) 命令一起使用。但是,事务控制语言(TCL)命令不能用于创建或删除表,因为它们是在数据库中自动提交的。
(1)提交(COMMIT)
该命令保存所有数据库事务,终止当前事务,并将事务期间执行的所有更改标记为不可逆。它还释放表持有的所有事务锁。
(2)回滚(ROLLBACK)
该命令通过终止事务并清除在事务期间所做的所有修改,会擦除所有尚未保存到数据库的事务。它还释放在表上获得的任何事务锁。
(3)保存点(SAVEPOINT)
使用该命令将数据库回滚到先前构建的保存点。以这种方式只能保留交易的某些方面。从上一个提交或回滚命令开始,必须给出保存点。
数据控制语言(DCL)
数据控制语言(DCL)命令控制谁可以访问数据库中的数据。这些说明根据用户访问权限允许或拒绝某些用户的访问。
(1)授予(GRANT)
该命令授予用户访问权限,并指定允许用户执行的任务,例如选择和更改表以及授予其他用户访问权限的能力。
(2)撤销(REVOKE)
此命令删除用户的访问权限。任何有能力向其他人提供访问权限的人都可以使用它,即使授予者不是表的创建者。
数据查询语言(DQL)
数据查询语言(DQL)命令从数据库中获取数据,这符合选择(SELECT)命令语法的要求。
(1)选择(SELECT)
这是唯一可用的DQL命令,适用于所有检索活动。通过定义表名,语法指示在哪里查找给定数据。WHERE语句指定目标数据必须具有哪些品质或特征才能获得,例如“WHERE age >65”。
4、BI
BI是什么
BI工具是商业智能(Business Intelligence)工具的简称,是一种软件应用程序,旨在帮助企业收集、分析、可视化和共享数据,通过将大量的数据转化为易于理解的见解,支持更明智的业务决策。
常见的BI工具示例
- **Tableau**:功能强大、易于使用的数据可视化工具,支持多种数据源和交互式报表。
- **[Power BI](https://www.baidu.com/s?wd=Power BI&rsv_idx=2&tn=baiduhome_pg&usm=2&ie=utf-8&rsv_pq=e1926434000127f6&oq=BI工具是什么&rsv_t=5d8dfwxjTdSiw2W0QI%2FNCD0sN6VTw1ZyaldQVdXjWm3Rd1ef89fJlFcDtUSMaUIq5RUr&sa=re_dqa_generate)**:微软公司推出的BI工具,提供数据可视化、报表制作、仪表盘等功能。
- **QlikView**:基于内存计算的BI工具,支持自由探索和交互式报表。
- **[SAP BusinessObjects](https://www.baidu.com/s?wd=SAP BusinessObjects&rsv_idx=2&tn=baiduhome_pg&usm=2&ie=utf-8&rsv_pq=e1926434000127f6&oq=BI工具是什么&rsv_t=1f88AFbbeSNN%2FcK4JSDyBFoSNC%2BHZDDqF1QJYnwA25bmDL0RDcEmd16JzsdjdAoIY9R5&sa=re_dqa_generate)**:功能全面的企业级BI工具,支持多种数据源和数据挖掘。
- **FineBI**:国内领先的企业级BI工具,提供全面的数据分析、可视化、报表制作等功能。
为什么要学习BI
使用BI工具的原因有很多,包括:数据可视化、提高决策效率、数据整合与分析、提高数据准确性。数据可视化能够将复杂的数据转化为直观的图表和仪表盘,帮助管理层快速理解和分析数据,从而做出更明智的决策。专注于数据报表和数据可视化,能够帮助企业快速构建各类数据分析报表和可视化图表,提升业务分析效率。通过使用这些工具,企业可以轻松整合和分析来自不同数据源的数据,减少人工操作的误差,提高数据的准确性和一致性。
4.1、数据可视化
数据可视化是BI工具的核心功能之一。通过将复杂的数据转化为图表、仪表盘和地图等直观的形式,决策者可以更快地理解数据背后的趋势和模式。FineReport和FineVis在这一方面表现尤为出色。FineReport可以帮助用户设计各种类型的报表,支持多种图表类型,如柱状图、折线图、饼图等。FineVis则专注于高级数据可视化,提供丰富的图表库和互动功能,能够满足用户对数据展示的多样化需求。
数据可视化不仅仅是将数据图形化这么简单,它还包括数据的动态展示和交互操作。例如,FineVis支持拖拽操作,用户可以根据需要自定义图表布局和数据展示方式。此外,FineVis还提供了强大的数据钻取功能,用户可以通过点击图表中的某个元素,进一步查看详细的数据。这种交互操作使得数据分析变得更加灵活和高效,用户能够更深入地挖掘数据背后的信息。
4.2、提高决策效率
提高决策效率是BI工具的另一大优势。通过自动化的数据采集、处理和分析,BI工具能够大幅减少人工操作的时间和精力,从而提高决策效率。FineReport和FineVis都提供了强大的数据处理和分析功能,可以自动从多个数据源采集数据,并进行清洗、转换和整合。例如,FineReport支持多种数据源的集成,包括数据库、Excel文件、Web API等,能够帮助用户快速构建数据模型,实现数据的自动化处理和分析。
此外,BI工具还提供了强大的数据预警和通知功能。用户可以设置各类数据预警条件,一旦某个指标超出预设范围,系统会自动发送通知,提醒相关人员及时采取行动。这种实时预警机制能够有效防范潜在风险,确保企业在第一时间做出响应,提高决策的及时性和准确性。
4.3、数据整合与分析
数据整合与分析是BI工具的核心功能之一。随着企业数据量的不断增长,数据的来源也变得越来越多样化,如何整合和分析这些数据成为企业面临的巨大挑战。BIB在BI工具对数据整合与分析方面提供了强大的功能,能够帮助企业轻松应对这一挑战。并且支持多种数据源的集成,包括关系型数据库、NoSQL数据库、Excel文件、Web API等,用户可以轻松将分散的数据整合到一个平台上进行统一管理和分析。FineVis则提供了强大的数据分析和可视化功能,支持多种数据分析方法,如趋势分析、对比分析、关联分析等,能够帮助用户深入挖掘数据背后的信息。
此外,BI工具还提供了灵活的数据建模功能,用户可以根据业务需求自定义数据模型,实现数据的多维度分析。支持拖拽式数据建模,用户无需编写复杂的代码,只需通过简单的拖拽操作即可完成数据模型的构建。这种直观的操作方式大大降低了数据分析的门槛,使得更多的业务人员能够参与到数据分析中来,提高数据分析的效率和准确性。
5、Python
数据分析之所以要学习Python,主要是因为Python具有丰富的数据处理库、易学易用、社区支持强大、跨平台与可扩展性、高效的数据处理能力。其中,Python丰富的数据处理库能够大幅提升数据分析的效率。Python生态中包含了许多强大的库,如Pandas、NumPy、Scipy、Matplotlib和Scikit-learn等,它们为数据分析提供了强有力的工具,从数据清洗到复杂的数据挖掘和机器学习算法,Python库都能够应对。而易于上手的语法则降低了编程的门槛,使得非编程背景的数据分析师也能快速上手,进行复杂的数据分析工作。
- PYTHON语言的易学性
Python设计初衷之一就是提供一种易于理解和使用的编程语言。Python语言的简洁性和可读性使得学习者能够快速掌握基础语法,对于编程入门者而言,Python语法接近于自然语言,大幅减少了学习时间。此外,它的解释性质意味着代码可以逐行执行,这对于新手理解每一行代码的作用以及调试非常有帮助。
PYTHON的数据处理库
Pyhton的优势之一在于它庞大的生态系统,特别是数据处理和分析领域。Pandas是处理结构化数据的首选库,提供了丰富的数据结构和功能,如DataFrame和Series,让数据操作更加顺畅和直接。NumPy和Scipy库提供了高效的数值计算功能,能够执行复杂的科学计算。Matplotlib则是进行数据可视化的重要工具,通过图表和图形直观呈现数据。此外,Scikit-learn提供了大量的机器学习算法实现,能够支持更复杂的数据分析需求。这些库的存在大大减少了重复造轮子的工作量,让数据分析师可以更专注于数据的探索和解读。
- 社区支持和资源丰富
Python的另一大优势是其庞大的开发者社区。社区的活跃意味着问题可以迅速得到解答、不断有新的资源和库被开发出来。从在线的教程和文档到开源项目,从入门到高级,Python社区提供了大量学习资源和开发工具。这让从事大数据分析的学员和专业人士在遇到难题时不必担忧,总能找到解决方案或是获得别人的经验分享。
- 跨平台和可扩展性
Python同时具备跨平台性能,无论是Windows、Linux还是Mac OS,Python都能够无障碍运行。这为大数据分析师提供了极高的灵活性,使其可以在不同的环境中工作而无需担心兼容性问题。更重要的是,Python具有良好的可扩展性,可以轻松与其他语言相结合,如C/C++或Java,这意味着在性能要求极高的情况下,可以通过这些语言来优化或扩展Python程序。
高效的数据处理能力
高效的数据处理是大数据分析必需的,Python在这方面表现出色。它不仅仅在于Python自身,更在于它背后的技术,比如JIT编译器(如PyPy)和优化的算法实现。对数据的操作和计算非常迅速,节省了大量的时间,对于处理大规模数据集尤为重要。此外,Python的多线程和多进程支持,还有其它如异步I/O的功能,都为处理复杂且数据量巨大的问题,提供了非常好的解决方案。
通过学习和使用Python进行大数据分析,可以提高分析的效率和准确性,这对于企业的决策制定和业务增长至关重要。随着大数据时代的到来,掌握Python无疑将成为数据从业者的一项宝贵技能。
如何快速学习Python呢?
- 基础语法学习
学习Python的第一步是掌握其基本语法。以下是Python的几个关键概念:
数据类型、变量、运算符、控制流语句、函数等。
掌握这些基础知识将为后续的数据分析打下坚实的基础。例如,您可以使用简单的控制流语句来处理数据集中的条件,筛选出符合特定条件的记录。
- 常用工具包的学习
在Python数据分析中,几个常用的工具包将成为您的得力助手:
- Numpy:这个库是进行数值计算的基础,提供了多维数组对象和用于数组的操作功能。
- Pandas:用于数据处理和分析,可以方便地处理表格数据,执行各种数据操作。
- Matplotlib:用于数据可视化,能够生成静态和动态图表,帮助您直观地展示数据。
通过实战项目,您将能够熟练掌握这些工具包的操作。例如,使用Pandas读取CSV文件并进行简单的数据清洗,或用Matplotlib绘制数据的分布图。
- 数据分析与可视化
掌握数据分析的基本方法至关重要,包括统计分析、机器学习等。要进行有效的数据可视化,可以使用以下库:
- Matplotlib:基础的可视化库,适合各类图表的绘制。
- Seaborn:基于Matplotlib,专注于统计图形,提供美观的默认样式。
通过对数据进行统计分析,您可以挖掘出潜在的趋势和模式。例如,使用Seaborn绘制每月销售额的变化趋势,可以直观地展示销售增长的时间周期。
- 实战项目演习
通过实际项目来巩固所学知识是一个非常有效的学习方法。以下是几个推荐的实战项目:
项目名称 描述 销售数据分析 分析某电商平台的销售数据,探索销售趋势。 社交媒体数据分析 从社交媒体平台抓取数据,分析用户行为。 股票市场数据分析 分析历史股票数据,预测未来走势。
您可以从数据导入、数据清洗、数据探索到数据可视化,全面实践数据分析的各个环节。这些项目不仅能提升您的技术水平,还能丰富您的作品集,为获得数据分析相关职位提供有力支持。
Seaborn:基于Matplotlib,专注于统计图形,提供美观的默认样式。
通过对数据进行统计分析,您可以挖掘出潜在的趋势和模式。例如,使用Seaborn绘制每月销售额的变化趋势,可以直观地展示销售增长的时间周期。
- 实战项目演习
通过实际项目来巩固所学知识是一个非常有效的学习方法。以下是几个推荐的实战项目:
项目名称 描述 销售数据分析 分析某电商平台的销售数据,探索销售趋势。 社交媒体数据分析 从社交媒体平台抓取数据,分析用户行为。 股票市场数据分析 分析历史股票数据,预测未来走势。
您可以从数据导入、数据清洗、数据探索到数据可视化,全面实践数据分析的各个环节。这些项目不仅能提升您的技术水平,还能丰富您的作品集,为获得数据分析相关职位提供有力支持。
点击下面的公众号 虾米数据,然后关注弹出的图,回复:csdn1 |