数据分析是利用数据来理性思考和决策的过程。
数据分析:是以数据为分析对象,以探索数据内的有用信息为主要途径,以解决业务需要为重要目标。
数据挖掘:是一个跨学科的计算机科学分支,它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现的模式的经计算过程。
数据化工作:EDIT数字化的模式
Exploration: 探索(业务运行探索):指标体系。运行状态、具体数据。
Diagnosis: 诊断(问题根原因诊断):性质分析法,数量分析法。
定性和定量相结合,在中微观层面定位和分析问题。
Instruction: 指导(业务策略指导):知识库、策略库、流程模块。优化策略。
Tool: 工具(智能算法工具):数据模型、算法模型、优化模型。
职业道德与行为准则
道德操守:将数据产权、用户利益和机构利益置于个人利益之上,保护数据资产的安全性,遵循数据的真实性、可靠性,禁止技术欺诈、数据造假、非法交易,损害用户和机构利益。
保护和加强自身职业道德操守以及同行的操守。
不参与任何违法行为,包括但不限于:偷窃、欺骗、腐败、挪用或贿赂;
不使用或滥用他人的产权,包括数据资产、知识产权;
不参与诽谤和侮辱;
不宽恕或帮助他人参与违法行为。
行为准则:专业、审慎、高效地完成各项数据分析的业务流程:
全面了解业务背景、痛点、需求,做出分析建议,与团队充分沟通,确定合理业务指标,获取符合要求的源数据。
保持工具与算法的前沿性、适用性、高效性。根据业务需要,选择合理的工具、平台、系统及算法。
不断迭代并优化业务指标与数据模型。
撰写专业可视化报告,逻辑清晰展示项目成果,并做出具有商业价值的建议。
尊重契约,按时按质完整交付工作成果,并对相关数据、代码、结果进行保密。
履行后期义务与责任。完整交付结果后,对客户须进行后期解答、咨询、维护等服务;对机构业务须进行后期跟进、优化、指导建议等工作。
大数据立法、安全、隐私
掌握数据安全法的立场与原则,然后去分析相关实际问题。
合法、正当、必要原则;目的明确原则、知情同意原则;删除权和更正权;
2020年6月28日-30日,《中华人民共和国数据安全法》迎来初次审议。
答题原则:问题存在,逐步推进解决。
数据结构
数据类别:结构化数据、非结构化数据
表格结构数据:Excel、Wps、Numbers
表格数据层级:一个父级包含多个不同子级对象
一个子级对象只能属于某一个特定父级对象
表格结构数据的数据类型:数值型、文本型、逻辑型
单元格格式属性:
数字格式:决定显示形式
显示格式:决定显示效果
表格结构数据获取方法:
从业务后台数据库系统获取(电子表格工具支持的数据文件:文本文件、电子表格工具文件);
后台数据库系统获取数据流程;
前台操作平台获取数据;(ERP、CRM => 电子表格工具支持的数据文件)
从企业外部渠道获取数据;(CSV文本文件(分隔符“,”),TXT文本文件(分隔符为制表符),
XLSX(excel文件),ET(WPS表格文件))
表格结构数据使用方法:
单元格值的引用方法、单元格区域值的引用方法、表格结构数据查询方法、函数(等号、表达式、参数、返回值)、用查询函数进行查找(VLOOKUP)
表格结构数据的计算方法:直接计算、函数计算、
表结构数据:数据库、ETL工具、可视化工具
事实表、维度表
表结构数据特征:
1.以字段或记录作为数据的引用、操作及计算的基本单位的数据(第一行为标题行、第二行以后称为记录、字段名不能重名、一个字段只能有一种数据类型);
2.所有字段记录行数相同(方形结构、记录行数相同、存在空值、处理缺失值)
处理缺失值1:根据数据类型以及生成信息重要程度的不同,使用不同方法处理缺失值;
(文本型字段:影响不大:不处理或替换;影响大:替换或者删除;
数值型字段:综合考虑该数值型字段所代表的度量意义以及针对该数量型字段进行汇总计算的方式来最终决定对缺失值的具体处理方法)检查“null”
3.一个表有且只有一个主键
物理意义:
单字段主键:由一个字段构成的主键;
多字段主键:又多个字段构成的主键;非空不重复;定位记录行、字段名+主键值定位具体数值;多以“xxID”、“xxNO”、“xx编号”等名称命名
业务意义:表的业务记录单位。在一个数据表中的所有非主键字段都要围绕主键展开
确认主键的方法:如果直接对数据库中的数据进行操作,可以通过SQL语言确认数据表的主要字段。
如果间接在其他数据平台使用表结构数据(数据源是数据库中的数据表,使用时将数据源数据导入到其他平台使用,可以找原数据库中数据表的设计者咨询主键信息,或者直接查看数据表设计者留下的设计资料来对主键字段进行确认。
通过对数据表的业务意义进行分析,推测主键字段后再用物理手段确认推测的主键字段中的记录值是否能够满足“非空”、“不重复”的要求来对主键字段进行确认。
表结构数据获取方法:
应用:数据源-----到-----电子表格工具上使用表格结构数据
引用:表结构数据分析工具上使用表结构数据------到-----数据源数据
关系性数据库管理系统:主要任务是企业业务数据的存储、检索、访问与共享
多层级结构、OLTP、可量化、结构化数据、提供大部分数据源、不善于分析
商业智能系统-BI:用于为企业决策者快速提供完整、准确、深入的数据分析结果,帮助企业决策者实现商业洞察
强于分析、多功能模块构成、两种主要类型、多维数据集、所见即所得
ETL功能:将数据从数据源端经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库;
E--抽取:创建与不同数据源间的连接关系,对这些数据源中的数据进行“引用”
T--清洗转换:清洗的主要任务是筛选过滤不完整、错误及重复的数据记录;
对“粒度”不一致的数据进行转换;
对业务规则不一致的数据进行转换
L--加载:将抽取出来的数据经过清洗与转换后加载到数据仓库中进行存储与使用
数据仓库--DW:用来存储分析所需要的不同数据源上的所有相关数据信息;
OLAP:链接信息孤岛、创建多维数据模型(DW中的数据信息---OLAP技术---渠道维度、订单维度、市场维度、多维数据模型)
表结构数据的横向合并:将不同表中的字段信息合并到同一个表中使用。
【通过公共字段匹配、左表与右表、连接方向(左连接、右连接、内连接)、对应关系(决定连接结果行数是对应项乘积的结果)、E-R图(多表连接的鸟瞰图)】
表结构数据的纵向合并:多表中记录信息合并到同一个表中进行使用的合并方式称为纵向合并。
要求:字段个数相同、相同位置字段的数据类型相同;去重合并与全合并
表结构数据的汇总:
数据透视:对零散数据进行汇总分析(维度、量度、汇总计算规则)
汇总数据规则:合计、计数(count非空计数、distinctcount去重计数)、
平均(average函数)、最大值、最小值
数据分析的业务意义:是连接零散数据与人类认知间的桥梁
数据库
概述:关系型数据库(RDBMS)与结构化查询语言(SQL)
关系型数据库以行和列的形式存储数据,这一系列的行和列被称为表,一组表组成了数据库。
(Oracle、DB2、MicrosoftSQL Server、MySQL等)
操作关系型数据库使用的语言叫结构化查询语言(Structure Query Language),简称SQL
MySQL是最流行的关系型数据库管理系统之一。
数据库是表的集合,带有相关的数据;一个表是多个字段的集合;一个字段是一列数据,由字段名字和记录组成。
数据定义语言DDL:是用来对数据库管理系统中的对象进行“增删改查”操作的SQL语句。
定义数据库:操作关系型数据库
创建数据库:create database 数据库名称;
查看创建好的数据库:show create database 数据库名称;
查看所有数据库列表:show databases;
使用数据库:use 数据库名称;
删除数据库:drop database 数据库名称
创建、查看、删除数据表:create table ;show table;drop table ;
数据类型:日期型、文本型、小数型
位与字节:位bit;8个二进位构成1个字节byte
表中的数据类型:
数值型:INT、TINYINT、SMALLINT、MEDIUMINT、BIGINT、FLOAT、DOUBLE、DECIMAL
日期型:DATE:YYYY-MM-DD;DATETIME:YYYY-MM-DD
字符串类型:CHAR、VARCHAR、BLOB或TEXT、
约束条件:主键约束PRIMARY KEY; 非空约束NOT NULL; 唯一约束UNIQUE;
自增字段AUTO-INCREMENT; 默认值DEFAULT
表结构
字段:整列数
记录:整行数
维度:业务角度
度量:业务行为结果
维度字段:文本型
度量字段:数值型
维度表:只包含维度信息的表(产品表、品牌表、客户表)
事实表:既包含维度信息又包含度量信息的表(销售表、采购表、库存表)(进销存表)