1、大数据的三个特征是什么,处理大数据时的主要考虑因素有哪些?
- 数据量巨大 :大数据可能有数十亿行和数百万列,而非数千或数百万行。
- 数据类型和结构复杂 :反映了新数据源、格式和结构的多样性,包括网络和其他数字存储库上留下的数字痕迹。
- 新数据创建和增长速度快 :可描述高速数据,具有快速的数据摄取和近乎实时的分析。
处理大数据时,由于其规模或结构,不能仅使用传统数据库或方法进行有效分析,需要新的工具和技术来存储、管理数据并实现商业利益。
2、什么是分析沙箱,为什么它很重要?
分析沙箱
分析沙箱是从多个来源和技术收集数据资产用于分析的工作空间,与组织内传统的由 IT 管理的数据仓库分开。它具备以下特点和优势:
- 独立环境 :在非生产环境中实现灵活、高性能的分析。
- 数据管理优化 :可利用数据库内处理,降低数据复制到“影子”文件系统的成本和风险。
- 所有权模式转变 :由“分析师拥有”而非“数据库管理员拥有”。
重要性
分析沙箱的重要性体现在以下几个方面:
-
解决协作冲突
解决了分析师和数据科学家在企业数据仓库(EDW)和更正式管理的企业数据方面与IT部门之间的冲突,使IT团队能在集中管理和保护数据的同时支持强大的分析需求。 -
促进数据探索
允许团队以可控的方式探索多种数据集,提升创新能力和洞察发现效率。 -
提升性能与效率
利用数据库内处理实现高性能计算,显著加快新分析模型的开发与执行周转时间。 -
降低成本与风险
减少本地“影子”文件系统中数据存储的需求,从而降低相关成本和安全合规风险。 -
支持多样化数据类型
能够容纳更多种类的数据,包括原始数据、文本数据和其他非结构化数据,且不会干扰关键生产数据库的运行。 -
推动高级分析转型
使组织能够开展更宏大的数据科学项目,从传统数据分析和商业智能逐步转向更强大、先进的预测分析。
3、解释商业智能(BI)和数据科学(Data Science)之间的区别。
-
分析时间范围与方法 :
- BI :主要针对当前或过去时期的业务问题提供报告、仪表盘和查询,通过聚合历史数据解释当前或过去行为,回答“何时”和“何地”事件发生的问题。
- 数据科学 :以更具前瞻性、探索性的方式使用非聚合数据,分析当前并为未来决策提供依据,使用如时间序列分析等技术预测未来,更关注“如何”和“为何”事件发生。 -
数据要求 :
- BI :问题通常需要高度结构化的行列数据以进行准确报告。
- 数据科学 :项目会使用多种类型的数据源,包括大型或非常规数据集。 -
项目选择 :
- 若组织进行报告、创建仪表盘或简单可视化,可选择 BI项目 。
- 若需要对非聚合或多样数据集进行更复杂的分析,则选择 数据科学项目 。
4、描述当前分析架构给数据科学家带来的挑战。
当前分析架构给数据科学家带来的挑战包括:
-
高价值数据难以获取和利用
预测分析和数据挖掘活动在数据获取方面优先级低,因为企业数据仓库(EDW)主要用于中央数据管理和报告,分析数据需求通常排在运营流程之后。 -
数据从EDW批量移动到本地分析工具
数据科学家只能进行内存分析,限制了数据集大小,分析可能受采样约束,影响模型准确性。 -
数据科学项目孤立且临时
无法集中管理,组织难以大规模利用高级分析的力量,项目常与企业业务目标和战略不一致。
这些问题导致洞察时间长,业务影响低于数据更易获取且有高级分析支持环境的情况。
5、数据科学家的关键技能和行为特征有哪些?
- 定量技能 :如数学或统计学;
- 技术能力 :即软件工程、机器学习和编程技能;
- 怀疑的思维方式和批判性思维 :能够批判性

最低0.47元/天 解锁文章
956

被折叠的 条评论
为什么被折叠?



