大数据特征与分析方法解析

1、大数据的三个特征是什么,处理大数据时的主要考虑因素有哪些?

  • 数据量巨大 :大数据可能有数十亿行和数百万列,而非数千或数百万行。
  • 数据类型和结构复杂 :反映了新数据源、格式和结构的多样性,包括网络和其他数字存储库上留下的数字痕迹。
  • 新数据创建和增长速度快 :可描述高速数据,具有快速的数据摄取和近乎实时的分析。

处理大数据时,由于其规模或结构,不能仅使用传统数据库或方法进行有效分析,需要新的工具和技术来存储、管理数据并实现商业利益。

2、什么是分析沙箱,为什么它很重要?

分析沙箱

分析沙箱是从多个来源和技术收集数据资产用于分析的工作空间,与组织内传统的由 IT 管理的数据仓库分开。它具备以下特点和优势:

  • 独立环境 :在非生产环境中实现灵活、高性能的分析。
  • 数据管理优化 :可利用数据库内处理,降低数据复制到“影子”文件系统的成本和风险。
  • 所有权模式转变 :由“分析师拥有”而非“数据库管理员拥有”。

重要性

分析沙箱的重要性体现在以下几个方面:

  1. 解决协作冲突
    解决了分析师和数据科学家在企业数据仓库(EDW)和更正式管理的企业数据方面与IT部门之间的冲突,使IT团队能在集中管理和保护数据的同时支持强大的分析需求。

  2. 促进数据探索
    允许团队以可控的方式探索多种数据集,提升创新能力和洞察发现效率。

  3. 提升性能与效率
    利用数据库内处理实现高性能计算,显著加快新分析模型的开发与执行周转时间。

  4. 降低成本与风险
    减少本地“影子”文件系统中数据存储的需求,从而降低相关成本和安全合规风险。

  5. 支持多样化数据类型
    能够容纳更多种类的数据,包括原始数据、文本数据和其他非结构化数据,且不会干扰关键生产数据库的运行。

  6. 推动高级分析转型
    使组织能够开展更宏大的数据科学项目,从传统数据分析和商业智能逐步转向更强大、先进的预测分析。

3、解释商业智能(BI)和数据科学(Data Science)之间的区别。

  1. 分析时间范围与方法
    - BI :主要针对当前或过去时期的业务问题提供报告、仪表盘和查询,通过聚合历史数据解释当前或过去行为,回答“何时”和“何地”事件发生的问题。
    - 数据科学 :以更具前瞻性、探索性的方式使用非聚合数据,分析当前并为未来决策提供依据,使用如时间序列分析等技术预测未来,更关注“如何”和“为何”事件发生。

  2. 数据要求
    - BI :问题通常需要高度结构化的行列数据以进行准确报告。
    - 数据科学 :项目会使用多种类型的数据源,包括大型或非常规数据集。

  3. 项目选择
    - 若组织进行报告、创建仪表盘或简单可视化,可选择 BI项目
    - 若需要对非聚合或多样数据集进行更复杂的分析,则选择 数据科学项目

4、描述当前分析架构给数据科学家带来的挑战。

当前分析架构给数据科学家带来的挑战包括:

  1. 高价值数据难以获取和利用
    预测分析和数据挖掘活动在数据获取方面优先级低,因为企业数据仓库(EDW)主要用于中央数据管理和报告,分析数据需求通常排在运营流程之后。

  2. 数据从EDW批量移动到本地分析工具
    数据科学家只能进行内存分析,限制了数据集大小,分析可能受采样约束,影响模型准确性。

  3. 数据科学项目孤立且临时
    无法集中管理,组织难以大规模利用高级分析的力量,项目常与企业业务目标和战略不一致。

这些问题导致洞察时间长,业务影响低于数据更易获取且有高级分析支持环境的情况。

5、数据科学家的关键技能和行为特征有哪些?

  • 定量技能 :如数学或统计学;
  • 技术能力 :即软件工程、机器学习和编程技能;
  • 怀疑的思维方式和批判性思维 :能够批判性
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值