python数据科学导论--读书笔记01

本文介绍了大数据的特点及其处理挑战,概述了数据科学的主要流程,包括从设定研究目标到服务开发的各个环节,并列举了大数据技术的组成部分。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、大数据是数据集的总称,传统管理技术很难处理大型或复杂数据。大数据具有四大特点:高速,多样化,体积大和准确。

2、数据科学是使用方法来分析由小数据集组成的庞大的大数据;

3、尽管数据科学流程不是线性的,但可分为以下步骤:

  a、设置研究目标;

  b、检索数据;

  c、数据准备;

  d、数据探索;

  e、数据建模;

  f、展示与自动化

4、大数据技术不仅仅是Hadoop。它有许多不同技术组成,可以分为以下几类:

  a、文件系统;

  b、分布式编程框架;

  c、数据集成;

  d、数据库;

  e、机器学习;

  f、安全;

  g、工作流;

  h、基准测试;

  i、系统部署;

  j、服务开发

5、并不是每个大数据类别都需要数据科学家利用大量的数据。他们主要关注文件系统、分布式编程框架、数据库和机器学习。他们确实接触到其他部分,但这些都是其他职业领域。

6、数据可以有不同的形式。主要有:

  a、结构和数据;

  b、非结构化数据;

  c、自然语言数据;

  d、计算机数据;

  e、图类数据;

  f、流数据’

转载于:https://www.cnblogs.com/mingshengling/p/7866494.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值