35、数据科学的五大领域与实践入门

数据科学入门与五大领域解析

数据科学的五大领域与实践入门

1. 数据科学的关键特性

1.1 数据多样性(Variety)

数据具有多种类型,例如照片和图像与温度、湿度或位置信息就属于不同的数据类型。温度这类数据的信息较为集中,而图像的数据信息则更为分散。照片是复杂的数据结构,难以解读,机器更难以对其进行正确分类。比如,计算机能够区分猫和狗,但如果图片中出现了“尤达宝宝”,由于缺乏相关背景信息,计算机就无法识别。

语音数据也存在类似问题。亚马逊的Alexa在将语音转换为文本方面表现出色,但在赋予文本含义方面还有所欠缺。这一方面是因为缺乏上下文信息(如社交线索、语气和肢体语言等环境因素),另一方面是人们提问和发表评论的方式多种多样。Alexa会跟踪所有查询,并进行数据分析,以了解人们的需求类型和提问方式,这既可能用于不良目的,也可能是为了构建更好服务消费者的系统。将语音转换为文本后,数据科学更有可能识别出其中的模式,因为文本比音频更易于搜索和分析,但在转换过程中,语音的语气、强调等大量信息会丢失。

1.2 数据速度(Velocity)

数据速度指的是数据变化的速度以及添加到数据堆中的速度。例如,Facebook用户每天上传约10亿张图片,未来几年内Facebook将拥有超过1万亿张图像,这是一个高速数据集。而过去五年你家中的温度和湿度读数则是低速数据集(变化缓慢)。显然,高速数据集和低速数据集需要不同的处理技术。

1.3 数据量、多样性和速度的管理

数据量、多样性和速度的管理是一个复杂的话题。数据科学家已经开发了许多处理数据的方法,这三个“V”描述了数据集的特征,让我们对数据参数有一个基本的了解。从数据中获取洞察的过程称

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值