10、数据处理与函数式编程的探索

数据处理与函数式编程的探索

1. 大数据的来源与应用

大数据的来源广泛,甚至电子邮件也能成为其数据源。例如,Google 利用用户的电子邮件为新邮件创建潜在回复列表。用户无需逐一回复每封邮件,只需在页面底部选择预设回复即可。这种自动化功能离不开原始的电子邮件数据源。

我们不能只在特定位置寻找大数据,而忽略了常见地方隐藏的大数据。未来的应用将依赖这些替代数据源,因此我们要学会发现那些隐藏在显而易见之处的数据。实际上,一些利用大数据的应用已经存在,只是我们可能并未察觉。

2. 数据的形式

数据的形式会影响我们与之交互的方式、能获取的信息水平、数据复杂性相关问题、处理和整理数据所需的时间以及可能出现的偏差。常见的数据形式主要分为纯文本、格式化文本和二进制三类。

2.1 纯文本

纯文本由所使用字符集中的字母数字字符(如 ASCII 或 UTF - 8)以及特定控制字符(如制表符、换行符和回车符)组成。其目的是使数据能被更多设备和操作系统普遍接受。

标准 ASCII 是较为通用的字符集,但并非所有系统都使用它,一些旧系统使用 EBCDIC 编码,这两种编码是不兼容的。即使现代计算机大多能使用扩展 ASCII 和 UTF - 8,但如果分析的数据具有历史背景,就可能遇到编码问题。

纯文本不一定有特定格式,常见的数据组织方式有:
- 自由格式 :使用控制字符分隔字段,另一组控制字符分隔行。
- 基于文本的自由格式 :与自由格式类似,但依靠特殊文本组合而非控制字符来分隔字段和行,常用于特定应用或

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值