数据处理与函数式编程的探索
1. 大数据的来源与应用
大数据的来源广泛,甚至电子邮件也能成为其数据源。例如,Google 利用用户的电子邮件为新邮件创建潜在回复列表。用户无需逐一回复每封邮件,只需在页面底部选择预设回复即可。这种自动化功能离不开原始的电子邮件数据源。
我们不能只在特定位置寻找大数据,而忽略了常见地方隐藏的大数据。未来的应用将依赖这些替代数据源,因此我们要学会发现那些隐藏在显而易见之处的数据。实际上,一些利用大数据的应用已经存在,只是我们可能并未察觉。
2. 数据的形式
数据的形式会影响我们与之交互的方式、能获取的信息水平、数据复杂性相关问题、处理和整理数据所需的时间以及可能出现的偏差。常见的数据形式主要分为纯文本、格式化文本和二进制三类。
2.1 纯文本
纯文本由所使用字符集中的字母数字字符(如 ASCII 或 UTF - 8)以及特定控制字符(如制表符、换行符和回车符)组成。其目的是使数据能被更多设备和操作系统普遍接受。
标准 ASCII 是较为通用的字符集,但并非所有系统都使用它,一些旧系统使用 EBCDIC 编码,这两种编码是不兼容的。即使现代计算机大多能使用扩展 ASCII 和 UTF - 8,但如果分析的数据具有历史背景,就可能遇到编码问题。
纯文本不一定有特定格式,常见的数据组织方式有:
- 自由格式 :使用控制字符分隔字段,另一组控制字符分隔行。
- 基于文本的自由格式 :与自由格式类似,但依靠特殊文本组合而非控制字符来分隔字段和行,常用于特定应用或
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



