数据处理与算法相关知识详解
1. 数据流算法特性
数据流算法的显著特点是简单性和低计算复杂度。由于数据流速度极快,若算法计算量过大,就可能错过关键数据,而这些数据一旦丢失便无法找回。
哈希函数在这方面的作用十分突出,它能迅速将输入转化为更易处理和搜索的形式。此外,草图和采样技术也至关重要,它们借助有损压缩的理念,用更简单的形式表示复杂内容,虽会损失部分细节,但能节省大量的计算机时间和存储空间。
采样是从数据流中选取有限数量的示例,将其视为整个数据流的代表。在统计学领域,通过这种方式可以利用小部分数据对更大范围的数据(总体)进行推断。
例如,在随机从一副扑克牌中抽取一张牌时,若要确定抽到某一花色的概率,以法国扑克牌(包含52张牌,均匀分布在四个花色中)为例,抽到特定花色的概率为0.25 。若要确定抽到一张A的概率,因为牌堆中有4张A,总共52张牌,所以抽到A的概率为4/52 = 0.077 。
2. 数据收集新趋势
数据价值极高,但用户有时不愿分享,因此数据供应商不断探寻新的数据收集方法。其中一种备受争议的方法是“间谍行为”。像微软就多次被指控在用户不愿分享数据的情况下,对Windows 10用户进行数据收集。此外,Cortana、Alexa以及Google等也存在类似的数据收集行为。
除了这种有争议的方式,还有其他常见的数据收集方法:
- 封闭式调查 :问题有特定答案,用户只需勾选。优点是反馈一致性高,但缺点是无法获取预设答案之外的信息。
- 开放式调查 :问题依靠文本框让用户手动输入数据。在某些情况下
超级会员免费看
订阅专栏 解锁全文
15万+

被折叠的 条评论
为什么被折叠?



