
大数据算法
文章平均质量分 79
_卡卡龙
这个作者很懒,什么都没留下…
展开
-
大数据算法 chap-3 亚线性算法例析
亚线性算法例析3.1 数据流中频繁元素(空间亚线性)Misra Gries(MG)算法 3.1 数据流中频繁元素(空间亚线性) 大数据的数据流模型 数据只能顺序扫描1次或几次 能够使用的内存是有限的 希望通过维护一个内存结果(数据概要)来给出相关性质的一个有效估计 维护中间结果 数据流模型适用于大数据 顺序扫描数据仅一次(时间保障) 内存亚线性(空间保障) 来自某个域中的元素序列 <x1, x2, x3, x4, … > 有限的内存: 内存<< 数据的规模 通常 O(logkn)原创 2021-05-16 16:25:53 · 2888 阅读 · 0 评论 -
大数据算法 chap-2 亚线性算法
亚线性算法2.1 亚线性算法的定义2.2 水库抽样—空间亚线性算法 2.1 亚线性算法的定义 亚线性:比线性消耗更低的算法 时间/空间/IO/通讯/能量等消耗是o(输入规模) 亚线性时间算法 亚线性时间近似算法(最优解) 性质检测算法 亚线性空间算法 数据流算法(在受限空间内得到计算结果) 2.2 水库抽样—空间亚线性算法 输入:一组数据,其大小未知 输出:这组数据的k个均匀抽样 要求: 仅扫描数据一次 空间复杂性为O(k) 扫描到数据的前n个数字时(n>k),保存当前已扫描数据的k个均匀抽样原创 2021-05-14 23:37:13 · 569 阅读 · 0 评论 -
大数据算法 chap-1 概述
概述1.1 大数据的定义与特点1.2 大数据算法1.3 大数据算法设计与分析 1.1 大数据的定义与特点 大数据的应用 预测,推荐,商业情报分析,科学研究 1.2 大数据算法 问题是否是计算机可解问题 大数据算法的定义 在给定的资源约束下,以大数据为输入,在给定时间约束内可以生成满足给定约束结果的算法 大数据算法可以不是: 精确算法(保障时间) 内存算法(使用外存) 串行算法(多台机器同时执行) 仅在电子计算机上运行的算法(可以有人参与,众包算法) 访问全部数据时间过长 读取部分数据(时间亚线性算法)原创 2021-05-13 13:16:08 · 269 阅读 · 0 评论