大数据算法的难度 访问全部数据时间过长 读取部分数据 时间亚线性算法 数据难以放入内存计算 将数据存储到磁盘上 外存算法 仅基于少量数据进行计算 空间亚线性算法 单个计算机难以保存全部数据,计算需要整体数据 并行处理 并行算法 计算机计算能力不足或者知识不足 人来做(众包) 我们学习的hadoop、spark不过是解决了其中一个难题。我们整个笔记也是围绕上面几个问题来介绍相应的算法 大数据的算法设计技术 精确算法设计方法并行算法近似算法随机算法在线算法、数据流算法外存算法面向新型体系结构的算法(GPU)现代优化算法 大数据的算法分析 时间空间复杂度io复杂度结果质量通讯复杂度