
机器学习
文章平均质量分 68
徐周
这个作者很懒,什么都没留下…
展开
-
《Spark快速大数据分析》总结--(1)
序:1、Spark对Hadoop MapReduce的改进如下:(1)Spark速度更快 (2)Spark丰富的API带来了更强大的易用性 (3)Spark不仅支持传统的批处理,还支持交互式查询、流失计算、机器学习、图计算等。2、Spark三个优点(1)Spark好用 (2)Spark很快,支持交互式使用和复杂算法 (3)Spark是通用引擎,可以完成各种计算...原创 2018-10-17 21:06:49 · 713 阅读 · 0 评论 -
《Spark快速大数据分析》总结--(2)
第一章 Spark数据分析导论1、Spark核心Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。2、Spark组件依次介绍各组件:(1)Spark CoreSpark Core实现了Spark的基本功能,包括任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core还包括了对弹性分...原创 2018-10-17 21:54:56 · 739 阅读 · 0 评论 -
逻辑回归损失函数推导
转载 2018-10-17 08:17:22 · 1183 阅读 · 1 评论 -
《Spark快速大数据分析》总结--(3)
第3章 RDD编程3.1 RDD基础1、Spark中的RDD是一个不可变的分布式对象集合。2、两种方式创建RDD:读取一个外部数据集、在驱动器程序里分发驱动器程序中的对象集合。3、RDD支持两种类型的操作(1)转化操作:由一个RDD生成一个新的RDD。(2)行动操作:对RDD计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部存储系统中。Tips:区别两个操作...原创 2018-10-19 19:18:49 · 138 阅读 · 0 评论 -
时间序列聚类算法-《k-Shape: Efficient and Accurate Clustering of Time Series》解读
摘要本文提出了一个新颖的时间序列聚类算法k-shape,该算法的核心是迭代增强过程,可以生成同质且较好分离的聚类。该算法采用标准的互相关距离衡量方法,基于此距离衡量方法的特性,提出了一个计算簇心的方法,在每一次迭代中都用它来更新时间序列的聚类分配。作者通过大量和具有最好距离衡量方法的划分聚类,分层聚类,谱聚类比较的实验证明k-shape的鲁棒性。总之,k-shape是准确、高效的时间序列算法。...原创 2018-11-13 20:22:06 · 21487 阅读 · 7 评论