本文为 「茶桁的 AI 秘籍 - BI 篇 第 17 篇」

Hi, 你好。我是茶桁。
今天给大家介绍另外一个方法:surprise。重点来看一下 surprise 的一些工具的使用。
在此之前,来说明一下 Spark 单机的分布式。其实分布式是一个方法,它把一个数据分成了很多块,这些块是相对独立的,在最后的结果层再把它进行汇总,这个就是一个分布式的概念。那为什么一台机器也可以?
分布式的数据可以放到多台机器,一个数据分成了很多块,块 1 在机器 1 里面,块 2 在机器 2 里面,块 3 在机器 3 里面,分成了不同的块。这样的存储是分布的,计算也是分布的,最后计算完再进行汇总,这个就是分布式的概念。
原来在三台机器的数据现在放在一台机器可不可以?也可以,当你数据量级不大的情况下它也有可能都是在一台机器,在一台机器上分块进行操作这也是 OK 的。所以本身 Spark 是可以单机来进行运行的。
通常情况下,是放在多台机器的性能高还是放在一台机器的性能高?多台机器它的效率会更高,因为计算资源,每一台机器都是相对独立的一台机器,毕竟内存和计算 CPU 是有限的,要共用一个效率其实不高,肯定是多台机器高。
因此 Spark 是可以有单机版在单台机器来进行使用,但是它背后的原理也是分布式。它是把其看成了块 1、块 2,只不过指向的 IP 都是同一个 IP,计算资源都是同一个 CPU 而已。
目标函数的优化方法
接着,来看看 SGD 的概念。
之前的课程主要给大家讲解了交替最小二乘这种方式,随机梯度下降也是在机器学习的模型中比较常见的一个策略。这个策略怎么去学?

订阅专栏 解锁全文
920

被折叠的 条评论
为什么被折叠?



