- 博客(3)
- 收藏
- 关注
原创 spark启动配置整理
spark:为大规模数据处理而设计的快速通用的计算引擎特点:速度快: 比hadoop快 易用性: 多种高级运算符 通用型: 有大量的库 支持多资源管理器spark更快的原因 1、mapreduce基于磁盘进行数据处理,有更高的可靠性,减少了内存占用也降低了性能; spark在内存中进行计算,牺牲内存提高了运行速度 2、mapreduce在shuffle操作时,每一次都要写入磁盘中; ...
2021-11-30 09:52:14
629
原创 逻辑回归笔记
以线性回归为基础,逻辑回归可以处理更加复杂的非线性拟合曲线。较线性回归相比,逻辑回归在的基础上添加了sigmoid函数运算g(z),如下图所示。以(0,1)区分预测正负样本,阈值通常取0.5.逻辑回归的运算方法我们同样使用梯度下降进行极小值的寻找,但因为逻辑回归的曲线比较复杂,所以使用梯度下降很容易陷入一个局部极小值中,我们需要把这种复杂函数变为凸函数,以便求的最小值,如下图所示。所以为了得到一个凸函数,求得最小值点,将代价函数进行修改,以cost()函数替换代价函数。代
2021-11-22 20:30:52
577
原创 线性回归笔记
线性回归:通过模型进行训练,拟合出线性的曲线作为预测举例:通过房屋面积预测房子价格首先,我们需要通过一个线性函数去拟合线性函数,公式如下所示,其中为拟合的线性曲线中的系数,x为特征,为拟合函数我们如何判断拟合曲线是否符合真实的函数曲线两个曲线之间误差不好计算,所以采取最小值的方法将误差计算简化。代价函数 如下图所示个人理解:误差存在正值及负值,所以通过误差平方达到绝对值的作用,取的理由便于导数求导。将曲线拟合的问题简化为代价函数如何取到最后的最小值。其中的..
2021-11-11 17:07:33
669
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人