人工智能系列 大数据1-spark中的dataframe
以spark为架构的系统知识
广小辉
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据1 ---Spark 基础解析
Hadoop 历史2003和2004年的Google两篇论文发展历史: 2011年 1.0版本 2012年 稳定版本 2013年 2.x版本, YARN MR的缺点:基于数据集的计算,面向数据,基本运算规则是从存储介质中获取(采集)数据,然后进行计算,将最后的结果存储回介质中,主要用于一次性计算。不适合数据挖掘和机器学习这样的一种迭代计算。MR是基...原创 2020-07-21 21:44:00 · 276 阅读 · 0 评论 -
ALS 算法
一、业务背景主要是没出评分值的user_item_mat ,计算缺失值;二、算法推导三、用python实现算法流程3.1 生成user_item_mat :import numpy as npLATENT_FACTOR = 4user_set = tuple(['user' + str(i) for i in range(1, 8)])item...原创 2019-01-19 17:06:45 · 849 阅读 · 0 评论 -
PYSPARK 学习库
一、pyspark 机器学习库ml1、ML 和 MLlib的区别 ml 目前处于维护状态(只修复bug而不增加新功能),并且以后会支持ml ,MLlib 在spark3.0中可能会被废弃(学习spark的小伙伴直接用ml库就好) ml库基于DataFrame,MLlib基于RDD 。DataFrame是抽象在rdd之上的,其耦合度低,抽象级别更高; m...原创 2019-01-21 22:48:56 · 377 阅读 · 0 评论 -
pyspark 中DataFrame的操作
1、查询1.1 行元素的查询操作--显示:data.show(30) ------ 数据类型:dataframe --取某几行:data.head() ----------数据类型: Rowdata.take(5) , data.head(5) --------list 类型, 注意:两种数据类型不一样!以树的形式打印概要,相当于sql 中的des...原创 2019-01-23 10:08:30 · 1318 阅读 · 0 评论
分享