
spark
_Lxuex
do something ,please
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RDD算子
Transformation算子 RDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些 应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给Driver的动作时, 这些转换才会真正运行。这种设计让Spark更加有效率地运行。 转换 含义 map(func) 返回一个新的RDD,该RDD由每一个输 入元素经过func函数转...原创 2019-10-10 10:27:01 · 163 阅读 · 0 评论 -
DataFrame API 实战
数据集…这是练习CF的数据集…直接拿来用了 MovieLens 1M Dataset 文本格式: users.dat UserID::Gender::Age::Occupation::Zip-code movies.dat MovieID::Title::Genres ratings.dat UserID::MovieID::Rating::Timestamp 因为SparkSession对读取文...原创 2019-11-07 10:45:50 · 354 阅读 · 0 评论 -
DataFrame API 操作
测试文本 {"name":"Michael","age": 29} {"name":"Andy", "age":30} {"name":"Justin", "age":19} 读取文件: val df: DataFrame = session.read.json("src/file/sql/people.json") 1.printSchema() 官方解释:Prints the plans ...原创 2019-11-06 20:07:37 · 843 阅读 · 0 评论