
【Hadoop & Spark】
文章平均质量分 56
Hadoop生态圈
数据闲逛人
18级双非本科学生
展开
-
泪目!一天终于解决了这个bug Pyspark: Exception: Java gateway process exited before sending the driver its port
Pyspark: Exception: Java gateway process exited before sending the driver its port number原创 2022-09-15 15:00:40 · 1250 阅读 · 0 评论 -
搭建 bitnami/spark里面不能通过vi创建脚本文件 (/var/lib/dpkg/lock-frontend), are you root?
搭建 bitnami/spark里面不能通过vi创建脚本文件 (/var/lib/dpkg/lock-frontend), are you root?原创 2022-09-13 16:36:57 · 935 阅读 · 0 评论 -
pyspark连接mysql出现An error occurred while calling o283.load: java.sql.SQLException: No suitable driver
pyspark连接mysql出现An error occurred while calling o283.load: java.sql.SQLException: No suitable driver原创 2022-06-17 14:42:52 · 762 阅读 · 0 评论 -
AttributeError: ‘RDD‘ object has no attribute ‘toDF‘
AttributeError: ‘RDD‘ object has no attribute ‘toDF‘原创 2022-06-17 09:42:43 · 1267 阅读 · 0 评论 -
Py4JJavaError: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent fai
jupyter搭建spark环境遇到的bug原创 2022-06-16 10:49:13 · 2006 阅读 · 1 评论 -
Windows10 下jupyter配置pyspark + jupyterlab 已下载好所有配置文件
Windows10 下jupyter配置pyspark + jupyterlab 已下载好所有配置文件原创 2022-06-13 18:18:20 · 598 阅读 · 0 评论 -
Spark的一些函数或方法
文章目录1 INSERT OVERWRITE2 left semi3 col("create_time").cast("timestamp")1 INSERT OVERWRITE重刷覆盖数据2 left semi提高效率 具体讲解3 col(“create_time”).cast(“timestamp”)CAST (expression AS data_type) 具体讲解原创 2022-01-24 15:29:42 · 1685 阅读 · 0 评论 -
pyspark.sql.functions中的col函数
嗨喽! 大家好,我是“流水不争先,争得滔滔不绝”的翀,欢迎大家来交流学习,一起入坑数据分析,希望我们一起好好学习,天天向上,目前在社会毒打中~~col函数的作用相当于python中的dadaframe格式的提取data[‘id’],关键是能够进行计算。可能有点难以理解,下面我举行一些例子说明spark中我们想查看一下某列数据可以这么做df_kol_stats.select(col("collect_count")).show(5)+---.原创 2022-01-04 15:07:44 · 6019 阅读 · 3 评论 -
测试了一下jupyter notebook中kernel用的环境spark与python3 读取差不多3千万行数据的运行时间
嗨喽! 大家好,我是“流水不争先,争得滔滔不绝”的翀,欢迎大家来交流学习,一起入坑数据分析,希望我们一起好好学习,天天向上,目前在社会毒打中~~前言 虽然大三接触过大数据技术,但是总是提不起什么兴趣,原来只是我没有意识到大数据spark的力量,是我太孤陋寡闻了,一旦体会到,我已经埋进去了,Spark牛逼!!!测试数据大小:1.43G行数:25509431行首先登场的是python读取.原创 2021-12-30 16:49:28 · 535 阅读 · 0 评论 -
Hive究竟是什么?大白话讲述
嗨喽! 大家好,我是“流水不争先,争得滔滔不绝”的翀,欢迎大家来交流学习,一起入坑数据分析,希望我们一起好好学习,天天向上,目前在社会毒打中~~ 曾几何时我脑海中一直以为Hive是个数据库,毕竟可以写sql查询,后面才知道我错了,而且是大错特错,Hive是一个构建于Hadoop顶层的数据仓库工具,允许用户输入SQL语句进行查询 那后面我就想不.原创 2021-12-30 11:40:18 · 1849 阅读 · 0 评论 -
《Spark编程基础》学习笔记
文章目录前言1 大数据技术概述第2章 Scala语言基础前言最好的学便是教,喜欢记录学习过程中的个人收获和数据竞赛经历,遇见更多有趣的灵魂~~啦啦啦 Github开源项目 数分/挖掘学习笔记(含路线)《Spark编程基础》 教材官网: http://dblab.xmu.edu.cn/post/spark/上林子雨老师的官网可以下载对应ppt,软件等配套资料1 大数据技术概述第2章 Scala语言基础...原创 2021-07-12 22:18:41 · 264 阅读 · 2 评论 -
《大数据技术原理与应用(第2版)》Xmind思维脑图
文章目录前言第 2 章 Hadoop第 3 章HDFS第 4 章 HBase第 7 章 MapReduce参考前言最好的学便是教,喜欢记录学习过程中的个人收获和数据竞赛经历,遇见更多有趣的灵魂~~啦啦啦 Github开源项目 数分/挖掘学习笔记(含路线)大数据技术原理与应用(第2版)》《课程介绍》在线视频观看地址http://dblab.xmu.edu.cn/post/bigdata-online-course/#lesson0第 2 章 Hadoop第 3 章HDFS第 4 章 HB原创 2021-07-12 22:09:48 · 1103 阅读 · 0 评论 -
大三下 大数据架构与技术作业与课堂作业
文章目录**大数据架构与技术****实验一****实验二****实验三****实验四****实验五:****实验六**实验7:**大数据架构与技术****课堂作业:**① 课堂作业1:② 课堂作业2:③ 课堂作业3:课堂作业4:课堂作业5:课堂作业5:大数据架构与技术实验一《大数据基础编程》实验一内容《大数据基础技术》2.1.2操作内容实验二《大数据基础编程》实验二全做(命令和java代码全写)+《大数据基础技术》P82、P83(只写命令不写java代码)实验三《大数据基础编程》第7章+《原创 2021-07-12 21:58:33 · 345 阅读 · 0 评论 -
Hadoop怎么学? 大数据技术学习与进阶路径---->国家精品课程
前言学习内容:《大数据技术原理与应用(第3版)》林子雨老师学习视频: 超链接国家精品课程学习博客:(厦门大学数据库实验室)链接(1)学习软件(2)PPT(3)代码(4)配置好环境的虚拟机…关键!!!进阶内容也有Spark 自己探索吧,如果连这点学习主动性都没有,感觉很难熬,没有人一直推着你走,要靠自我驱动力鸭~持续更新…...原创 2021-05-03 15:36:35 · 109 阅读 · 0 评论